Tutorial: Erfassen von Event Hubs-Daten im Parquet-Format und Analysieren der Daten mit Azure Synapse Analytics

In diesem Tutorial wird gezeigt, wie Sie den No-Code-Editor von Stream Analytics verwenden, um einen Auftrag zu erstellen, der Event Hubs-Daten in Azure Data Lake Storage Gen2 im Parquetformat aufzeichnet.

In diesem Tutorial lernen Sie Folgendes:

  • Bereitstellen eines Ereignis-Generators, der Beispielereignisse an einen Event Hub sendet
  • Erstellen eines Stream Analytics-Auftrags mit dem No-Code-Editor
  • Überprüfen von Eingabedaten und Schema
  • Konfigurieren von Azure Data Lake Storage Gen2, in den Event Hub-Daten erfasst werden
  • Ausführen des Stream Analytics-Auftrags
  • Verwenden von Azure Synapse Analytics zum Abfragen Parquet-Dateien

Voraussetzungen

Stellen Sie zunächst sicher, dass Sie folgende Schritte abgeschlossen haben:

Verwenden des No-Code-Editors zum Erstellen eines Stream Analytics-Auftrags

  1. Suchen Sie die Ressourcengruppe, in der der TollApp-Ereignisgenerator bereitgestellt wurde.

  2. Wähen Sie den Azure Event Hubs-Namespace aus.

  3. Wählen Sie auf der Seite Event Hubs-NamespaceEvent Hubs unter Entitäten im linken Menü aus.

  4. Wählen Sie die entrystream-Instanz aus.

    Screenshot: Auswahl des Event Hubs.

  5. Wählen Sie auf der Seite Event Hubs-Instanz die Option Daten verarbeiten im Abschnitt Features im linken Menü aus.

  6. Wählen Sie auf der Kachel Daten im Parquet-Format in ADLS Gen2 erfassen die Option Start aus.

    Screenshot: Auswahl der Kachel **Daten in ADLS Gen2 erfassen im Parquet-Format**.

  7. Benennen Sie Ihren Auftrag parquetcapture, und wählen Sie Erstellen aus.

    Screenshot: Seite „Neuer Stream Analytics-Auftrag“.

  8. Bestätigen Sie auf der Event Hub-Konfigurationsseite die folgenden Einstellungen, und wählen Sie dann Verbinden aus.

    • Name der Consumergruppe: Default

    • Serialisierungstyp Ihrer Eingabedaten: JSON

    • Authentifizierungsmodus, den der Auftrag verwendet, um eine Verbindung mit Ihrem Event Hub herzustellen: Verbindungszeichenfolge.

      Screenshot: Konfigurationsseite für Ihren Event Hub.

  9. Innerhalb weniger Sekunden werden Beispieleingabedaten und das Schema angezeigt. Sie können Felder löschen, Felder umbenennen oder den Datentyp ändern.

    Screenshot: Felder und Datenvorschau.

  10. Wählen Sie die Kachel Azure Data Lake Storage Gen2 im Zeichenbereich aus, und konfigurieren Sie mit folgenden Angaben:

    • Abonnement, in dem sich Ihr Azure Data Lake Gen2-Konto befindet
    • Name des Speicherkontos, der mit dem ADLS Gen2-Konto übereinstimmen sollte, das mit Ihrem Azure Synapse Analytics-Arbeitsbereich aus dem Abschnitt „Voraussetzungen“ verwendet wurde.
    • Container, in dem die Parquet-Dateien erstellt werden.
    • Pfadmuster auf {date}/{time} festgelegt
    • Datums- und Uhrzeitmuster wie Standard (JJJJ-MM-TT und HH).
    • Wählen Sie Verbinden aus.

    Screenshot: Konfigurationseinstellungen für den Data Lake Storage.

  11. Wählen Sie im oberen Menüband Speichern aus, um Ihren Auftrag zu speichern, und wählen Sie dann Start aus, um Ihren Auftrag auszuführen. Nachdem der Auftrag gestartet wurde, wählen Sie in der rechten Ecke X aus, um die Stream Analytics-Auftragsseite zu schließen.

    Screenshot: Auftragsfenster „Stream Analytics-Auftrag starten“.

  12. Anschließend wird eine Liste aller Stream Analytics-Aufträge angezeigt, die mit dem No-Code-Editor erstellt wurden. Und innerhalb von zwei Minuten wechselt Ihr Auftrag in den Zustand Wird ausgeführt. Wählen Sie die Schaltfläche Aktualisieren auf der Seite aus, um zu sehen, wie der Status von „Erstellt“ > „Wird gestartet“ > „Wird ausgeführt“ wechselt.

    Screenshot: Liste der Stream Analytics-Aufträge.

Anzeigen der Ausgabe in Ihrem Azure Data Lake Storage Gen 2-Konto

  1. Suchen Sie das Azure Data Lake Storage Gen2-Konto, das Sie im vorherigen Schritt verwendet haben.

  2. Wählen Sie den Container aus, den Sie im vorherigen Schritt verwendet haben. Sie sehen Parquet-Dateien, die auf der Grundlage des im vorherigen Schritt verwendeten Pfadmusters {date}/{time} erstellt wurden.

    Screenshot: Erfasste Parquet-Dateien in Azure Data Lake Storage Gen 2

Abfragen erfasster Daten im Parquet-Format mit Azure Synapse Analytics

Abfragen mit Azure Synapse Spark

  1. Suchen Sie Ihren Azure Synapse Analytics-Arbeitsbereich, und öffnen Sie Synapse Studio.

  2. Erstellen Sie einen serverlosen Apache Spark-Pool in Ihrem Arbeitsbereich, wenn noch nicht vorhanden ist.

  3. Navigieren Sie in Synapse Studio zum Hub Entwickeln, und erstellen Sie ein neues Notebook.

  4. Erstellen Sie eine neue Codezelle, und fügen Sie den folgenden Code in diese Zelle ein. Ersetzen Sie container durch den Namen des Containers und adlsname durch den Namen des ADLS Gen2-Kontos, die im vorherigen Schritt verwendet wurden.

    %%pyspark
    df = spark.read.load('abfss://container@adlsname.dfs.core.windows.net/*/*/*.parquet', format='parquet')
    display(df.limit(10))
    df.count()
    df.printSchema()
    
  5. Wählen Sie unter Anfügen an auf der Symbolleiste Ihren Spark-Pool aus der Dropdownliste aus.

  6. Wählen Sie Alle Ausführen aus, um die Ergebnisse anzuzeigen.

    Screenshot: Ergebnisse der Spark-Ausführung in Azure Synapse Analytics.

Abfragen mit Azure Synapse SQL (serverlos)

  1. Erstellen Sie im Hub Entwickeln ein neues SQL-Skript.

    Screenshot der Seite „Entwickeln“ mit dem neuen ausgewählten SQL-Skriptmenü

  2. Fügen Sie das folgende Skript ein, und führen Sie es mithilfe des integrierten serverlosen SQL Endpunkts aus. Ersetzen Sie container durch den Namen des Containers und adlsname durch den Namen des ADLS Gen2-Kontos, die im vorherigen Schritt verwendet wurden.

    SELECT
        TOP 100 *
    FROM
        OPENROWSET(
            BULK 'https://adlsname.dfs.core.windows.net/container/*/*/*.parquet',
            FORMAT='PARQUET'
        ) AS [result]
    

    Screenshot: SQL-Skriptergebnisse in Azure Synapse Analytics.

Bereinigen von Ressourcen

  1. Suchen Sie Ihre Event Hubs-Instanz, und sehen Sie sich die Liste der Stream Analytics-Aufträge im Abschnitt Daten verarbeiten an. Beenden Sie alle ausgeführten Aufträge.
  2. Wechseln Sie zur Ressourcengruppe, die Sie beim Bereitstellen des TollApp-Ereignisgenerators verwendet haben.
  3. Wählen Sie die Option Ressourcengruppe löschen. Geben Sie den Namen der Ressourcengruppe ein, um den Löschvorgang zu bestätigen.

Nächste Schritte

In diesem Tutorial haben Sie gelernt, wie Sie einen Stream Analytics-Auftrag mit dem No-Code-Editor erstellen, um Event Hubs-Datenströme im Parquet-Format zu erfassen. Anschließend haben Sie Azure Synapse Analytics verwendet, um die Parquet-Dateien mithilfe von Synapse Spark und Synapse SQL abzufragen.