Lakehousetutorial: Erfassen von Daten im Lakehouse

In diesem Tutorial erfassen Sie weitere Dimensions- und Faktentabellen aus den Wide World Importers (WWI) im Lakehouse.

Voraussetzungen

  • Wenn Sie kein Lakehouse haben, müssen Sie ein Lakehouse erstellen.

Erfassen von Daten

In diesem Abschnitt verwenden Sie die Aktivität Daten kopieren der Data Factory-Pipeline, um Beispieldaten aus einem Azure-Speicherkonto im Abschnitt Dateien des zuvor erstellten Lakehouse zu erfassen.

  1. Wählen Sie im linken Navigationsbereich Arbeitsbereiche aus, und wählen Sie dann Ihren neuen Arbeitsbereich aus dem Menü Arbeitsbereiche aus. Die Elementansicht Ihres Arbeitsbereichs wird angezeigt.

  2. Wählen Sie aus dem Menüpunkt +Neu in der Multifunktionsleiste des Arbeitsbereichs die Option Datenpipeline.

    Screenshot: Erstellen einer neuen Datenpipeline

  3. Geben Sie im Dialogfeld Neue Pipeline den Namen IngestDataFromSourceToLakehouse ein, und wählen Sie Erstellen aus. Eine neue Data Factory-Pipeline wird erstellt und geöffnet.

  4. Wählen Sie in Ihrer neu erstellten Data Factory-Pipeline Pipelineaktivität aus, um der Pipeline eine Aktivität hinzuzufügen, und wählen Sie dann Daten kopieren aus. Diese Aktion fügt der Pipelinecanvas die Aktivität „Daten kopieren“ hinzu.

    Screenshot: Auswählen von Pipelineaktivität und „Daten kopieren“

  5. Wählen Sie die neu hinzugefügte Aktivität „Daten kopieren“ aus der Canvas aus. Die Aktivitätseigenschaften werden in einem Bereich unterhalb der Canvas angezeigt. Möglicherweise müssen Sie den Bereich nach oben erweitern, indem Sie den oberen Rand ziehen. Geben Sie auf der Registerkarte Allgemein im Bereich Eigenschaften in das Feld Name den Text Daten nach Lakehouse kopieren ein.

    Screenshot: Hinzufügen des Namens für die Datenkopieraktivität auf der Registerkarte „Allgemein“

  6. Wählen Sie auf der Registerkarte Quelle der ausgewählten Datenkopieraktivität die Option Extern als Datenspeichertyp und dann + Neu aus, um eine neue Verbindung mit der Datenquelle herzustellen.

    Screenshot: Auswahl der Optionen Extern und + Neu auf der Registerkarte Quelle

  7. In diesem Tutorial sind alle Beispieldaten in einem öffentlichen Container von Azure Blob Storage verfügbar. Sie stellen eine Verbindung mit diesem Container her, um Daten aus diesem zu kopieren. Wählen Sie auf dem ersten Bildschirm Neue Verbindung die Option Azure Blob Storage und dann Weiter aus.

    Screenshot: Assistent „Neue Verbindung“ mit Auswahl von „Azure Blob Storage“

  8. Geben Sie auf dem Bildschirm Verbindungseinstellungen die folgenden Details ein, und wählen Sie Erstellen aus, um die Verbindung mit der Datenquelle herzustellen.

    Eigenschaft Wert
    Kontoname oder URL https://azuresynapsestorage.blob.core.windows.net/sampledata
    Verbindung Neue Verbindung erstellen
    Verbindungsname wwisampledata
    Authentifizierungsart Anonym

    Screenshot: Bildschirm „Verbindungseinstellungen“ mit Eingabe der Details und Auswahl von „Erstellen“

  9. Nachdem die neue Verbindung erstellt wurde, kehren Sie zur Registerkarte Quelle der Datenkopieraktivität zurück. Die neu erstellte Verbindung ist standardmäßig ausgewählt. Geben Sie die folgenden Eigenschaften an, bevor Sie zu den Zieleinstellungen wechseln:

    Eigenschaft Wert
    Datenspeichertyp Extern
    Verbindung wwisampledata
    Dateipfadtyp Dateipfad
    Dateipfad Containername (erstes Textfeld): sampledata
    Verzeichnisname (zweites Textfeld): WideWorldImportersDW/parquet
    Rekursiv Überprüft
    Dateiformat Binär

    Screenshot: Registerkarte „Quelle“ mit Eingabefeld für Details

  10. Geben Sie auf der Registerkarte Ziel der ausgewählten Datenkopieraktivität die folgenden Eigenschaften an:

    Eigenschaft Wert
    Datenspeichertyp Arbeitsbereich
    Datenspeichertyp des Arbeitsbereichs Lakehouse
    Lakehouse wwilakehouse
    Stammordner Dateien
    Dateipfad Verzeichnisname (erstes Textfeld): wwi-raw-data
    Dateiformat Binär

    Screenshot: Registerkarte „Ziel“ mit Eingabefeld für Details

  11. Somit haben Sie die Aktivität Daten kopieren konfiguriert. Wählen Sie das Symbol Speichern in der oberen Multifunktionsleiste (unter Start), um Ihre Änderungen zu speichern, und wählen Sie Ausführen, um Ihre Pipeline und ihre Aktivität auszuführen. Sie können Pipelines auch planen, um Daten in definierten Intervallen zu aktualisieren und Ihre unternehmensspezifischen Anforderungen zu erfüllen. In diesem Tutorial führen wir die Pipeline nur einmal aus, indem wir Ausführen auswählen.

    Diese Aktion löst das Kopieren von Daten aus der zugrunde liegenden Datenquelle in das angegebene Lakehouse aus. Der Vorgang kann bis zu einer Minute dauern. Sie können die Ausführung der Pipeline und deren Aktivitäten auf der Registerkarte Ausgabe überwachen, die angezeigt wird, wenn Sie auf eine beliebige Stelle auf der Canvas klicken. Optional können Sie das Brillensymbol auswählen, das angezeigt wird, wenn Sie mit der Maus auf den Namen zeigen, um sich die Details der Datenübertragung anzusehen.

    Screenshot: Auswählen von „Speichern“ und „Ausführen“ sowie Ausführungsdetail und Brillensymbol auf der Registerkarte „Ausgabe“

  12. Nachdem die Daten kopiert wurden, wechseln Sie zur Elementansicht des Arbeitsbereichs, und wählen Sie Ihr neues Lakehouse (wwilakehouse) aus, um die Explorer-Ansicht zu öffnen.

    Der Screenshot zeigt, wo Sie das Lakehouse auswählen müssen, um die Explorer-Ansicht zu öffnen.

  13. Überprüfen Sie, ob in der Explorer-Ansicht ein neuer Ordner wwi-raw-data erscheint und die Daten für alle Tabellen auch dorthin kopiert werden.

    Screenshot: In den Lakehouse-Explorer kopierte Quelldaten

Um inkrementelle Daten in ein Lakehouse zu laden, siehe Inkrementelles Laden von Daten aus einem Data Warehouse in ein Lakehouse.

Nächster Schritt