Laden von Daten in Azure Data Lake Storage Gen1 mit Azure Data Factory

GILT FÜR: Azure Data Factory Azure Synapse Analytics

Tipp

Testen Sie Data Factory in Microsoft Fabric, eine All-in-One-Analyselösung für Unternehmen. Microsoft Fabric deckt alle Aufgaben ab, von der Datenverschiebung bis hin zu Data Science, Echtzeitanalysen, Business Intelligence und Berichterstellung. Erfahren Sie, wie Sie kostenlos eine neue Testversion starten!

Azure Data Lake Storage Gen1 (bisher als Azure Data Lake Store bezeichnet) ist ein unternehmensweites Repository mit Hyperskalierung für Big Data-Analyseworkloads. Mit Data Lake Storage Gen1 können Sie Daten von beliebiger Größe, Art und Erfassungsgeschwindigkeit erfassen. Die Daten werden an einer einzelnen Stelle zur Durchführung operativer und explorativer Analysen erfasst.

Azure Data Factory ist ein vollständig verwalteter, cloudbasierter Datenintegrationsdienst. Mithilfe dieses Diensts können Sie den Lake mit Daten aus dem vorhandenen System füllen und Zeit beim Erstellen von Analyselösungen sparen.

Azure Data Factory bietet die folgenden Vorteile beim Laden von Daten in Data Lake Storage Gen1:

  • Mühelose Einrichtung: Intuitiver Assistent mit 5 Schritten. Keine Skripterstellung erforderlich.
  • Unterstützung für umfangreiche Datenspeicher: Integrierte Unterstützung für umfangreiche lokale und cloudbasierte Datenspeicher. Eine ausführliche Liste finden Sie in der Tabelle Unterstützte Datenspeicher.
  • Sicher und kompatibel: Daten werden über HTTPS oder ExpressRoute übertragen. Globale Dienste stellen sicher, dass Ihre Daten nie die geografische Grenze verlassen.
  • Hohe Leistung: Bis zu 1GB/s Datenladegeschwindigkeit in Data Lake Storage Gen1. Weitere Informationen finden Sie unter Leistung der Kopieraktivität.

In diesem Artikel erfahren Sie, wie Sie das Tool zum Kopieren von Daten in Data Factory zum Laden von Daten aus Amazon S3 in Data Lake Storage Gen1 verwenden. Sie können ähnliche Schritte zum Kopieren von Daten aus anderen Typen von Datenspeichern ausführen.

Voraussetzungen

  • Azure-Abonnement: Wenn Sie kein Azure-Abonnement besitzen, können Sie ein kostenloses Konto erstellen, bevor Sie beginnen.
  • Data Lake Storage Gen1-Konto: Wenn Sie nicht über ein Data Lake Storage Gen1-Konto verfügen, lesen Sie die Anweisungen unter Erstellen eines Data Lake Storage Gen1-Kontos.
  • Amazon S3: Dieser Artikel zeigt, wie Daten aus Amazon S3 kopiert werden. Sie können andere Datenspeicher verwenden, indem Sie ähnliche Schritte ausführen.

Erstellen einer Data Factory

  1. Wenn Sie Ihre Data Factory noch nicht erstellt haben, befolgen Sie die Schritte im Schnellstart: Erstellen einer Data Factory mithilfe des Azure-Portals und Azure Data Factory Studio, um eine zu erstellen. Navigieren Sie nach dem Erstellen zur Data Factory im Azure-Portal.

    Startseite für Azure Data Factory mit der Kachel „Open Azure Data Factory Studio“

  2. Klicken Sie auf der Kachel Open Azure Data Factory Studio auf Öffnen, um die Datenintegrationsanwendung in einer separaten Registerkarte zu starten.

Laden von Daten in Data Lake Storage Gen1

  1. Wählen Sie auf der Homepage die Kachel Erfassen aus, um das Tool zum Kopieren von Daten zu starten:

    Screenshot, der die ADF-Startseite zeigt.

  2. Geben Sie auf der Seite Eigenschaften im Feld Aufgabenname den Namen CopyFromAmazonS3ToADLS ein, und klicken Sie dann auf Weiter:

    Eigenschaftenseite

  3. Wählen Sie auf der Seite Quelldatenspeicher die Option + Neue Verbindung erstellen aus:

    Seite „Quelldatenspeicher“

    Wählen Sie Amazon S3 und dann Weiter aus.

    Seite „Quelldatenspeicher“ für S3

  4. Führen Sie auf der Seite Amazon S3-Verbindung angeben die folgenden Schritte aus:

    1. Geben Sie den Wert für die Zugriffsschlüssel-ID an.

    2. Geben Sie den Wert für den geheimen Zugriffsschlüssel an.

    3. Wählen Sie Fertig stellen aus.

      Screenshot des Bereichs „Neuer verknüpfter Dienst“ zum Eingeben von Werten

    4. Es wird eine neue Verbindung angezeigt. Wählen Sie Weiter aus.

    Screenshot der neuen Verbindung

  5. Navigieren Sie auf der Seite Eingabedatei oder -ordner auswählen zu dem Ordner und der Datei, die Sie kopieren möchten. Wählen Sie den Ordner/die Datei aus, klicken Sie auf Auswählen, und klicken Sie dann auf Weiter:

    Auswählen der Eingabedatei bzw. des Eingabeordners

  6. Wählen Sie das Kopierverhalten aus, indem Sie die Optionen Dateien rekursiv kopieren und Binärkopie (unverändertes Kopieren von Dateien) aktivieren. Klicken Sie auf Weiter:

    Screenshot der Seite „Eingabedatei oder -ordner auswählen“ mit den Optionen „Dateien rekursiv kopieren“ und „Binärkopie“

  7. Wählen Sie auf der Seite Zieldatenspeicher + Neue Verbindung erstellen und dann Azure Data Lake Storage Gen1 und dann Weiter aus:

    Seite „Zieldatenspeicher“

  8. Führen Sie auf der Seite Neuer verknüpfter Dienst (Azure Data Lake Storage Gen1) die folgenden Schritte aus:

    1. Wählen Sie Ihr Data Lake Storage Gen1-Konto für den Data Lake Store-Kontonamen aus.
    2. Geben Sie den Mandanten an, und wählen Sie „Fertig stellen“ aus.
    3. Wählen Sie Weiter aus.

    Wichtig

    In dieser exemplarischen Vorgehensweise verwenden Sie eine verwaltete Identität für Azure-Ressourcen, um Ihr Data Lake Storage Gen1-Konto zu authentifizieren. Achten Sie darauf, dass Sie der verwalteten Dienstidentität (Managed Service Identity, MSI) die entsprechenden Berechtigungen in Data Lake Storage Gen1 erteilen. Befolgen Sie dazu diese Anweisungen.

    Angeben des Data Lake Storage Gen1-Kontos

  9. Geben Sie auf der Seite Ausgabedatei oder -ordner auswählen die Zeichenfolge copyfroms3 als Name für den Ausgabeordner ein, und klicken Sie dann auf Weiter:

    Screenshot des eingegebenen Ordnerpfads

  10. Klicken Sie auf der Seite Einstellungen auf Weiter:

    Seite

  11. Überprüfen Sie auf der Seite Zusammenfassung die Einstellungen, und klicken Sie dann auf Weiter:

    Seite „Zusammenfassung“

  12. Klicken Sie auf der Seite Bereitstellung auf Überwachen, um die Pipeline (Task) zu überwachen:

    Bereitstellungsseite

  13. Beachten Sie, dass die Registerkarte Überwachen auf der linken Seite automatisch ausgewählt ist. In der Spalte Aktionen werden Links zum Anzeigen von Aktivitätsausführungsdetails und zum erneuten Ausführen der Pipeline angezeigt:

    Überwachen der Pipelineausführungen

  14. Klicken Sie in der Spalte Aktionen auf den Link Aktivitätsausführungen anzeigen, um mit der Pipelineausführung verknüpfte Aktivitätsausführungen anzuzeigen. Da die Pipeline nur eine Aktivität (Copy-Aktivität) enthält, wird nur ein Eintrag angezeigt. Klicken Sie oben auf den Link Pipelines, um zurück zur Ansicht mit den Pipelineausführungen zu wechseln. Klicken Sie zum Aktualisieren der Liste auf Aktualisieren.

    Überwachung der Aktivitätsausführungen

  15. Zum Überwachen der Ausführungsdetails jeder Kopieraktivität wählen Sie in der Aktivitätsüberwachungsansicht unter Aktionen den Link Details aus. Sie können Details wie die Menge der Daten, die aus der Quelle in die Senke kopiert wurden, den Datendurchsatz, die Ausführungsschritte mit entsprechender Dauer sowie die verwendeten Konfigurationen überwachen:

    Überwachen der Details zur Aktivitätsausführung

  16. Stellen Sie sicher, dass die Daten in Ihr Data Lake Storage Gen1-Konto kopiert werden:

    Überprüfen der Data Lake Storage Gen1-Ausgabe

Lesen Sie den folgenden Artikel, um mehr über die Unterstützung von Data Lake Storage Gen1 zu erfahren: