Schnellstart: Interaktives Data Wrangling mit Apache Spark in Azure Machine Learning

Die Azure Machine Learning-Integration mit Azure Synapse Analytics bietet einfachen Zugriff auf das Apache Spark-Framework, um interaktives Data Wrangling mithilfe von Azure Machine Learning-Notebooks zu handhaben. Dieser Zugriff ermöglicht Data Wrangling mithilfe von Azure Machine Learning Notebooks.

In dieser Schnellstartanleitung erfahren Sie, wie Sie interaktives Data Wrangling mithilfe eines Azure Machine Learning Serverless Spark Compute, eines Azure Data Lake Storage (ADLS) Gen 2-Speicherkontos und eines Passthrough für die Benutzeridentität durchführen.

Voraussetzungen

Speichern von Anmeldeinformationen für Azure-Speicherkonten als Geheimnisse in Azure Key Vault

So speichern Sie Anmeldeinformationen für Azure-Speicherkonten über die Benutzeroberfläche des Azure-Portals als Geheimnisse mit der Azure Key Vault-Instanz:

  1. Navigieren Sie im Azure-Portal zu Ihrer Azure Key Vault-Instanz

  2. Wählen Sie im linken Bereich Geheimnisse aus

  3. Wählen Sie die Option + Generieren/Importieren aus.

    Screenshot: Die Registerkarte „Generieren/Importieren“ der Azure Key Vault-Instanz.

  4. Geben Sie auf dem Bildschirm Geheimnis erstellen einen Namen für das zu erstellende Geheimnis ein

  5. Navigieren Sie im Azure-Portal wie unten im Bild dargestellt zum Azure Blob Storage-Konto:

    Screenshot: Der Bildschirm mit dem Azure-Zugriffsschlüssel und den Werten der Verbindungszeichenfolge.

  6. Wählen Sie im linken Bereich der Seite des Azure Blob Storage-Kontos die Option Zugriffsschlüssel aus

  7. Wählen Sie neben Schlüssel 1 die Option Anzeigen und dann In Zwischenablage kopieren aus, um den Zugriffsschlüssel des Speicherkontos abzurufen

    Hinweis

    Wählen Sie die entsprechenden Optionen zum Kopieren

    • SAS-Token (Shared Access Signature) für Azure Blob Storage-Container
    • Anmeldeinformationen des Dienstprinzipals für ADLS Gen2-Speicherkonten (Azure Data Lake Storage)
      • tenant ID
      • Client-ID und
      • secret

    auf den jeweiligen Benutzeroberflächen aus, während Sie Azure Key Vault-Geheimnisse für diese erstellen

  8. Navigieren Sie zurück zum Bildschirm Geheimnis erstellen

  9. Geben Sie im Textfeld Geheimniswert die Anmeldeinformationen für den Zugriffsschlüssel für das Azure-Speicherkonto ein, der im vorherigen Schritt in die Zwischenablage kopiert wurde

  10. Klicken Sie auf Erstellen

    Screenshot: Bildschirm zum Erstellen von Azure-Geheimnissen.

Tipp

Azure CLI und die Clientbibliothek mit Azure Key Vault-Geheimnissen für Python können auch Azure Key Vault-Geheimnisse erstellen.

Hinzufügen von Rollenzuweisungen in Azure-Speicherkonten

Wir müssen sicherstellen, dass auf die Eingabe- und Ausgabedatenpfade zugegriffen werden kann, bevor wir mit dem interaktiven Data Wrangling beginnen. Zunächst müssen wir

  • der Benutzeridentität des angemeldeten Notebooks-Sitzungsbenutzers

    oder

  • einem Dienstprinzipal

Weisen Sie der Benutzeridentität des angemeldeten Benutzers die Rollen Leser und Leser von Speicher-BLOB-Daten zu. In bestimmten Szenarios sollten wir die aufbereiteten Daten jedoch zurück in das Azure-Speicherkonto schreiben. Die Rollen Leser und Storage-Blobdatenleser bieten schreibgeschützten Zugriff für die Benutzeridentität oder den Dienstprinzipal. Wenn Sie den Lese- und Schreibzugriff aktivieren möchten, weisen Sie der Benutzeridentität oder dem Dienstprinzipal die Rollen Mitwirkender und Mitwirkender an Storage-Blobdaten zu. So weisen Sie der Benutzeridentität geeignete Rollen zu

  1. Öffnen Sie das Microsoft Azure-Portal

  2. Suchen Sie nach dem Dienst Speicherkonten, und wählen Sie ihn aus

    Erweiterbarer Screenshot der Suche nach dem Dienst „Speicherkonto“ und seiner Auswahl im Microsoft Azure-Portal

  3. Wählen Sie auf der Seite Speicherkonten in der Liste das Speicherkonto Azure Data Lake Storage Gen 2 (ADLS) aus. Eine Seite mit der Übersicht für das Speicherkonto öffnet sich

    Erweiterbarer Screenshot der Auswahl des Speicherkontos Azure Data Lake Storage Gen2 (ADLS)

  4. Wählen Sie im linken Bereich Zugriffssteuerung (IAM) aus.

  5. Wählen Sie Rollenzuweisung hinzufügen aus.

    Screenshot: Der Bildschirm mit Azure-Zugriffsschlüsseln

  6. Wählen Sie die Rolle Mitwirkender an Storage-Blobdaten aus.

  7. Wählen Sie Weiter aus.

    Screenshot: Azure Bildschirm „Rollenzuweisung hinzufügen“

  8. Wählen Sie User, group, or service principal (Benutzer, Gruppe oder Dienstprinzipal) aus

  9. Wählen Sie + Mitglieder auswählen aus

  10. Suchen Sie unter Auswählen nach der Benutzeridentität.

  11. Wählen Sie die Benutzeridentität in der Liste aus, sodass sie unter Ausgewählte Mitglieder angezeigt wird.

  12. Wählen Sie die entsprechende Benutzeridentität aus.

  13. Wählen Sie Weiter aus.

    Screenshot: Die Registerkarte „Mitglieder“ auf dem Bildschirm „Rollenzuweisung hinzufügen“ in Azure.

  14. Wählen Sie Überprüfen und zuweisen aus.

    Screenshot: Die Registerkarte „Review + assign“ (Überprüfen und zuweisen) auf dem Bildschirm „Rollenzuweisung hinzufügen“ in Azure

  15. Wiederholen Sie die Schritte 2 bis 13 für die Zuweisung der Rolle Mitwirkender

Sobald der Benutzeridentität oder dem Dienstprinzipal die entsprechenden Rollen zugewiesen wurden, sollten die Daten im Azure-Speicherkonto zugänglich sein.

Hinweis

Wenn ein angefügter Synapse Spark-Pool auf einen Synapse Spark-Pool in einem Azure Synapse-Arbeitsbereich verweist, dem ein verwaltetes virtuelles Netzwerk zugeordnet ist, sollten Sie ein verwalteter privater Endpunkt für das Speicherkonto konfigurieren, um den Zugriff auf die Daten sicherzustellen.

Sicherstellen des Ressourcenzugriffs für Spark-Aufträge

Spark-Aufträge können entweder eine verwaltete Identität oder einen Passthrough für die Benutzeridentität verwenden, um auf Daten und andere Ressourcen zuzugreifen. In der folgenden Tabelle sind die verschiedenen Mechanismen für den Ressourcenzugriff bei der Verwendung des serverlosen Spark Compute von Azure Machine Learning und des angeschlossenen Synapse Spark-Pools zusammengefasst.

Spark-Pool Unterstützte Identitäten Standardidentität
Serverloses Spark Compute Benutzeridentität, benutzerseitig zugewiesene verwaltete Identität, die dem Arbeitsbereich zugeordnet ist Benutzeridentität
Angefügter Synapse Spark-Pool Benutzeridentität, benutzerseitig zugewiesene verwaltete Identität, die dem angefügten Synapse Spark-Pool zugeordnet ist, systemseitig zugewiesene verwaltete Identität des angefügten Synapse Spark-Pools Vom System zugewiesene verwaltete Identität des angefügten Synapse Spark-Pools

Wenn der CLI- oder SDK-Code eine Option für die Verwendung einer verwalteten Identität definiert, stützt sich das serverlose Spark Compute von Azure Machine Learning auf eine vom Benutzer zugewiesene verwaltete Identität, die dem Arbeitsbereich zugeordnet ist. Sie können mithilfe von Azure Machine Learning CLI v2 oder mit ARMClient eine benutzerseitig zugewiesene verwaltete Identität an einen vorhandenen Azure Machine Learning-Arbeitsbereich anfügen.

Nächste Schritte