Guida di avvio rapido: data wrangling interattivo con Apache Spark in Azure Machine Learning
Per gestire il data wrangling interattivo dei notebook di Azure Machine Learning, l'integrazione di Azure Machine Learning con Azure Synapse Analytics consente di accedere facilmente al framework Apache Spark. Questo accesso consente il data wrangling interattivo del notebook Azure Machine Learning.
Questa guida di avvio rapido illustra come eseguire il data wrangling interattivo con l’elaborazione Spark serverless di Azure Machine Learning, l'account di archiviazione di Azure Data Lake Storage (ADLS) Gen 2 e il pass-through dell'identità utente.
Prerequisiti
- Sottoscrizione di Azure; se non si ha una sottoscrizione di Azure, creare un account gratuito prima di iniziare.
- Un'area di lavoro di Azure Machine Learning. Visitare Creare le risorse dell'area di lavoro.
- Un account di archiviazione di Azure Data Lake Storage (ADLS) Gen 2. Visitare Creare un account di archiviazione di Azure Data Lake Storage (ADLS) Gen 2.
Archiviare le credenziali dell'account di archiviazione di Azure come segreti in Azure Key Vault
Per archiviare le credenziali dell'account di archiviazione di Azure come segreti in Azure Key Vault con l'interfaccia utente del portale di Azure:
Passare ad Azure Key Vault nel portale di Azure
Selezionare Segreti nel riquadro sinistro
Selezionare +Genera/Importa
Nella schermata Crea un segreto, immettere un Nome per il segreto da creare
Passare all'account di Archiviazione BLOB di Azure, nel portale di Azure, come illustrato in questa immagine:
Selezionare Chiavi di accesso nel pannello sinistro della pagina dell'account di Archiviazione BLOB di Azure
Selezionare Mostra accanto a Chiave 1 e quindi Copia negli Appunti per ottenere la chiave di accesso dell'account di archiviazione
Nota
Selezionare le opzioni appropriate da copiare
- Token di firma di accesso condiviso del contenitore di archiviazione BLOB di Azure
- Credenziali dell'entità servizio dell'account di archiviazione di Azure Data Lake Storage (ADLS) Gen 2
- ID del tenant
- ID client e
- secret
nelle rispettive interfacce utente durante la creazione di segreti di Azure Key Vault
Tornare alla schermata Crea un segreto
Nella casella di testa Valore segreto, immettere le credenziali della chiave di accesso per l'account di archiviazione di Azure, copiato negli Appunti nel passaggio precedente
Selezionare Crea.
Suggerimento
L'interfaccia della riga di comando di Azure e la libreria client dei segreti di Azure Key Vault per Python possono anche creare segreti di Azure Key Vault.
Aggiungere assegnazioni di ruolo negli account di archiviazione di Azure
È necessario assicurarsi che i percorsi di dati di input e output siano accessibili prima di avviare il data wrangling interattivo. In primo luogo, per
l'identità utente dell’utente che ha eseguito l'accesso alla sessione di Notebooks
or
Un'entità servizio
per assegnare i ruoli di Lettore e Lettore dei dati del BLOB di archiviazione all'identità utente dell'utente connesso. In alcuni scenari, tuttavia, potrebbe essere necessario scrivere nuovamente i dati scelti nell'account di archiviazione di Azure. I ruoli Lettore e Lettore dei dati del BLOB di archiviazione forniscono l'accesso in sola lettura all'identità utente o all'entità servizio. Per abilitare l'accesso in lettura e scrittura, assegnare i ruoli Collaboratore e Collaboratore ai dati dei BLOB di archiviazione all'identità utente o all'entità servizio. Per assegnare ruoli appropriati all'identità utente:
Aprire il portale di Microsoft Azure
Cercare e selezionare il servizio Account di archiviazione
Nella pagina Account di archiviazione selezionare l'account di archiviazione di Azure Data Lake Storage (ADLS) Gen 2 nell'elenco. Viene aperta la pagina Panoramica per l'account di archiviazione
Selezionare Controllo di accesso (IAM) nel pannello a sinistra
Selezionare Aggiungi assegnazione di ruolo
Trovare e selezionare il ruolo Collaboratore ai dati dei BLOB di archiviazione
Selezionare Avanti.
Selezionare Utente, gruppo o entità servizio
Selezionare +Selezionare i membri
Cercare l'identità utente sotto Seleziona
Selezionare l'identità utente nell'elenco, in modo che venga visualizzata in Membri selezionati
Selezionare l'identità utente appropriata
Selezionare Avanti.
Selezionare Rivedi e assegna
Ripetere i passaggi da 2 a 13 per l'assegnazione di ruolo Collaboratore
Una che l'identità utente ha i ruoli appropriati assegnati, i dati nell'account di archiviazione di Azure devono diventare accessibili.
Nota
Se un pool di Spark per Synapse collegato punta a un pool di Synapse Spark in un'area di lavoro di Azure Synapse con una rete virtuale gestita associata, è necessario configurare un endpoint privato gestito per l'account di archiviazione per garantire l'accesso ai dati.
Garantire l'accesso alle risorse per i processi Spark
Per accedere ai dati e ad altre risorse, i processi Spark possono usare un'identità gestita o un pass-through identità utente. La tabella seguente riepiloga i diversi meccanismi per l'accesso alle risorse durante l'uso del calcolo Spark serverless di Azure Machine Learning e del pool di Spark Synapse collegato.
Pool Spark | Identità supportate | Identità predefinita |
---|---|---|
Calcolo Spark serverless | Identità utente, identità gestita assegnata dall'utente collegata all'area di lavoro | Identità utente |
Pool di Spark Synapse collegato | Identità utente, identità gestita assegnata dall'utente collegata al pool di Synapse Spark collegato, identità gestita assegnata dal sistema del pool di Spark Synapse collegato | Identità gestita assegnata dal sistema del pool di Spark Synapse collegato |
Se il codice dell'interfaccia della riga di comando o del Software Development Kit (SDK) definisce un'opzione per l'uso dell'identità gestita, il calcolo Spark serverless di Azure Machine Learning si basa su un'identità gestita assegnata dall'utente collegata all'area di lavoro. È possibile collegare un'identità gestita assegnata dall'utente a un'area di lavoro di Azure Machine Learning esistente con l'interfaccia della riga di comando di Azure Machine Learning v2 o con ARMClient
.
Passaggi successivi
- Apache Spark in Azure Machine Learning
- Collegare e gestire un pool di Spark Synapse in Azure Machine Learning
- Data wrangling interattivo con Apache Spark in Azure Machine Learning
- Inviare processi Spark in Azure Machine Learning
- Esempi di codice per i processi Spark con l'interfaccia della riga di comando di Azure Machine Learning
- Esempi di codice per i processi Spark usando Azure Machine Learning Python SDK