Guida di avvio rapido: data wrangling interattivo con Apache Spark in Azure Machine Learning

Per gestire il data wrangling interattivo dei notebook di Azure Machine Learning, l'integrazione di Azure Machine Learning con Azure Synapse Analytics consente di accedere facilmente al framework Apache Spark. Questo accesso consente il data wrangling interattivo del notebook Azure Machine Learning.

Questa guida di avvio rapido illustra come eseguire il data wrangling interattivo con l’elaborazione Spark serverless di Azure Machine Learning, l'account di archiviazione di Azure Data Lake Storage (ADLS) Gen 2 e il pass-through dell'identità utente.

Prerequisiti

Archiviare le credenziali dell'account di archiviazione di Azure come segreti in Azure Key Vault

Per archiviare le credenziali dell'account di archiviazione di Azure come segreti in Azure Key Vault con l'interfaccia utente del portale di Azure:

  1. Passare ad Azure Key Vault nel portale di Azure

  2. Selezionare Segreti nel riquadro sinistro

  3. Selezionare +Genera/Importa

    Screenshot che mostra la scheda Genera o importa i segreti di Azure Key Vault.

  4. Nella schermata Crea un segreto, immettere un Nome per il segreto da creare

  5. Passare all'account di Archiviazione BLOB di Azure, nel portale di Azure, come illustrato in questa immagine:

    Screenshot che mostra la schermata chiave di accesso di Azure e i valori della stringa di connessione.

  6. Selezionare Chiavi di accesso nel pannello sinistro della pagina dell'account di Archiviazione BLOB di Azure

  7. Selezionare Mostra accanto a Chiave 1 e quindi Copia negli Appunti per ottenere la chiave di accesso dell'account di archiviazione

    Nota

    Selezionare le opzioni appropriate da copiare

    • Token di firma di accesso condiviso del contenitore di archiviazione BLOB di Azure
    • Credenziali dell'entità servizio dell'account di archiviazione di Azure Data Lake Storage (ADLS) Gen 2
      • ID del tenant
      • ID client e
      • secret

    nelle rispettive interfacce utente durante la creazione di segreti di Azure Key Vault

  8. Tornare alla schermata Crea un segreto

  9. Nella casella di testa Valore segreto, immettere le credenziali della chiave di accesso per l'account di archiviazione di Azure, copiato negli Appunti nel passaggio precedente

  10. Selezionare Crea.

    Screenshot che mostra la schermata di creazione del segreto di Azure.

Aggiungere assegnazioni di ruolo negli account di archiviazione di Azure

È necessario assicurarsi che i percorsi di dati di input e output siano accessibili prima di avviare il data wrangling interattivo. In primo luogo, per

  • l'identità utente dell’utente che ha eseguito l'accesso alla sessione di Notebooks

    or

  • Un'entità servizio

per assegnare i ruoli di Lettore e Lettore dei dati del BLOB di archiviazione all'identità utente dell'utente connesso. In alcuni scenari, tuttavia, potrebbe essere necessario scrivere nuovamente i dati scelti nell'account di archiviazione di Azure. I ruoli Lettore e Lettore dei dati del BLOB di archiviazione forniscono l'accesso in sola lettura all'identità utente o all'entità servizio. Per abilitare l'accesso in lettura e scrittura, assegnare i ruoli Collaboratore e Collaboratore ai dati dei BLOB di archiviazione all'identità utente o all'entità servizio. Per assegnare ruoli appropriati all'identità utente:

  1. Aprire il portale di Microsoft Azure

  2. Cercare e selezionare il servizio Account di archiviazione

    Screenshot espandibile che mostra la ricerca e la selezione del servizio Account di archiviazione nel portale di Microsoft Azure.

  3. Nella pagina Account di archiviazione selezionare l'account di archiviazione di Azure Data Lake Storage (ADLS) Gen 2 nell'elenco. Viene aperta la pagina Panoramica per l'account di archiviazione

    Screenshot espandibile che mostra la selezione dell'account di archiviazione di Azure Data Lake Storage (ADLS) Gen 2.

  4. Selezionare Controllo di accesso (IAM) nel pannello a sinistra

  5. Selezionare Aggiungi assegnazione di ruolo

    Screenshot che mostra la schermata dei tasti di accesso di Azure.

  6. Trovare e selezionare il ruolo Collaboratore ai dati dei BLOB di archiviazione

  7. Selezionare Avanti.

    Screenshot che mostra la schermata Aggiungi assegnazione di ruolo di Azure.

  8. Selezionare Utente, gruppo o entità servizio

  9. Selezionare +Selezionare i membri

  10. Cercare l'identità utente sotto Seleziona

  11. Selezionare l'identità utente nell'elenco, in modo che venga visualizzata in Membri selezionati

  12. Selezionare l'identità utente appropriata

  13. Selezionare Avanti.

    Screenshot che mostra la scheda Membri della schermata Aggiungi assegnazione di ruolo di Azure.

  14. Selezionare Rivedi e assegna

    Screenshot che mostra la scheda Esaminare e assegnare della schermata Aggiungi assegnazione di ruolo di Azure.

  15. Ripetere i passaggi da 2 a 13 per l'assegnazione di ruolo Collaboratore

Una che l'identità utente ha i ruoli appropriati assegnati, i dati nell'account di archiviazione di Azure devono diventare accessibili.

Nota

Se un pool di Spark per Synapse collegato punta a un pool di Synapse Spark in un'area di lavoro di Azure Synapse con una rete virtuale gestita associata, è necessario configurare un endpoint privato gestito per l'account di archiviazione per garantire l'accesso ai dati.

Garantire l'accesso alle risorse per i processi Spark

Per accedere ai dati e ad altre risorse, i processi Spark possono usare un'identità gestita o un pass-through identità utente. La tabella seguente riepiloga i diversi meccanismi per l'accesso alle risorse durante l'uso del calcolo Spark serverless di Azure Machine Learning e del pool di Spark Synapse collegato.

Pool Spark Identità supportate Identità predefinita
Calcolo Spark serverless Identità utente, identità gestita assegnata dall'utente collegata all'area di lavoro Identità utente
Pool di Spark Synapse collegato Identità utente, identità gestita assegnata dall'utente collegata al pool di Synapse Spark collegato, identità gestita assegnata dal sistema del pool di Spark Synapse collegato Identità gestita assegnata dal sistema del pool di Spark Synapse collegato

Se il codice dell'interfaccia della riga di comando o del Software Development Kit (SDK) definisce un'opzione per l'uso dell'identità gestita, il calcolo Spark serverless di Azure Machine Learning si basa su un'identità gestita assegnata dall'utente collegata all'area di lavoro. È possibile collegare un'identità gestita assegnata dall'utente a un'area di lavoro di Azure Machine Learning esistente con l'interfaccia della riga di comando di Azure Machine Learning v2 o con ARMClient.

Passaggi successivi