Come creare una definizione del processo Apache Spark in Fabric

Questa esercitazione illustra come creare una definizione del processo Spark in Microsoft Fabric.

Prerequisiti

Prima di iniziare, sono necessari:

Suggerimento

Per eseguire l'elemento di definizione del processo Spark, è necessario disporre di un file di definizione principale e di un contesto lakehouse predefinito. Se non esiste un lakehouse, è possibile crearne uno seguendo i passaggi descritti in Creare un lakehouse.

Creare una definizione di processo Spark

Il processo di creazione della definizione del processo Spark è veloce e semplice; esistono svariati modi per iniziare.

Opzioni per creare una definizione del processo Spark

Vi sono alcuni modi per iniziare a usare il processo di creazione:

  • Home page di Ingegneria dei dati: è possibile creare facilmente una definizione del processo Spark tramite la scheda Definizione del processo Spark nella sezione Nuovo della home page.

    Screenshot che mostra dove selezionare la scheda di definizione del processo Spark.

  • Visualizzazione dell'area di lavoro: è anche possibile creare una definizione del processo Spark tramite l'area di lavoro in Ingegneria dei dati usando il menu a discesa Nuovo.

    Screenshot che mostra dove selezionare la definizione del processo Spark nel menu Nuovo.

  • Crea visualizzazione: un altro punto di ingresso per creare una definizione del processo Spark è la pagina Crea in Ingegneria dei dati.

    Screenshot che mostra dove selezionare la definizione del processo Spark nell'hub di creazione.

È necessario assegnare un nome alla definizione del processo Spark al momento della creazione. Il nome deve essere univoco nell'area di lavoro corrente. La nuova definizione del processo Spark viene creata nell'area di lavoro corrente.

Creare una definizione del processo Spark per PySpark (Python)

Per creare una definizione del processo Spark per PySpark:

  1. Scaricare il file Parquet di esempio yellow_tripdata_2022-01.parquet e caricarlo nella sezione dei file del lakehouse.

  2. Creare una nuova definizione del processo Spark.

  3. Selezionare PySpark (Python) dal menu a discesa Lingua.

  4. Scaricare l'esempio createTablefromParquet.py e caricarlo come file di definizione principale. Il file di definizione principale (job.Main) è il file che contiene la logica dell'applicazione ed è obbligatorio per eseguire un processo Spark. Per ogni definizione del processo Spark, è possibile caricare un solo file di definizione principale.

    È possibile caricare il file di definizione principale dal desktop locale oppure caricare da un'istanza di Azure Data Lake Storage (ADLS) Gen2 esistente specificando il percorso ABFSS completo del file. Ad esempio: abfss://your-storage-account-name.dfs.core.windows.net/your-file-path.

  5. Caricare i file di riferimento come file .py. I file di riferimento sono i moduli Python importati dal file di definizione principale. Proprio come il file di definizione principale, si possono caricare dal desktop o da un ADLS Gen2 esistente. Sono supportati molteplici file di riferimento.

    Suggerimento

    Se si usa un percorso ADLS Gen2, per assicurarsi che il file sia accessibile, è necessario assegnare all'account utente che esegue il processo l'autorizzazione appropriata per l'account di archiviazione. È consigliabile procedere in due modi diversi:

    • Assegnare all'account utente un ruolo Contributore per l'account di archiviazione.
    • Concedere l'autorizzazione di lettura ed esecuzione all'account utente per il file tramite l'elenco di controllo di accesso (ACL) ADLS Gen2.

    Per un'esecuzione manuale, l'account dell'utente connesso attuale viene usato per eseguire il processo.

  6. Fornire gli argomenti della riga di comando per il processo, se necessario. Usare uno spazio come una barra di divisione per separare gli argomenti.

  7. Aggiungere il riferimento del lakehouse al processo. È necessario avere almeno un riferimento del lakehouse aggiunto al processo. Questo lakehouse è il contesto lakehouse predefinito per il processo.

    Sono supportati molteplici riferimenti del lakehouse. Cercare il nome del lakehouse non predefinito e l'URL di OneLake completo nella pagina Impostazioni Spark.

    Screenshot che mostra un esempio di schermata del file di definizione principale popolato.

Creare una definizione del processo Spark per Scala/Java

Per creare una definizione del processo Spark per Scala/Java:

  1. Creare una nuova definizione del processo Spark.

  2. Selezionare Spark(Scala/Java) dal menu a discesa Lingua.

  3. Caricare il file di definizione principale come file .jar. Il file di definizione principale è il file che contiene la logica dell'applicazione di questo processo ed è obbligatorio per eseguire un processo Spark. Per ogni definizione del processo Spark, è possibile caricare un solo file di definizione principale. Fornire il nome della classe principale.

  4. Caricare i file di riferimento come file .jar. I file di riferimento sono i file a cui viene fatto riferimento/che vengono importati dal file di definizione principale.

  5. Fornire gli argomenti della riga di comando per il processo, se necessario.

  6. Aggiungere il riferimento del lakehouse al processo. È necessario avere almeno un riferimento del lakehouse aggiunto al processo. Questo lakehouse è il contesto lakehouse predefinito per il processo.

Creare una definizione del processo Spark per R

Per creare una definizione del processo SparkR(R):

  1. Creare una nuova definizione del processo Spark.

  2. Selezionare SparkR(R) nel menu a discesa Lingua.

  3. Caricare il file di definizione principale come file R. Il file di definizione principale è il file che contiene la logica dell'applicazione di questo processo ed è obbligatorio per eseguire un processo Spark. Per ogni definizione del processo Spark, è possibile caricare un solo file di definizione principale.

  4. Caricare i file di riferimento come file R. I file di riferimento sono i file a cui viene fatto riferimento/che vengono importati dal file di definizione principale.

  5. Fornire gli argomenti della riga di comando per il processo, se necessario.

  6. Aggiungere il riferimento del lakehouse al processo. È necessario avere almeno un riferimento del lakehouse aggiunto al processo. Questo lakehouse è il contesto lakehouse predefinito per il processo.

Nota

La definizione del processo Spark verrà creata nell'area di lavoro corrente.

Opzioni per personalizzare le definizioni del processo Spark

Sono disponibili alcune opzioni per personalizzare ulteriormente l'esecuzione delle definizioni del processo Spark.

  • Calcolo Spark: nella scheda Calcolo Spark, si può vedere la versione run-time, ossia la versione di Spark che verrà usata per eseguire il processo. È anche possibile vedere le impostazioni di configurazione di Spark che verranno usate per eseguire il processo. È possibile personalizzare le impostazioni di configurazione di Spark facendo clic sul pulsante Aggiungi.
  • Ottimizzazione: nella scheda Ottimizzazione, è possibile abilitare e configurare i criteri di ripetizione per il processo. Se abilitato, il processo viene ritentato in caso di errore. È anche possibile impostare il numero massimo di tentativi e l'intervallo tra i nuovi tentativi. Per ogni tentativo di ripetizione, il processo viene riavviato. Assicurarsi che il processo sia idempotente.

    Screenshot che mostra dove configurare i criteri di ripetizione.