Trasformare i dati eseguendo una definizione di processo Synapse Spark

SI APPLICA A: Azure Data Factory Azure Synapse Analytics

Suggerimento

Provare Data Factory in Microsoft Fabric, una soluzione di analisi all-in-one per le aziende. Microsoft Fabric copre tutti gli elementi, dallo spostamento dei dati all'analisi scientifica dei dati, all'analisi in tempo reale, alla business intelligence e alla creazione di report. Scopri come avviare gratuitamente una nuova versione di valutazione .

L'attività di definizione del processo Spark Azure Synapse in una pipeline esegue una definizione di processo Synapse Spark nell'area di lavoro Azure Synapse Analytics. Questo articolo si basa sull'articolo relativo alle attività di trasformazione dei dati che presenta una panoramica generale della trasformazione dei dati e le attività di trasformazione supportate.

Impostare l'area di disegno della definizione del processo Apache Spark

Per usare un'attività di definizione del processo Spark per Synapse in una pipeline, seguire questa procedura:

Impostazioni generali

  1. Cercare la definizione del processo Spark nel riquadro Attività pipeline e trascinare un'attività di definizione del processo Spark nell'area di disegno della pipeline.

  2. Selezionare la nuova attività di definizione del processo Spark nell'area di disegno, se non è già selezionata.

  3. Nella scheda Generale immettere sample per Nome.

  4. (Opzione) È anche possibile immettere una descrizione.

  5. Timeout: tempo massimo di esecuzione di un'attività. Il valore predefinito è sette giorni, ovvero la quantità massima di tempo consentita. Il formato è in D.HH:MM:SS.

  6. Nuovo tentativo: numero massimo di tentativi.

  7. Intervallo tentativi: numero di secondi tra ogni tentativo di ripetizione.

  8. Output sicuro: se selezionato, l'output dell'attività non verrà acquisito nella registrazione.

  9. Input sicuro: se selezionato, l'input dell'attività non verrà acquisito nella registrazione.

impostazioni di Azure Synapse Analytics (artefatti)

  1. Selezionare la nuova attività di definizione del processo Spark nell'area di disegno, se non è già selezionata.

  2. Selezionare la scheda Azure Synapse Analytics (Artefatti) per selezionare o creare un nuovo servizio collegato Azure Synapse Analytics che eseguirà l'attività di definizione del processo Spark.

    Screenshot che mostra l'interfaccia utente per la scheda del servizio collegato per un'attività di definizione del processo Spark.

Scheda Settings

  1. Selezionare la nuova attività di definizione del processo Spark nell'area di disegno, se non è già selezionata.

  2. Selezionare la scheda Settings (Impostazioni).

  3. Espandere l'elenco di definizione del processo Spark, è possibile selezionare una definizione di processo Apache Spark esistente nell'area di lavoro Azure Synapse Analytics collegata.

  4. (Facoltativo) È possibile compilare le informazioni per la definizione del processo Apache Spark. Se le impostazioni seguenti sono vuote, le impostazioni della definizione del processo Spark verranno usate per l'esecuzione; se le impostazioni seguenti non sono vuote, queste impostazioni sostituiranno le impostazioni della definizione del processo Spark stessa.

    Proprietà Descrizione
    File di definizione principale File principale usato per il processo. Selezionare un file PY/JAR/ZIP dalla risorsa di archiviazione. È possibile selezionare Carica file per caricare il file in un account di archiviazione.
    Esempio: abfss://…/path/to/wordcount.jar
    Riferimenti da sottocartelle L'analisi delle sottocartelle dalla cartella radice del file di definizione principale, questi file verranno aggiunti come file di riferimento. Le cartelle denominate "jars", "pyFiles", "files" o "archives" verranno analizzate e il nome delle cartelle fa distinzione tra maiuscole e minuscole.
    Nome della classe principale Identificatore completo o classe principale inclusa nel file di definizione principale.
    Esempio: WordCount
    Argomenti della riga di comando È possibile aggiungere argomenti della riga di comando facendo clic sul pulsante Nuovo . Si noti che l'aggiunta di argomenti della riga di comando sostituirà gli argomenti della riga di comando definiti dalla definizione del processo Spark.
    Esempio: abfss://…/path/to/shakespeare.txtabfss://…/path/to/result
    Pool di Apache Spark È possibile selezionare il pool di Apache Spark nell'elenco.
    Informazioni di riferimento sul codice Python File di codice Python aggiuntivi usati per riferimento nel file di definizione principale.
    Supporta il passaggio di file (.py, .py3, .zip) alla proprietà "pyFiles". Eseguirà l'override della proprietà "pyFiles" definita nella definizione del processo Spark.
    File di riferimento File aggiuntivi usati come riferimento nel file di definizione principale.
    Pool di Apache Spark È possibile selezionare il pool di Apache Spark nell'elenco.
    Allocare dinamicamente executor Questa impostazione esegue il mapping alla proprietà di allocazione dinamica nella configurazione di Spark per l'allocazione degli executor dell'applicazione Spark.
    Executor min Numero minimo di executor da allocare nel pool di Spark specificato per il processo.
    Numero massimo di executor Numero massimo di executor da allocare nel pool di Spark specificato per il processo.
    Dimensioni driver Numero di core e memoria da usare per il driver indicato nel pool di Apache Spark specificato per il processo.
    Configurazione di Spark Specificare i valori delle proprietà di configurazione di Spark elencati nell'argomento Spark Configuration - Application properties (Configurazione di Spark: proprietà dell'applicazione). Gli utenti possono usare la configurazione predefinita e la configurazione personalizzata.

    Screenshot che mostra l'interfaccia utente per l'attività di definizione del processo Spark.

  5. È possibile aggiungere contenuto dinamico facendo clic sul pulsante Aggiungi contenuto dinamico o premendo il tasto di scelta rapida ALT+MAIUSC+D. Nella pagina Aggiungi contenuto dinamico è possibile usare qualsiasi combinazione di espressioni, funzioni e variabili di sistema da aggiungere al contenuto dinamico.

    Screenshot che mostra l'interfaccia utente per l'aggiunta di contenuto dinamico alle attività di definizione del processo Spark.

Scheda Proprietà utente

In questo pannello è possibile aggiungere proprietà per l'attività di definizione del processo Apache Spark.

Screenshot che mostra l'interfaccia utente per le proprietà per un'attività di definizione del processo Spark.

Azure Synapse definizione dell'attività di definizione del processo Spark

Ecco la definizione JSON di esempio di un'attività notebook di Azure Synapse Analytics:

 {
        "activities": [
            {
                "name": "Spark job definition1",
                "type": "SparkJob",
                "dependsOn": [],
                "policy": {
                    "timeout": "7.00:00:00",
                    "retry": 0,
                    "retryIntervalInSeconds": 30,
                    "secureOutput": false,
                    "secureInput": false
                },
                "typeProperties": {
                    "sparkJob": {
                        "referenceName": {
                            "value": "Spark job definition 1",
                            "type": "Expression"
                        },
                        "type": "SparkJobDefinitionReference"
                    }
                },
                "linkedServiceName": {
                    "referenceName": "AzureSynapseArtifacts1",
                    "type": "LinkedServiceReference"
                }
            }
        ],
    }

Azure Synapse proprietà della definizione del processo Spark

La tabella seguente fornisce le descrizioni delle proprietà JSON usate nella definizione JSON:

Proprietà Descrizione Obbligatoria
name Nome dell'attività nella pipeline.
description Testo che descrive l'attività. No
type Per Azure Synapse'attività di definizione del processo Spark, il tipo di attività è SparkJob.

Vedere Azure Synapse cronologia delle esecuzioni delle attività di definizione del processo Spark

Passare a Esecuzioni della pipeline nella scheda Monitoraggio . Verrà visualizzata la pipeline attivata. Aprire la pipeline contenente Azure Synapse'attività di definizione del processo Spark per visualizzare la cronologia di esecuzione.

Screenshot che mostra l'interfaccia utente per l'input e l'output per le esecuzioni di un'attività di definizione del processo Spark.

È possibile visualizzare l'input o l'output dell'attività del notebook selezionando il pulsante input o Output. Se la pipeline non è riuscita con un errore utente, selezionare l'output per controllare il campo dei risultati per visualizzare il traceback dettagliato dell'errore utente.

Screenshot che mostra l'interfaccia utente dell'interfaccia utente di output per l'esecuzione di un'attività di definizione del processo Spark.