Inviare processi Spark usando strumenti da riga di comando

Articolo
03/18/2023

Si applica a: SQL Server 2019 (15.x)

Questo articolo fornisce indicazioni su come usare gli strumenti da riga di comando per eseguire processi Spark in cluster Big Data di SQL Server.

Importante

Il componente aggiuntivo per i cluster Big Data di Microsoft SQL Server 2019 verrà ritirato. Il supporto per i cluster Big Data di SQL Server 2019 terminerà il 28 febbraio 2025. Tutti gli utenti esistenti di SQL Server 2019 con Software Assurance saranno completamente supportati nella piattaforma e fino a quel momento il software continuerà a ricevere aggiornamenti cumulativi di SQL Server. Per altre informazioni, vedere il post di blog relativo all'annuncio e Opzioni per i Big Data nella piattaforma Microsoft SQL Server.

Prerequisiti

Strumenti Big Data di SQL Server 2019 configurati e connessi al cluster:
- azdata
- Un'applicazione curl per eseguire chiamate API REST a Livy

Processi Spark che usano azdata o Livy

Questo articolo fornisce esempi relativi all'uso di criteri da riga di comando per inviare applicazioni Spark a cluster Big Data di SQL Server.

I comandi azdata bdc spark dell'interfaccia della riga di comando di Azure Data consentono di visualizzare sulla riga di comando tutte le funzionalità di Spark per cluster Big Data di SQL Server. Questo articolo è incentrato sull'invio di processi. Ma azdata bdc spark supporta anche le modalità interattive per Python, Scala, SQL e R tramite il comando azdata bdc spark session.

Se è necessaria l'integrazione diretta con un'API REST, usare le chiamate Livy standard per inviare processi. Questo articolo usa lo strumento da riga di comando curl negli esempi di Livy per eseguire la chiamata API REST. Per un esempio dettagliato che illustra come interagire con l'endpoint Livy di Spark usando il codice Python, vedere Usare Spark dall'endpoint Livy in GitHub.

Applicazione di estrazione, trasformazione e caricamento (ETL) semplice che usa Spark per cluster Big Data

Questa applicazione di estrazione, trasformazione e caricamento (ETL) segue un modello comune di ingegneria dei dati. Carica i dati tabulari da un percorso della zona di destinazione di Apache Hadoop Distributed File System (HDFS). Usa quindi un formato tabella per scrivere in un percorso della zona elaborato da HDFS.

Scaricare il set di dati dell'applicazione di esempio. Creare quindi applicazioni PySpark usando PySpark, Spark Scala o Spark SQL.

Nelle sezioni seguenti sono disponibili esercizi di esempio per ogni soluzione. Selezionare la scheda relativa alla piattaforma in uso. L'applicazione verrà eseguita usando azdata o curl.

In questo esempio viene usata l'applicazione PySpark seguente. Viene salvato come file Python denominato parquet_etl_sample.py nel computer locale.

from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()

# Read clickstream_data from storage pool HDFS into a Spark data frame. Applies column renames.
df = spark.read.option("inferSchema", "true").csv('/securelake/landing/criteo/test.txt', sep='\t', 
    header=False).toDF("feat1","feat2","feat3","feat4","feat5","feat6","feat7","feat8",
    "feat9","feat10","feat11","feat12","feat13","catfeat1","catfeat2","catfeat3","catfeat4",
    "catfeat5","catfeat6","catfeat7","catfeat8","catfeat9","catfeat10","catfeat11","catfeat12",
    "catfeat13","catfeat14","catfeat15","catfeat16","catfeat17","catfeat18","catfeat19",
    "catfeat20","catfeat21","catfeat22","catfeat23","catfeat24","catfeat25","catfeat26")

# Print the data frame inferred schema
df.printSchema()

tot_rows = df.count()
print("Number of rows:", tot_rows)

# Drop the managed table
spark.sql("DROP TABLE dl_clickstream")

# Write data frame to HDFS managed table by using optimized Delta Lake table format
df.write.format("parquet").mode("overwrite").saveAsTable("dl_clickstream")

print("Sample ETL pipeline completed")

Copiare l'applicazione PySpark in HDFS

Archiviare l'applicazione in HDFS in modo che il cluster possa accedervi per l'esecuzione. Come procedura consigliata, standardizzare e gestire i percorsi delle applicazioni all'interno del cluster per semplificare l'amministrazione.

In questo caso d'uso di esempio tutte le applicazioni della pipeline ETL vengono archiviate nel percorso hdfs:/apps/ETL-Pipelines. L'applicazione di esempio viene archiviata in hdfs:/apps/ETL-Pipelines/parquet_etl_sample.py.

Eseguire il comando seguente per caricare parquet_etl_sample.py dal computer di sviluppo locale o di gestione temporanea nel cluster HDFS.

azdata bdc hdfs cp --from-path parquet_etl_sample.py  --to-path "hdfs:/apps/ETL-Pipelines/parquet_etl_sample.py"

In questo esempio si usa un'applicazione Spark scritta in Scala Spark.

import org.apache.spark.sql.SparkSession

object ParquetETLSample {
    def main(args: Array[String]) {
        val spark = SparkSession.builder.getOrCreate()
        
        val df = spark.read.
            option("inferSchema", "true").
            option("header", "false").
            option("delimiter", "\t").
            csv("/securelake/landing/criteo/test.txt").
            toDF("feat1","feat2","feat3","feat4","feat5","feat6","feat7","feat8","feat9","feat10","feat11","feat12","feat13","catfeat1","catfeat2","catfeat3","catfeat4","catfeat5","catfeat6","catfeat7","catfeat8","catfeat9","catfeat10","catfeat11","catfeat12","catfeat13","catfeat14","catfeat15","catfeat16","catfeat17","catfeat18","catfeat19","catfeat20","catfeat21","catfeat22","catfeat23","catfeat24","catfeat25","catfeat26")
        
        val tot_rows = df.count()
        println(s"Number of rows: $tot_rows")

        spark.sql("DROP TABLE dl_clickstream")

        df.write.format("parquet").mode("overwrite").saveAsTable("dl_clickstream")

        println("Sample ETL pipeline completed")
        
        spark.stop()
    }
}

Creare un bundle e copiare l'applicazione Spark in HDFS

Nella documentazione di Spark si consiglia di creare un file JAR di assembly (o pacchetto) contenente l'applicazione e tutte le dipendenze. Questo passaggio è necessario per inviare il pacchetto dell'applicazione al cluster per l'esecuzione.

La configurazione di un ambiente di sviluppo Scala Spark completo esula dall'ambito di questo articolo. Per altre informazioni, vedere la documentazione di Spark relativa alla creazione di applicazioni autonome.

In questo esempio si presuppone che un pacchetto JAR dell'applicazione denominato parquet-etl-sample.jar sia compilato e disponibile. Eseguire il comando seguente per caricare il pacchetto dal computer di sviluppo locale o di gestione temporanea nel cluster HDFS.

azdata bdc hdfs cp --from-path parquet-etl-sample.jar  --to-path "hdfs:/apps/ETL-Pipelines/parquet-etl-sample.jar"

In questo esempio su usa Spark SQL per la logica di inserimento. Usa tabelle e viste per fornire all'applicazione ETL un approccio incentrato su SQL.

DROP VIEW IF EXISTS etl_clickstream;

CREATE TEMPORARY VIEW etl_clickstream
USING CSV
OPTIONS (path "/securelake/landing/criteo/test.txt", header "false", delimiter "\t", mode "FAILFAST");

DROP TABLE IF EXISTS dl_clickstream;

CREATE TABLE dl_clickstream (
    feat1 integer,
    feat2 integer,
    feat3 integer,
    feat4 integer,
    feat5 integer,
    feat6 integer,
    feat7 integer,
    feat8 integer,
    feat9 integer,
    feat10 integer,
    feat11 integer,
    feat12 integer,
    feat13 integer,
    catfeat1 string,
    catfeat2 string,
    catfeat3 string,
    catfeat4 string,
    catfeat5 string,
    catfeat6 string,
    catfeat7 string,
    catfeat8 string,
    catfeat9 string,
    catfeat10 string,
    catfeat11 string,
    catfeat12 string,
    catfeat13 string,
    catfeat14 string,
    catfeat15 string,
    catfeat16 string,
    catfeat17 string,
    catfeat18 string,
    catfeat19 string,
    catfeat20 string,
    catfeat21 string,
    catfeat22 string,
    catfeat23 string,
    catfeat24 string,
    catfeat25 string,
    catfeat26 string
) 
USING PARQUET
AS SELECT * FROM etl_clickstream;

Copiare l'applicazione Spark SQL in HDFS

Eseguire il comando seguente per caricare il file parquet-etl-sample.sql dal computer di sviluppo locale o di gestione temporanea nel cluster HDFS.

azdata bdc hdfs cp --from-path parquet-etl-sample.sql --to-path "hdfs:/apps/ETL-Pipelines/parquet-etl-sample.sql"

Eseguire l'applicazione Spark

Usare il comando seguente per inviare l'applicazione a Spark per cluster Big Data di SQL Server per l'esecuzione.

Il comando azdata esegue l'applicazione usando parametri comunemente specificati. Per tutte le opzioni dei parametri relativi a azdata bdc spark batch create, vedere azdata bdc spark.

Questa applicazione richiede il parametro di configurazione spark.sql.legacy.allowCreatingManagedTableUsingNonemptyLocation. Il comando usa quindi l'opzione --config. Questa configurazione illustra come passare le configurazioni alla sessione Spark.

È possibile usare l'opzione --config per specificare più parametri di configurazione. È anche possibile specificarli all'interno della sessione dell'applicazione impostando la configurazione nell'oggetto SparkSession.

azdata bdc spark batch create -f hdfs:/apps/ETL-Pipelines/parquet_etl_sample.py \
--config '{"spark.sql.legacy.allowCreatingManagedTableUsingNonemptyLocation":"true"}' \
-n MyETLPipelinePySpark --executor-count 2 --executor-cores 2 --executor-memory 1664m

Avviso

Il parametro "name" o "n" per il nome del batch deve essere univoco ogni volta che si crea un nuovo batch.

Il comando curl esegue l'applicazione con Livy. Sostituire USER, PASSWORD e LIVY_ENDPOINT in base all'ambiente usato.

curl -k -u <USER>:<PASSWORD> -X POST <LIVY_ENDPOINT>/batches \
-H 'Content-Type: application/json; charset=utf-8' \
--data-binary @- << EOF
{
    "file": "/apps/ETL-Pipelines/parquet_etl_sample.py",
    "name": "MyETLPipelinePySpark",
    "numExecutors": 2,
    "executorCores": 2,
    "executorMemory": "1664m",
    "conf": {
        "spark.sql.legacy.allowCreatingManagedTableUsingNonemptyLocation":"true"
    }
}
EOF

Avviso

Il parametro "name" deve essere univoco ogni volta che si crea un nuovo batch.

Il comando azdata esegue l'applicazione usando parametri comunemente specificati. Per tutte le opzioni dei parametri relativi a azdata bdc spark batch create, vedere azdata bdc spark.

L'applicazione richiede il parametro di configurazione spark.sql.legacy.allowCreatingManagedTableUsingNonemptyLocation. Il comando usa quindi l'opzione --config. Questa configurazione illustra come passare le configurazioni alla sessione Spark.

azdata bdc spark batch create -f hdfs:/apps/ETL-Pipelines/parquet-etl-sample.jar \
--class "ParquetETLSample" \
--config '{"spark.sql.legacy.allowCreatingManagedTableUsingNonemptyLocation":"true"}' \
-n MyETLPipeline --executor-count 2 --executor-cores 2 --executor-memory 1664m

Avviso

Il parametro "name" o "n" per il nome del batch deve essere univoco ogni volta che si crea un nuovo batch.

Il comando curl esegue l'applicazione con Livy. Sostituire USER, PASSWORD e LIVY_ENDPOINT in base all'ambiente usato.

curl -k -u <USER>:<PASSWORD> -X POST <LIVY_ENDPOINT>/batches \
-H 'Content-Type: application/json; charset=utf-8' \
--data-binary @- << EOF
{
    "file": "/apps/ETL-Pipelines/parquet-etl-sample.jar",
    "class": "ParquetETLSample",
    "name": "MyETLPipeline",
    "numExecutors": 2,
    "executorCores": 2,
    "executorMemory": "1664m",
    "conf": {
        "spark.sql.legacy.allowCreatingManagedTableUsingNonemptyLocation":"true"
    }
}
EOF

Avviso

Il parametro "name" per il nome del batch deve essere univoco ogni volta che si crea un nuovo batch.

Il comando azdata esegue l'applicazione usando parametri comunemente specificati. Per tutte le opzioni dei parametri relativi a azdata bdc spark batch create, vedere azdata bdc spark.

Analogamente all'esempio PySpark, questa applicazione richiede anche il parametro di configurazione spark.sql.legacy.allowCreatingManagedTableUsingNonemptyLocation. Il comando usa quindi l'opzione --config. Questa configurazione illustra come passare le configurazioni alla sessione Spark.

azdata bdc spark batch create -f hdfs:/apps/ETL-Pipelines/parquet_etl_sample.sql \
--config '{"spark.sql.legacy.allowCreatingManagedTableUsingNonemptyLocation":"true"}' \
-n MyETLPipelineSQL --executor-count 2 --executor-cores 2 --executor-memory 1664m

Avviso

Il parametro "name" o "n" per il nome del batch deve essere univoco ogni volta che si crea un nuovo batch.

Il comando curl esegue l'applicazione con Livy. Sostituire USER, PASSWORD e LIVY_ENDPOINT in base all'ambiente usato.

curl -k -u <USER>:<PASSWORD> -X POST <LIVY_ENDPOINT>/batches \
-H 'Content-Type: application/json; charset=utf-8' \
--data-binary @- << EOF
{
    "file": "/apps/ETL-Pipelines/parquet_etl_sample.sql",
    "name": "MyETLPipelineSQL",
    "numExecutors": 2,
    "executorCores": 2,
    "executorMemory": "1664m",
    "conf": {
        "spark.sql.legacy.allowCreatingManagedTableUsingNonemptyLocation":"true"
    }
}
EOF

Avviso

Il parametro "name" deve essere univoco ogni volta che si crea un nuovo batch.

Monitorare i processi Spark

I comandi azdata bdc spark batch forniscono azioni di gestione per i processi batch Spark.

Per elencare tutti i processi in esecuzione, eseguire il comando seguente.

Il comando azdata:
```
azdata bdc spark batch list -o table
```

Comando curl, con Livy:

curl -k -u <USER>:<PASSWORD> -X POST <LIVY_ENDPOINT>/batches

Per ottenere informazioni relative a un batch Spark con l'ID specificato, eseguire il comando seguente. Il valore di batch id viene restituito da spark batch create.

Il comando azdata:

azdata bdc spark batch info --batch-id 0

Comando curl, con Livy:

curl -k -u <USER>:<PASSWORD> -X POST <LIVY_ENDPOINT>/batches/<BATCH_ID>

Per ottenere informazioni sullo stato relative a un batch Spark con l'ID specificato, eseguire il comando seguente.

Il comando azdata:

azdata bdc spark batch state --batch-id 0

Comando curl, con Livy:

curl -k -u <USER>:<PASSWORD> -X POST <LIVY_ENDPOINT>/batches/<BATCH_ID>/state

Per ottenere i log relativi a un batch Spark con l'ID specificato, eseguire il comando seguente.

Il comando azdata:

azdata bdc spark batch log --batch-id 0

Comando curl, con Livy:

curl -k -u <USER>:<PASSWORD> -X POST <LIVY_ENDPOINT>/batches/<BATCH_ID>/log

Passaggi successivi

Per informazioni sulla risoluzione dei problemi relativi al codice Spark, vedere Risolvere i problemi di un notebook PySpark.

Il codice di esempio Spark completo è disponibile negli esempi di Spark per cluster Big Data di SQL Server in GitHub.

Per altre informazioni sui cluster Big Data di SQL Server e sugli scenari correlati, vedere Cluster Big Data di SQL Server.

Condividi tramite

Inviare processi Spark usando strumenti da riga di comando

Prerequisiti

Processi Spark che usano azdata o Livy

Applicazione di estrazione, trasformazione e caricamento (ETL) semplice che usa Spark per cluster Big Data

Copiare l'applicazione PySpark in HDFS

Creare un bundle e copiare l'applicazione Spark in HDFS

Copiare l'applicazione Spark SQL in HDFS

Eseguire l'applicazione Spark

Monitorare i processi Spark

Passaggi successivi

Commenti e suggerimenti

Risorse aggiuntive