Introduzione a Machine Learning di Spark in cluster Big Data di SQL Server

Si applica a: SQL Server 2019 (15.x)

Importante

Il componente aggiuntivo per i cluster Big Data di Microsoft SQL Server 2019 verrà ritirato. Il supporto per i cluster Big Data di SQL Server 2019 terminerà il 28 febbraio 2025. Tutti gli utenti esistenti di SQL Server 2019 con Software Assurance saranno completamente supportati nella piattaforma e fino a quel momento il software continuerà a ricevere aggiornamenti cumulativi di SQL Server. Per altre informazioni, vedere il post di blog relativo all'annuncio e Opzioni per i Big Data nella piattaforma Microsoft SQL Server.

Questo articolo spiega come usare in modo efficace Spark per Machine Learning in cluster Big Data per SQL Server.

Machine Learning di Spark in cluster Big Data di SQL Server

I cluster Big Data di SQL Server consentono scenari e soluzioni di Machine Learning usando diversi stack tecnologici: SQL Server Machine Learning Services e Apache Spark ML.

Per identificare meglio quando usare ogni stack tecnologico, vedere la guida di Machine Learning per cluster Big Data di SQL Server. Questa guida presenta Apache Spark ML.

Per gli scenari di Machine Learning basati su Big Data, l'uso di HDFS per l'hosting di Big Data e le funzionalità di Apache Spark ML costituiscono un approccio più conveniente, scalabile e potente. Tuttavia, questo è lungi dall'essere un elenco esaustivo delle possibilità offerte dalla tecnologia di Machine Learning di Spark. Per un elenco completo delle funzionalità, vedere: Spark MLlib.

La sezione seguente fornisce un elenco curato di scenari e riferimenti per Spark in cluster Big Data di SQL Server.

Principali riferimenti per Machine Learning di Spark in cluster Big Data di SQL Server

Apprendere Contenuto Collega
Runtime dei cluster Big Data di SQL Server per Apache Spark Descrive che cosa è incluso in ogni versione Guida al runtime dei cluster Big Data di SQL Server per Apache Spark
Pool di archiviazione Come archiviare e usare HDFS e Spark insieme per sbloccare i dati per scenari di Machine Learning Introduzione al pool di archiviazione nei cluster Big Data di SQL Server
Usare esperienze basate su notebook e gli strumenti preferiti Connettere l'endpoint Spark-Livy usando gli strumenti preferiti Inviare processi Spark in cluster Big Data di SQL Server in Azure Data Studio
Inviare processi Spark nel cluster Big Data di SQL Server in Visual Studio Code
Usare sparklyr in un cluster Big Data di SQL Server
Come installare pacchetti aggiuntivi Nel caso in cui non venga fornito un pacchetto predefinito, è necessario installarne uno Gestione delle librerie Spark
Come risolvere i problemi In caso di problemi Risolvere i problemi relativi a un notebook pyspark
Eseguire il debug e la diagnosi di applicazioni Spark in cluster Big Data di SQL Server nel server cronologia Spark
Come inviare processi batch di Machine Learning Eseguire il training di Machine Learning e l'assegnazione di punteggi batch usando la riga di comando Inviare processi Spark usando strumenti da riga di comando
Come spostare rapidamente dati tra SQL Server e Spark Configurare SQL Server come origine e/o destinazione per gli scenari di Machine Learning di Spark. L'utilizzo di HDFS non è obbligatorio Usare il connettore Apache Spark per SQL Server e SQL Azure
Operazionalizzazione del modello Spark Dopo il training, rendere operativo l'uso di MLeap Creare, esportare e classificare i modelli di Machine Learning di Spark in cluster Big Data di SQL Server
Data wrangling Oltre alle potenti funzionalità di data wrangling di Spark, viene fornito PROSE Data wrangling con l'acceleratore di codice PROSE

Passaggi successivi

Per altre informazioni, vedere Introduzione ai cluster Big Data di SQL Server.