Eseguire il training di modelli di Machine Learning

Apache Spark, una parte di Microsoft Fabric, consente l'apprendimento automatico con Big Data. Con Apache Spark è possibile creare informazioni dettagliate preziose in grandi quantità di dati strutturati, non strutturati e in rapida evoluzione. Sono disponibili diverse opzioni di libreria open source quando si esegue il training di modelli di apprendimento automatico con Apache Spark in Microsoft Fabric: Apache Spark MLlib, SynapseML e altri.

Apache SparkML e MLlib

Apache Spark, una parte di Microsoft Fabric, offre un framework di elaborazione dati parallelo unificato e open source. Questo framework supporta l'elaborazione in memoria che migliora l'analisi dei Big Data. Il motore di elaborazione Spark è costruito per la velocità, la semplicità d'uso e le analisi sofisticate. Le funzionalità di calcolo distribuite in memoria rendono Spark uno strumento valido per l'esecuzione di algoritmi iterativi utilizzati in calcoli grafici e di apprendimento automatico.

Sono disponibili due librerie di apprendimento automatico scalabili che integrano funzionalità di modellazione algoritmica nell'ambiente distribuito: MLlib e SparkML. MLlib contiene l'API originale basata su RDD. SparkML è un pacchetto più recente. Contiene un'API di livello superiore basata su Spark DataFrames per la costruzione di pipeline di apprendimento automatico. SparkML non supporta ancora tutte le funzionalità di MLlib, ma sta sostituendo MLlib come libreria di apprendimento automatico standard di Spark.

Nota

Per altre informazioni sulla creazione del modello SparkML, vedere la risorsa Eseguire il training dei modelli con Apache Spark MLlib.

Il runtime di Microsoft Fabric per Apache Spark include diversi pacchetti open source diffusi per il training di modelli di apprendimento automatico. Queste librerie forniscono codice riutilizzabile che può essere utile includere nei programmi o nei progetti. Il runtime include queste librerie di apprendimento automatico pertinenti e altre:

  • Scikit-learn è una delle librerie di Machine Learning a nodo singolo più diffuse per algoritmi di Machine Learning classici. Scikit-learn supporta la maggior parte degli algoritmi di apprendimento supervisionati e non, ed è possibile usarlo per il data mining e l'analisi dei dati.

  • XGBoost è una libreria di Machine Learning diffusa che contiene algoritmi ottimizzati per il training di alberi delle decisioni e foreste casuali.

  • PyTorch e Tensorflow sono librerie di Deep Learning Python efficienti. Con queste librerie, è possibile impostare il numero di executor nel pool su zero per creare modelli a computer singolo. Anche se questa configurazione non supporta Apache Spark, è un modo semplice ed economico per creare modelli a computer singolo.

SynapseML

SynapseML (noto in precedenza come MMLSpark) è una libreria open source che semplifica la creazione di pipeline di Machine Learning (ML) estremamente scalabili. Grazie a questa libreria, l'uso di Spark da parte degli scienziati dei dati diventa più produttivo, perché aumenta il tasso di sperimentazione e applica tecniche di apprendimento automatico all'avanguardia, tra cui l'apprendimento profondo, su grandi set di dati.

SynapseML fornisce un livello sopra le API di basso livello SparkML durante la creazione di modelli di apprendimento automatico scalabili. Queste API riguardano l'indicizzazione di stringhe, l'assembly vettore di funzionalità, la coercizione dei dati in layout appropriati per gli algoritmi di apprendimento automatico e altro ancora. La libreria SynapseML semplifica queste e altre attività comuni per la creazione di modelli in PySpark.

Questo articolo offre una panoramica delle varie opzioni per eseguire il training di modelli di apprendimento automatico in Apache Spark in Microsoft Fabric. Per altre informazioni sul training del modello, visitare le risorse seguenti: