Che cos'è Mosaic AutoML?

Articolo
10/25/2024

Mosaic AutoML semplifica il processo di applicazione di Machine Learning ai set di dati individuando automaticamente l'algoritmo e la configurazione degli iperparametri migliori.

Specificare il set di dati e specificare il tipo di problema di Machine Learning, quindi AutoML esegue le operazioni seguenti:

Pulisce e prepara i dati.
Orchestra il training del modello distribuito e l’ottimizzazione degli iperparametri tra più algoritmi.
Trova il modello migliore usando algoritmi di valutazione open source di scikit-learn, xgboost, LightGBM, Prophet e ARIMA.
Presenta i risultati. AutoML genera anche notebook di codice sorgente per ogni versione di valutazione, consentendo di esaminare, riprodurre e modificare il codice in base alle esigenze.

Introduzione agli esperimenti AutoML tramite un’interfaccia utente low-code o API Python.

Requisiti

Databricks Runtime 9,1 ML o versione successiva. Per la versione disponibile a livello generale, Databricks Runtime 10.4 LTS ML o versione successiva.
- Per la previsione di serie temporali, Databricks Runtime 10.0 ML o versione successiva.
- Con Databricks Runtime 9.1 LTS ML e versioni successive, AutoML dipende dal databricks-automl-runtime pacchetto, che contiene componenti utili all’esterno di AutoML e semplifica anche i notebook generati dal training AutoML. databricks-automl-runtime è disponibile su PyPI.
Nel cluster non devono essere installate librerie aggiuntive diverse da quelle preinstallate in Databricks Runtime per Machine Learning.
- Qualsiasi modifica (rimozione, aggiornamento o downgrade) a versioni della libreria esistenti causa errori di esecuzione a causa di incompatibilità.
Per accedere ai file nell’area di lavoro, è necessario avere porte di rete 1017 e 1021 aperte per gli esperimenti AutoML. Per aprire queste porte o verificare che siano aperte, esaminare la configurazione del firewall VPN cloud e le regole del gruppo di sicurezza oppure contattare l’amministratore cloud locale. Per altre informazioni sulla configurazione e la distribuzione dell’area di lavoro, consultare la sezione Creare un’area di lavoro.

Usare una risorsa di calcolo con una modalità di accesso di calcolo supportata. Non tutte le modalità di accesso alle risorse di calcolo hanno accesso al catalogo Unity:

Confrontare le modalità di accesso	Supporto di AutoML	Supporto per il catalogo Unity
singolo utente	Supportato (deve essere l’utente singolo designato per il cluster)	Supportata
Chiave di accesso condiviso	Non supportato	Non supportato
Nessun isolamento condiviso	Supportata	Non supportato

Algoritmi AutoML

Mosaic AutoML esegue il training e valuta i modelli in base agli algoritmi nella tabella seguente.

Nota

Per i modelli di classificazione e regressione, l’albero delle decisioni, le transizioni casuali, la regressione logistica e la regressione lineare con algoritmi di discesa del gradiente stocastico sono basati su scikit-learn.

Modelli di classificazione	Modelli di regressione	Modello di previsione
Alberi delle decisioni	Alberi delle decisioni	Prophet
Forest casuali	Forest casuali	Auto-ARIMA (disponibile in Databricks Runtime 10.3 ML e versioni successive).
Logistic Regression	Regressione lineare con discesa sfumata stocastica
XGBoost	XGBoost
LightGBM	LightGBM

Generazione di notebook di valutazione

AutoML genera notebook del code-behind delle versioni di valutazione del codice sorgente per poter esaminare, riprodurre e modificare il codice in base alle esigenze.

Per gli esperimenti di previsione, i notebook generati automaticamente da AutoML vengono importati automaticamente nell’area di lavoro per tutte le versioni di valutazione dell’esperimento.

Per gli esperimenti di classificazione e regressione, i notebook generati da AutoML per l’esplorazione dei dati e la versione di valutazione ottimale nell’esperimento vengono importati automaticamente nell’area di lavoro. I notebook generati per altre versioni di valutazione dell’esperimento vengono salvati come artefatti MLflow in DBFS anziché importati automaticamente nell’area di lavoro. Per tutte le versioni di valutazione oltre alla versione di valutazione migliore, notebook_path e notebook_url nell’API TrialInfo Python non sono impostate. Se è necessario usare questi notebook, è possibile importarli manualmente nell’area di lavoro con l’interfaccia utente dell’esperimento AutoML o l’databricks.automl.import_notebook API Python.

Se si usa solo il notebook di esplorazione dei dati o il notebook di valutazione migliore generato da AutoML, la colonna Origine nell'interfaccia utente dell’esperimento AutoML contiene il collegamento al notebook generato per la versione di valutazione migliore.

Se si usano altri notebook generati nell’interfaccia utente dell’esperimento AutoML, questi non vengono importati automaticamente nell’area di lavoro. È possibile trovare i notebook facendo clic su ogni esecuzione di MLflow. Il notebook IPython viene salvato nella sezione Artifacts della pagina di esecuzione. È possibile scaricare questo notebook e importarlo nell’area di lavoro, se il download degli artefatti viene abilitato dagli amministratori dell’area di lavoro.

Valori shapley (SHAP) per la spiegazione del modello

Nota

Per MLR 11.1 e versioni successive, i tracciati SHAP non vengono generati se il set di dati contiene una datetime colonna.

I notebook prodotti dalla regressione AutoML e dalle esecuzioni di classificazione includono il codice per calcolare i valori Shapley. I valori Shapley sono basati sulla teoria del gioco e stimano l'importanza di ogni funzionalità per le stime di un modello.

I notebook AutoML calcolano i valori Shapley utilizzando il pacchetto SHAP. Poiché questi calcoli sono a elevato utilizzo di memoria, i calcoli non vengono eseguiti per impostazione predefinita.

Per calcolare e visualizzare i valori shapley:

Passare alla sezione Importanza funzionalità in un notebook di valutazione generato da AutoML.
Impostare shap_enabled = True.
Per eseguire il notebook.

Condividi tramite

Che cos'è Mosaic AutoML?

Requisiti

Algoritmi AutoML

Generazione di notebook di valutazione

Valori shapley (SHAP) per la spiegazione del modello

Passaggi successivi

Commenti e suggerimenti

Risorse aggiuntive