Che cos'è Mosaic AutoML?

Mosaic AutoML semplifica il processo di applicazione di Machine Learning ai set di dati individuando automaticamente l'algoritmo e la configurazione degli iperparametri migliori.

Specificare il set di dati e specificare il tipo di problema di Machine Learning, quindi AutoML esegue le operazioni seguenti:

  1. Pulisce e prepara i dati.
  2. Orchestra il training del modello distribuito e l’ottimizzazione degli iperparametri tra più algoritmi.
  3. Trova il modello migliore usando algoritmi di valutazione open source di scikit-learn, xgboost, LightGBM, Prophet e ARIMA.
  4. Presenta i risultati. AutoML genera anche notebook di codice sorgente per ogni versione di valutazione, consentendo di esaminare, riprodurre e modificare il codice in base alle esigenze.

Introduzione agli esperimenti AutoML tramite un’interfaccia utente low-code o API Python.

Requisiti

  • Databricks Runtime 9,1 ML o versione successiva. Per la versione disponibile a livello generale, Databricks Runtime 10.4 LTS ML o versione successiva.

    • Per la previsione di serie temporali, Databricks Runtime 10.0 ML o versione successiva.
    • Con Databricks Runtime 9.1 LTS ML e versioni successive, AutoML dipende dal databricks-automl-runtime pacchetto, che contiene componenti utili all’esterno di AutoML e semplifica anche i notebook generati dal training AutoML. databricks-automl-runtime è disponibile su PyPI.
  • Nel cluster non devono essere installate librerie aggiuntive diverse da quelle preinstallate in Databricks Runtime per Machine Learning.

    • Qualsiasi modifica (rimozione, aggiornamento o downgrade) a versioni della libreria esistenti causa errori di esecuzione a causa di incompatibilità.
  • Per accedere ai file nell’area di lavoro, è necessario avere porte di rete 1017 e 1021 aperte per gli esperimenti AutoML. Per aprire queste porte o verificare che siano aperte, esaminare la configurazione del firewall VPN cloud e le regole del gruppo di sicurezza oppure contattare l’amministratore cloud locale. Per altre informazioni sulla configurazione e la distribuzione dell’area di lavoro, consultare la sezione Creare un’area di lavoro.

  • Usare una risorsa di calcolo con una modalità di accesso di calcolo supportata. Non tutte le modalità di accesso alle risorse di calcolo hanno accesso al catalogo Unity:

    Confrontare le modalità di accesso Supporto di AutoML Supporto per il catalogo Unity
    singolo utente Supportato (deve essere l’utente singolo designato per il cluster) Supportata
    Chiave di accesso condiviso Non supportato Non supportato
    Nessun isolamento condiviso Supportata Non supportato

Algoritmi AutoML

Mosaic AutoML esegue il training e valuta i modelli in base agli algoritmi nella tabella seguente.

Nota

Per i modelli di classificazione e regressione, l’albero delle decisioni, le transizioni casuali, la regressione logistica e la regressione lineare con algoritmi di discesa del gradiente stocastico sono basati su scikit-learn.

Modelli di classificazione Modelli di regressione Modello di previsione
Alberi delle decisioni Alberi delle decisioni Prophet
Forest casuali Forest casuali Auto-ARIMA (disponibile in Databricks Runtime 10.3 ML e versioni successive).
Logistic Regression Regressione lineare con discesa sfumata stocastica
XGBoost XGBoost
LightGBM LightGBM

Generazione di notebook di valutazione

AutoML genera notebook del code-behind delle versioni di valutazione del codice sorgente per poter esaminare, riprodurre e modificare il codice in base alle esigenze.

Per gli esperimenti di previsione, i notebook generati automaticamente da AutoML vengono importati automaticamente nell’area di lavoro per tutte le versioni di valutazione dell’esperimento.

Per gli esperimenti di classificazione e regressione, i notebook generati da AutoML per l’esplorazione dei dati e la versione di valutazione ottimale nell’esperimento vengono importati automaticamente nell’area di lavoro. I notebook generati per altre versioni di valutazione dell’esperimento vengono salvati come artefatti MLflow in DBFS anziché importati automaticamente nell’area di lavoro. Per tutte le versioni di valutazione oltre alla versione di valutazione migliore, notebook_path e notebook_url nell’API TrialInfo Python non sono impostate. Se è necessario usare questi notebook, è possibile importarli manualmente nell’area di lavoro con l’interfaccia utente dell’esperimento AutoML o l’databricks.automl.import_notebook API Python.

Se si usa solo il notebook di esplorazione dei dati o il notebook di valutazione migliore generato da AutoML, la colonna Origine nell'interfaccia utente dell’esperimento AutoML contiene il collegamento al notebook generato per la versione di valutazione migliore.

Se si usano altri notebook generati nell’interfaccia utente dell’esperimento AutoML, questi non vengono importati automaticamente nell’area di lavoro. È possibile trovare i notebook facendo clic su ogni esecuzione di MLflow. Il notebook IPython viene salvato nella sezione Artifacts della pagina di esecuzione. È possibile scaricare questo notebook e importarlo nell’area di lavoro, se il download degli artefatti viene abilitato dagli amministratori dell’area di lavoro.

Valori shapley (SHAP) per la spiegazione del modello

Nota

Per MLR 11.1 e versioni successive, i tracciati SHAP non vengono generati se il set di dati contiene una datetime colonna.

I notebook prodotti dalla regressione AutoML e dalle esecuzioni di classificazione includono il codice per calcolare i valori Shapley. I valori Shapley sono basati sulla teoria del gioco e stimano l'importanza di ogni funzionalità per le stime di un modello.

I notebook AutoML calcolano i valori Shapley utilizzando il pacchetto SHAP. Poiché questi calcoli sono a elevato utilizzo di memoria, i calcoli non vengono eseguiti per impostazione predefinita.

Per calcolare e visualizzare i valori shapley:

  1. Passare alla sezione Importanza funzionalità in un notebook di valutazione generato da AutoML.
  2. Impostare shap_enabled = True.
  3. Per eseguire il notebook.

Passaggi successivi