Vad är Mosaic AutoML?
Mosaic AutoML förenklar processen med att tillämpa maskininlärning på dina datauppsättningar genom att automatiskt hitta den bästa algoritmen och hyperparameterkonfigurationen åt dig.
Ange din datauppsättning och ange typ av maskininlärningsproblem, sedan gör AutoML följande:
- Rensar och förbereder dina data.
- Orkestrerar distribuerad modellträning och hyperparameterjustering över flera algoritmer.
- Hittar den bästa modellen med hjälp av öppen källkod utvärderingsalgoritmer från scikit-learn, xgboost, LightGBM, Prophet och ARIMA.
- Visar resultatet. AutoML genererar också källkodsanteckningsböcker för varje utvärderingsversion, så att du kan granska, återskapa och ändra koden efter behov.
Kom igång med AutoML-experiment via ett användargränssnitt med låg kod eller Python-API:et.
Krav
Databricks Runtime 9.1 ML eller senare. För den allmänna tillgänglighetsversionen (GA) databricks Runtime 10.4 LTS ML eller senare.
- För prognostisering av tidsserier, Databricks Runtime 10.0 ML eller senare.
- Med Databricks Runtime 9.1 LTS ML och senare är AutoML beroende av
databricks-automl-runtime
paketet, som innehåller komponenter som är användbara utanför AutoML och även hjälper till att förenkla notebook-filer som genereras av AutoML-träning.databricks-automl-runtime
finns på PyPI.
Inga andra bibliotek än de som är förinstallerade i Databricks Runtime for Machine Learning ska installeras i klustret.
- Ändringar (borttagning, uppgraderingar eller nedgradering) till befintliga biblioteksversioner resulterar i körningsfel på grund av inkompatibilitet.
För att få åtkomst till filer på din arbetsyta måste du ha nätverksportarna 1017 och 1021 öppna för AutoML-experiment. Om du vill öppna dessa portar eller bekräfta att de är öppna läser du konfigurations- och säkerhetsgruppens regler för vpn-brandväggen i molnet eller kontaktar den lokala molnadministratören. Mer information om konfiguration och distribution av arbetsytor finns i Skapa en arbetsyta.
Använd en beräkningsresurs med ett beräkningsåtkomstläge som stöds. Alla beräkningsåtkomstlägen har inte åtkomst till Unity-katalogen:
Beräkningsåtkomstläge AutoML-stöd Stöd för Unity Catalog enskild användare Stöds (måste vara den avsedda enskilda användaren för klustret) Stöds Läge för delad åtkomst Stöd saknas Stöd saknas Ingen isolering har delats Stöds Stöd saknas
AutoML-algoritmer
Mosaic AutoML tränar och utvärderar modeller baserat på algoritmerna i följande tabell.
Kommentar
För klassificerings- och regressionsmodeller baseras beslutsträdet, slumpmässiga skogar, logistisk regression och linjär regression med stochastic gradient descent-algoritmer på scikit-learn.
Klassificeringsmodeller | Regressionsmodeller | Prognosmodeller |
---|---|---|
Beslutsträd | Beslutsträd | Profet |
Slumpmässiga skogar | Slumpmässiga skogar | Auto-ARIMA (finns i Databricks Runtime 10.3 ML och senare.) |
Logistisk regression | Linjär regression med stokastisk gradient nedstigning | |
XGBoost | XGBoost | |
LightGBM | LightGBM |
Generering av utvärderingsanteckningsbok
AutoML genererar notebook-filer med källkoden bakom utvärderingsversioner så att du kan granska, återskapa och ändra koden efter behov.
För prognosexperiment importeras automatiskt AutoML-genererade notebook-filer till din arbetsyta för alla utvärderingsversioner av experimentet.
För klassificerings- och regressionsexperiment importeras automatiskt AutoML-genererade notebook-filer för datautforskning och den bästa utvärderingsversionen i experimentet till din arbetsyta. Genererade notebook-filer för andra experimentförsök sparas som MLflow-artefakter på DBFS i stället för automatiskt importerade till din arbetsyta. För alla utvärderingsversioner förutom den bästa utvärderingsversionen notebook_path
anges inte och notebook_url
i Python-API:et TrialInfo
. Om du behöver använda dessa notebook-filer kan du importera dem manuellt till din arbetsyta med AutoML-experimentgränssnittet eller Python-API:et.databricks.automl.import_notebook
Om du bara använder notebook-filen för datautforskning eller den bästa utvärderingsanteckningsboken som genereras av AutoML innehåller kolumnen Källa i AutoML-experimentgränssnittet länken till den genererade notebook-filen för den bästa utvärderingsversionen.
Om du använder andra genererade notebook-filer i AutoML-experimentgränssnittet importeras de inte automatiskt till arbetsytan. Du hittar anteckningsböckerna genom att klicka på varje MLflow-körning. IPython-anteckningsboken sparas i avsnittet Artefakter på körningssidan. Du kan ladda ned den här notebook-filen och importera den till arbetsytan om du har aktiverat nedladdning av artefakter av arbetsyteadministratörerna.
Shapley-värden (SHAP) för modellförklarbarhet
Kommentar
För MLR 11.1 och lägre genereras inte SHAP-diagram om datauppsättningen innehåller en datetime
kolumn.
Notebook-filerna som skapas av AutoML-regression och klassificeringskörningar innehåller kod för att beräkna Shapley-värden. Shapley-värden baseras på spelteori och beräknar vikten av varje funktion för en modells förutsägelser.
AutoML-notebook-filer beräknar Shapley-värden med hjälp av SHAP-paketet. Eftersom dessa beräkningar är mycket minnesintensiva utförs inte beräkningarna som standard.
Så här beräknar och visar du Shapley-värden:
- Gå till avsnittet Funktionsprimitet i en AutoML-genererad utvärderingsanteckningsbok.
- Ange
shap_enabled = True
. - Kör notebook-filen igen.