AutoMLConfig Třída
Představuje konfiguraci pro odeslání automatizovaného experimentu ML ve službě Azure Machine Learning.
Tento objekt konfigurace obsahuje a zachovává parametry pro konfiguraci spuštění experimentu a také trénovací data, která se mají použít za běhu. Pokyny k výběru nastavení najdete v tématu https://aka.ms/AutoMLConfig.
Vytvořte AutoMLConfig.
- Dědičnost
-
builtins.objectAutoMLConfig
Konstruktor
AutoMLConfig(task: str, path: str | None = None, iterations: int | None = None, primary_metric: str | None = None, positive_label: Any | None = None, compute_target: Any | None = None, spark_context: Any | None = None, X: Any | None = None, y: Any | None = None, sample_weight: Any | None = None, X_valid: Any | None = None, y_valid: Any | None = None, sample_weight_valid: Any | None = None, cv_splits_indices: List[List[Any]] | None = None, validation_size: float | None = None, n_cross_validations: int | str | None = None, y_min: float | None = None, y_max: float | None = None, num_classes: int | None = None, featurization: str | FeaturizationConfig = 'auto', max_cores_per_iteration: int = 1, max_concurrent_iterations: int = 1, iteration_timeout_minutes: int | None = None, mem_in_mb: int | None = None, enforce_time_on_windows: bool = True, experiment_timeout_hours: float | None = None, experiment_exit_score: float | None = None, enable_early_stopping: bool = True, blocked_models: List[str] | None = None, blacklist_models: List[str] | None = None, exclude_nan_labels: bool = True, verbosity: int = 20, enable_tf: bool = False, model_explainability: bool = True, allowed_models: List[str] | None = None, whitelist_models: List[str] | None = None, enable_onnx_compatible_models: bool = False, enable_voting_ensemble: bool = True, enable_stack_ensemble: bool | None = None, debug_log: str = 'automl.log', training_data: Any | None = None, validation_data: Any | None = None, test_data: Any | None = None, test_size: float | None = None, label_column_name: str | None = None, weight_column_name: str | None = None, cv_split_column_names: List[str] | None = None, enable_local_managed: bool = False, enable_dnn: bool | None = None, forecasting_parameters: ForecastingParameters | None = None, **kwargs: Any)
Parametry
Name | Description |
---|---|
task
Vyžadováno
|
Typ úlohy, která se má spustit. Hodnoty můžou být "klasifikace", "regrese" nebo "prognózování" v závislosti na typu automatizovaného problému strojového učení, který se má vyřešit. |
path
Vyžadováno
|
Úplná cesta ke složce projektu Azure Machine Learning. Pokud není zadán, použije se výchozí adresář nebo ".". |
iterations
Vyžadováno
|
Celkový počet různých kombinací algoritmů a parametrů, které se mají otestovat během automatizovaného experimentu strojového učení. Pokud není zadáno, výchozí hodnota je 1000 iterací. |
primary_metric
Vyžadováno
|
Metrika, kterou automatizované strojové učení optimalizuje pro výběr modelu. Automatizované strojové učení shromažďuje více metrik, než dokáže optimalizovat. Můžete použít get_primary_metrics k získání seznamu platných metrik pro daný úkol. Další informace o způsobu výpočtu metrik najdete v tématu https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric. Pokud není zadáno, používá se pro úlohy klasifikace přesnost, normalizované střední kvadratický odmocniny se používá pro úlohy prognózování a regrese, přesnost se používá pro klasifikaci obrázků a klasifikaci obrázků s více popisky a střední průměrná přesnost se používá pro detekci objektů obrázku. |
positive_label
Vyžadováno
|
Pozitivní popisek třídy, který automatizované strojové učení použije k výpočtu binárních metrik. Binární metriky se pro úlohy klasifikace počítají za dvou podmínek:
Další informace o klasifikaci najdete v tématu Metriky pro scénáře klasifikace. |
compute_target
Vyžadováno
|
Cílový výpočetní objekt služby Azure Machine Learning pro spuštění experimentu automatizovaného strojového učení Další informace o cílových výpočetních prostředcích najdete v tématu https://docs.microsoft.com/en-us/azure/machine-learning/concept-automated-ml#local-remote . |
spark_context
Vyžadováno
|
<xref:SparkContext>
Kontext Sparku. Platí jenom při použití v prostředí Azure Databricks/Spark. |
X
Vyžadováno
|
Trénovací funkce, které se mají použít při nastavování kanálů během experimentu. Toto nastavení je zastaralé. Místo toho použijte training_data a label_column_name. |
y
Vyžadováno
|
Popisky trénování, které se mají použít při nastavování kanálů během experimentu. Jedná se o hodnotu, kterou váš model předpovídá. Toto nastavení je zastaralé. Místo toho použijte training_data a label_column_name. |
sample_weight
Vyžadováno
|
Váha, která se má přidělovat každému trénovacímu vzorku při spouštění kanálů fitingu, by měl každý řádek odpovídat řádku v datech X a y. Tento parametr zadejte při zadávání |
X_valid
Vyžadováno
|
Funkce ověřování, které se mají použít při nastavování kanálů během experimentu. Pokud je zadáno, pak |
y_valid
Vyžadováno
|
Ověřovací popisky, které se mají použít při nastavování kanálů během experimentu. Obě |
sample_weight_valid
Vyžadováno
|
Váha, která se má přidělovat každému ověřovacímu vzorku při spouštění kanálů bodování, by každý řádek měl odpovídat řádku v datech X a y. Tento parametr zadejte při zadávání |
cv_splits_indices
Vyžadováno
|
Indexy, kde se mají rozdělit trénovací data pro křížové ověření. Každý řádek je samostatný křížek a v rámci každého křížku poskytuje 2 matice numpy, první s indexy pro vzorky, které se mají použít pro trénovací data, a druhý s indexy, které se mají použít pro ověřovací data. tj. [[t1, v1], [t2, v2], ...] kde t1 jsou trénovací indexy pro první kříž a v1 jsou ověřovací indexy pro první kříž. Pokud chcete jako ověřovací data zadat existující data, použijte |
validation_size
Vyžadováno
|
Jaký zlomek dat se má uchovávat pro ověření, když nejsou zadána data ověření uživatele. Tato hodnota by měla být mezi 0,0 a 1,0 bez začlenění. Zadejte Další informace najdete v tématu Konfigurace rozdělení dat a křížového ověřování v automatizovaném strojovém učení. |
n_cross_validations
Vyžadováno
|
Kolik křížových ověření se má provést, když nejsou zadána data ověření uživatele. Zadejte Další informace najdete v tématu Konfigurace rozdělení dat a křížového ověřování v automatizovaném strojovém učení. |
y_min
Vyžadováno
|
Minimální hodnota y pro regresní experiment. Kombinace |
y_max
Vyžadováno
|
Maximální hodnota y pro regresní experiment. Kombinace |
num_classes
Vyžadováno
|
Počet tříd v datech popisku pro experiment klasifikace. Toto nastavení je zastaralé. Místo toho se tato hodnota vypočítá z dat. |
featurization
Vyžadováno
|
str nebo
FeaturizationConfig
'auto' / "vypnuto" / FeaturizationConfig Indikátor pro to, zda má být krok featurizace proveden automaticky nebo ne, nebo zda se má použít přizpůsobená featurizace. Poznámka: Pokud jsou vstupní data zhuštěná, nelze funkciaturaci zapnout. Typ sloupce se zjistí automaticky. Na základě zjištěného typu sloupce se předzpracování/featurizace provádí následujícím způsobem:
Další podrobnosti najdete v článku Konfigurace experimentů automatizovaného strojového učení v Pythonu. Pokud chcete přizpůsobit krok featurizace, zadejte objekt FeaturizationConfig. Přizpůsobená funkce funkce v současné době podporuje blokování sady transformátorů, aktualizaci účelu sloupce, úpravu parametrů transformátoru a odstraňování sloupců. Další informace najdete v tématu Přizpůsobení přípravy funkcí. Poznámka: Funkce Timeseries se zpracovávají samostatně, pokud je typ úlohy nastavený na prognózování nezávisle na tomto parametru. |
max_cores_per_iteration
Vyžadováno
|
Maximální počet vláken, která se mají použít pro danou iteraci trénování. Přijatelné hodnoty:
|
max_concurrent_iterations
Vyžadováno
|
Představuje maximální počet iterací, které by byly provedeny paralelně. Výchozí hodnota je 1.
|
iteration_timeout_minutes
Vyžadováno
|
Maximální doba v minutách, po kterou může každá iterace běžet, než se ukončí. Pokud není zadaný, použije se hodnota 1 měsíc nebo 43200 minut. |
mem_in_mb
Vyžadováno
|
Maximální využití paměti, pro které může každá iterace běžet před jejím ukončením. Pokud není zadán, použije se hodnota 1 PB nebo 1073741824 MB. |
enforce_time_on_windows
Vyžadováno
|
Jestli se má vynucovat časový limit pro trénování modelu při každé iteraci ve Windows. Výchozí hodnota je Pravda. Pokud se spouští ze souboru skriptu Pythonu (.py), projděte si dokumentaci k povolení limitů prostředků ve Windows. |
experiment_timeout_hours
Vyžadováno
|
Maximální doba v hodinách, kterou můžou všechny kombinované iterace trvat, než se experiment ukončí. Může to být desetinná hodnota, například 0,25 představující 15 minut. Pokud není zadaný, výchozí časový limit experimentu je 6 dní. Pokud chcete zadat časový limit kratší nebo roven 1 hodině, ujistěte se, že velikost datové sady není větší než 10 000 000 (počet řádků ve sloupci) nebo zajistěte, aby nedošlo k chybě. |
experiment_exit_score
Vyžadováno
|
Cílové skóre pro experiment. Experiment se ukončí po dosažení tohoto skóre. Pokud není zadáno (bez kritérií), experiment se spustí, dokud se u primární metriky neuskuteční žádný další pokrok. Další informace o kritériích ukončení najdete v tomto článku. |
enable_early_stopping
Vyžadováno
|
Zda povolit předčasné ukončení, pokud se skóre v krátkodobém horizontu nezlepšuje. Výchozí hodnota je Pravda. Logika předčasného zastavení:
|
blocked_models
Vyžadováno
|
list(str) nebo
list(Classification) <xref:for classification task> nebo
list(Regression) <xref:for regression task> nebo
list(Forecasting) <xref:for forecasting task>
Seznam algoritmů, které se při experimentu mají ignorovat. Pokud |
blacklist_models
Vyžadováno
|
list(str) nebo
list(Classification) <xref:for classification task> nebo
list(Regression) <xref:for regression task> nebo
list(Forecasting) <xref:for forecasting task>
Zastaralý parametr, použijte místo toho blocked_models. |
exclude_nan_labels
Vyžadováno
|
Zda se mají vyloučit řádky s hodnotami NaN v popisku. Výchozí hodnota je Pravda. |
verbosity
Vyžadováno
|
Úroveň podrobností pro zápis do souboru protokolu. Výchozí hodnota je INFO nebo 20. Přijatelné hodnoty jsou definované v knihovně protokolování Pythonu. |
enable_tf
Vyžadováno
|
Zastaralý parametr pro povolení nebo zakázání algoritmů Tensorflow. Výchozí hodnota je Nepravda. |
model_explainability
Vyžadováno
|
Jestli chcete povolit vysvětlení nejlepšího modelu AutoML na konci všech iterací trénování autoML. Výchozí hodnota je Pravda. Další informace najdete v tématu Interpretovatelnost: vysvětlení modelů v automatizovaném strojovém učení. |
allowed_models
Vyžadováno
|
list(str) nebo
list(Classification) <xref:for classification task> nebo
list(Regression) <xref:for regression task> nebo
list(Forecasting) <xref:for forecasting task>
Seznam názvů modelů pro hledání experimentu Pokud není zadáno, použijí se všechny modely podporované pro úlohu minus všechny zadané v |
whitelist_models
Vyžadováno
|
list(str) nebo
list(Classification) <xref:for classification task> nebo
list(Regression) <xref:for regression task> nebo
list(Forecasting) <xref:for forecasting task>
Zastaralý parametr, místo toho použijte allowed_models. |
enable_onnx_compatible_models
Vyžadováno
|
Jestli chcete povolit nebo zakázat vynucování modelů kompatibilních s ONNX. Výchozí hodnota je Nepravda. Další informace o službě Open Neural Network Exchange (ONNX) a Azure Machine Learning najdete v tomto článku. |
forecasting_parameters
Vyžadováno
|
ForecastingParameters Objekt pro uložení všech parametrů specifických pro prognózu. |
time_column_name
Vyžadováno
|
Název sloupce času. Tento parametr se vyžaduje při prognózování, aby bylo možné zadat sloupec datetime ve vstupních datech použitých pro sestavení časové řady a odvození její frekvence. Toto nastavení je zastaralé. Místo toho použijte forecasting_parameters. |
max_horizon
Vyžadováno
|
Požadovaný maximální horizont prognózy v jednotkách frekvence časových řad. Výchozí hodnota je 1. Jednotky jsou založené na časovém intervalu trénovacích dat, například měsíčních nebo týdenních, které by měl prognózovat. Při prognózování typu úkolu je tento parametr povinný. Další informace o nastavení parametrů prognózy najdete v tématu Automatické trénování modelu prognózy časových řad. Toto nastavení je zastaralé. Místo toho použijte forecasting_parameters. |
grain_column_names
Vyžadováno
|
Názvy sloupců sloužících k seskupení časových intervalů Dá se použít k vytvoření více řad. Pokud není definováno zrnění, předpokládá se, že datová sada je jednou časovou řadou. Tento parametr se používá s prognózováním typu úlohy. Toto nastavení je zastaralé. Místo toho použijte forecasting_parameters. |
target_lags
Vyžadováno
|
Počet minulých období, která mají být zpožděna od cílového sloupce. Výchozí hodnota je 1. Toto nastavení je zastaralé. Místo toho použijte forecasting_parameters. Při prognózování tento parametr představuje počet řádků, které mají zaostávat v cílových hodnotách na základě frekvence dat. Toto je reprezentováno jako seznam nebo jedno celé číslo. Prodleva by se měla použít, pokud se vztah mezi nezávislými proměnnými a závislými proměnnými ve výchozím nastavení neshoduje nebo nekoreluje. Například při pokusu o odhad poptávky po produktu může poptávka v libovolném měsíci záviset na ceně konkrétních komodit před 3 měsíci. V tomto příkladu můžete chtít záporně zaostávat cíl (poptávka) o 3 měsíce, aby model trénoval na správné relaci. Další informace najdete v tématu Automatické trénování modelu prognózy časových řad. |
feature_lags
Vyžadováno
|
Příznak pro generování prodlev pro číselné funkce Toto nastavení je zastaralé. Místo toho použijte forecasting_parameters. |
target_rolling_window_size
Vyžadováno
|
Počet minulých období použitých k vytvoření průměru klouzavého okna cílového sloupce. Toto nastavení je zastaralé. Místo toho použijte forecasting_parameters. Při prognózování tento parametr představuje n historických období, která se mají použít ke generování předpokládaných hodnot, <= velikost trénovací sady. Pokud ho vynecháte, n je úplná velikost trénovací sady. Tento parametr zadejte, pokud chcete při trénování modelu vzít v úvahu jenom určitou část historie. |
country_or_region
Vyžadováno
|
Země nebo oblast, která se používá k vygenerování funkcí svátků. Mělo by to být dvoumísmenný kód země/oblasti ISO 3166, například "US" nebo "GB". Toto nastavení je zastaralé. Místo toho použijte forecasting_parameters. |
use_stl
Vyžadováno
|
Nakonfigurujte rozklad STL cílového sloupce časové řady. use_stl můžou mít tři hodnoty: Žádné (výchozí) – bez rozkladu stl, 'season' - pouze generovat komponentu sezóny a season_trend - generovat komponenty sezóny i trendu. Toto nastavení je zastaralé. Místo toho použijte forecasting_parameters. |
seasonality
Vyžadováno
|
Nastavte sezónnost časových řad. Pokud je sezónnost nastavená na "auto", bude odvozena. Toto nastavení je zastaralé. Místo toho použijte forecasting_parameters. |
short_series_handling_configuration
Vyžadováno
|
Parametr definující, jak má AutoML zpracovávat krátké časové řady. Možné hodnoty: "auto" (výchozí), 'pad', 'drop' a None.
Date (Datum) numeric_value řetězec Cíl 01. 01. 2020 23 green 55 Výstup za předpokladu, že minimální počet hodnot jsou čtyři: Date (Datum) numeric_value řetězec Cíl 2019-12-29 0 NA 55.1 2019-12-30 0 NA 55.6 2019-12-31 0 NA 54.5 01. 01. 2020 23 green 55 Poznámka: Máme dva parametry short_series_handling_configuration a starší short_series_handling. Když jsou oba parametry nastavené, synchronizujeme je, jak je znázorněno v následující tabulce (short_series_handling_configuration a short_series_handling pro zkrácení jsou označeny jako handling_configuration a zpracování). Zpracování handling_configuration výsledná manipulace výsledné handling_configuration Ano auto Ano auto Ano Pad Ano auto Ano drop Ano auto Ano Žádné Ne Žádné Ne auto Ne Žádné Ne Pad Ne Žádné Ne drop Ne Žádné Ne Žádné Ne Žádné |
freq
Vyžadováno
|
Četnost prognóz. Při prognózování tento parametr představuje období, se kterým je prognóza požadovaná, například denně, týdně, ročně atd. Frekvence prognózy je ve výchozím nastavení frekvence datové sady. Volitelně můžete nastavit větší (ale ne menší) frekvenci datové sady. Data agregujeme a vygenerujeme výsledky s frekvencí prognózy. Například u denních dat můžete nastavit denní, týdenní nebo měsíční frekvenci, ale ne hodinovou. Četností musí být alias posunu pandas. Další informace najdete v dokumentaci k knihovně pandas: https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#dateoffset-objects |
target_aggregation_function
Vyžadováno
|
Funkce, která se má použít k agregaci cílového sloupce časové řady tak, aby odpovídala frekvenci zadané uživatelem. Pokud je target_aggregation_function nastaven, ale není nastavený parametr freq, dojde k chybě. Možné cílové agregační funkce jsou: "sum", "max", "min" a "mean". Frekvence target_aggregation_function Mechanismus opravy správnosti údajů Žádné (výchozí) Žádné (výchozí) Agregace se nepoužije. Pokud nelze určit platnou frekvenci, bude vyvolána chyba. Nějaká hodnota Žádné (výchozí) Agregace se nepoužije. Pokud je počet datových bodů vyhovujících dané mřížce četnosti menší, budou tyto body odebrány, jinak dojde k chybě. Žádné (výchozí) Agregační funkce Došlo k chybě týkající se chybějícího parametru frekvence. Nějaká hodnota Agregační funkce Agregace na frekvenci pomocí funkce providedaggregation |
enable_voting_ensemble
Vyžadováno
|
Jestli chcete povolit nebo zakázat iteraci VotingEnsemble. Výchozí hodnota je Pravda. Další informace o souborech najdete v tématu Konfigurace souboru. |
enable_stack_ensemble
Vyžadováno
|
Jestli chcete povolit nebo zakázat iteraci StackEnsemble. Výchozí hodnota je Žádný. Pokud se nastavuje příznak enable_onnx_compatible_models , bude iterace StackEnsemble zakázaná. Podobně u úkolů Timeseries bude iterace StackEnsemble ve výchozím nastavení zakázaná, aby se zabránilo riziku přeurčení kvůli malé trénovací sadě použité k přizpůsobení meta learneru. Další informace o souborech najdete v tématu Konfigurace souboru. |
debug_log
Vyžadováno
|
Soubor protokolu, do který chcete zapisovat informace o ladění. Pokud není zadaný, použije se automl.log. |
training_data
Vyžadováno
|
Trénovací data, která se mají použít v rámci experimentu.
Měl by obsahovat jak trénovací funkce, tak sloupec popisku (volitelně sloupec s váhou vzorku).
Pokud
|
validation_data
Vyžadováno
|
Ověřovací data, která se mají použít v rámci experimentu.
Měl by obsahovat jak trénovací funkce, tak sloupec popisku (volitelně sloupec s váhou vzorku).
Pokud
|
test_data
Vyžadováno
|
Dataset nebo
TabularDataset
Funkce Test modelu využívající testovací datové sady nebo rozdělení testovacích dat je funkce ve stavu Preview a může se kdykoli změnit. Testovací data, která se mají použít pro testovací běh, který se automaticky spustí po dokončení trénování modelu. Testovací běh získá předpovědi pomocí nejlepšího modelu a vypočítá metriky dané predikcemi. Pokud tento parametr nebo |
test_size
Vyžadováno
|
Funkce Test modelu využívající testovací datové sady nebo rozdělení testovacích dat je funkce ve stavu Preview a může se kdykoli změnit. Jaký zlomek trénovacích dat se má uchovávat pro testovací data pro testovací běh, který se automaticky spustí po dokončení trénování modelu. Testovací běh získá předpovědi pomocí nejlepšího modelu a vypočítá metriky dané predikcemi. Tato hodnota by měla být mezi 0,0 a 1,0 bez začlenění.
Pokud Pro úlohy založené na regresi se používá náhodný vzorkování. Pro úlohy klasifikace se používá stratifikované vzorkování. Prognózování v současné době nepodporuje zadání testovací datové sady pomocí rozdělení trénování a testu. Pokud tento parametr nebo |
label_column_name
Vyžadováno
|
Název sloupce popisku Pokud vstupní data pocházejí z knihovny pandas. Datový rámec, který nemá názvy sloupců, je možné místo toho použít indexy sloupců vyjádřené jako celá čísla. Tento parametr se vztahuje na |
weight_column_name
Vyžadováno
|
Název sloupce hmotnosti vzorku. Automatizované strojové učení podporuje jako vstup vážený sloupec, což způsobuje, že se řádky v datech váží nahoru nebo dolů. Pokud vstupní data pocházejí z knihovny pandas. Datový rámec, který nemá názvy sloupců, je možné místo toho použít indexy sloupců vyjádřené jako celá čísla. Tento parametr platí pro |
cv_split_column_names
Vyžadováno
|
Seznam názvů sloupců, které obsahují vlastní rozdělení křížového ověření Každý ze sloupců s rozdělením životopisu představuje jedno rozdělení CV, kde každý řádek je označený buď 1 pro trénování, nebo 0 pro ověření. Tento parametr se vztahuje na Použijte nebo Další informace najdete v tématu Konfigurace rozdělení dat a křížového ověřování v automatizovaném strojovém učení. |
enable_local_managed
Vyžadováno
|
Zakázaný parametr. Místní spravovaná spuštění nelze v tuto chvíli povolit. |
enable_dnn
Vyžadováno
|
Zda se mají při výběru modelu zahrnout modely založené na DNN. Výchozí hodnota v inicializaci je Žádná. Výchozí hodnota je však true pro úlohy NLP DNN a pro všechny ostatní úlohy Automatického strojového učení je nepravda. |
task
Vyžadováno
|
Typ úlohy, která se má spustit. Hodnoty můžou být "klasifikace", "regrese" nebo "prognózování" v závislosti na typu automatizovaného problému strojového učení, který se má vyřešit. |
path
Vyžadováno
|
Úplná cesta ke složce projektu Azure Machine Learning. Pokud není zadán, použije se výchozí adresář nebo ".". |
iterations
Vyžadováno
|
Celkový počet různých kombinací algoritmů a parametrů, které se mají otestovat během automatizovaného experimentu strojového učení. Pokud není zadáno, výchozí hodnota je 1000 iterací. |
primary_metric
Vyžadováno
|
Metrika, kterou automatizované strojové učení optimalizuje pro výběr modelu. Automatizované strojové učení shromažďuje více metrik, než dokáže optimalizovat. Můžete použít get_primary_metrics k získání seznamu platných metrik pro daný úkol. Další informace o způsobu výpočtu metrik najdete v tématu https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric. Pokud není zadáno, používá se pro úlohy klasifikace přesnost, normalizované střední kvadratický odmocniny se používá pro úlohy prognózování a regrese, přesnost se používá pro klasifikaci obrázků a klasifikaci obrázků s více popisky a střední průměrná přesnost se používá pro detekci objektů obrázku. |
positive_label
Vyžadováno
|
Pozitivní popisek třídy, který automatizované strojové učení použije k výpočtu binárních metrik. Binární metriky se pro úlohy klasifikace počítají za dvou podmínek:
Další informace o klasifikaci najdete v tématu Metriky pro scénáře klasifikace. |
compute_target
Vyžadováno
|
Cílový výpočetní objekt služby Azure Machine Learning pro spuštění experimentu automatizovaného strojového učení Další informace o cílových výpočetních prostředcích najdete v tématu https://docs.microsoft.com/azure/machine-learning/how-to-auto-train-remote . |
spark_context
Vyžadováno
|
<xref:SparkContext>
Kontext Sparku. Platí jenom při použití v prostředí Azure Databricks/Spark. |
X
Vyžadováno
|
Trénovací funkce, které se mají použít při nastavování kanálů během experimentu. Toto nastavení je zastaralé. Místo toho použijte training_data a label_column_name. |
y
Vyžadováno
|
Popisky trénování, které se mají použít při nastavování kanálů během experimentu. Jedná se o hodnotu, kterou váš model předpovídá. Toto nastavení je zastaralé. Místo toho použijte training_data a label_column_name. |
sample_weight
Vyžadováno
|
Váha, která se má přidělovat každému trénovacímu vzorku při spouštění kanálů fitingu, by měl každý řádek odpovídat řádku v datech X a y. Tento parametr zadejte při zadávání |
X_valid
Vyžadováno
|
Funkce ověřování, které se mají použít při nastavování kanálů během experimentu. Pokud je zadáno, pak |
y_valid
Vyžadováno
|
Ověřovací popisky, které se mají použít při nastavování kanálů během experimentu. Obě |
sample_weight_valid
Vyžadováno
|
Váha, která se má přidělovat každému ověřovacímu vzorku při spouštění kanálů bodování, by každý řádek měl odpovídat řádku v datech X a y. Tento parametr zadejte při zadávání |
cv_splits_indices
Vyžadováno
|
Indexy, kde se mají rozdělit trénovací data pro křížové ověření. Každý řádek je samostatný křížek a v rámci každého křížku poskytuje 2 matice numpy, první s indexy pro vzorky, které se mají použít pro trénovací data, a druhý s indexy, které se mají použít pro ověřovací data. tj. [[t1, v1], [t2, v2], ...] kde t1 jsou trénovací indexy pro první kříž a v1 jsou ověřovací indexy pro první kříž. Tato možnost se podporuje, když se data předávají jako samostatná datová sada funkcí a sloupec Popisek. Pokud chcete jako ověřovací data zadat existující data, použijte |
validation_size
Vyžadováno
|
Jaký zlomek dat se má uchovávat pro ověření, když nejsou zadána data ověření uživatele. Tato hodnota by měla být mezi 0,0 a 1,0 bez začlenění. Zadejte Další informace najdete v tématu Konfigurace rozdělení dat a křížového ověřování v automatizovaném strojovém učení. |
n_cross_validations
Vyžadováno
|
Kolik křížových ověření se má provést, když nejsou zadána data ověření uživatele. Zadejte Další informace najdete v tématu Konfigurace rozdělení dat a křížového ověřování v automatizovaném strojovém učení. |
y_min
Vyžadováno
|
Minimální hodnota y pro regresní experiment. Kombinace |
y_max
Vyžadováno
|
Maximální hodnota y pro regresní experiment. Kombinace |
num_classes
Vyžadováno
|
Počet tříd v datech popisku pro experiment klasifikace. Toto nastavení je zastaralé. Místo toho se tato hodnota vypočítá z dat. |
featurization
Vyžadováno
|
str nebo
FeaturizationConfig
'auto' / "vypnuto" / FeaturizationConfig Indikátor pro to, zda má být krok featurizace proveden automaticky nebo ne, nebo zda se má použít přizpůsobená featurizace. Poznámka: Pokud jsou vstupní data zhuštěná, nelze funkciaturaci zapnout. Typ sloupce se zjistí automaticky. Na základě zjištěného typu sloupce se předzpracování/featurizace provádí následujícím způsobem:
Další podrobnosti najdete v článku Konfigurace experimentů automatizovaného strojového učení v Pythonu. Pokud chcete přizpůsobit krok featurizace, zadejte objekt FeaturizationConfig. Přizpůsobená funkce funkce v současné době podporuje blokování sady transformátorů, aktualizaci účelu sloupce, úpravu parametrů transformátoru a odstraňování sloupců. Další informace najdete v tématu Přizpůsobení přípravy funkcí. Poznámka: Funkce Timeseries se zpracovávají samostatně, pokud je typ úlohy nastavený na prognózování nezávisle na tomto parametru. |
max_cores_per_iteration
Vyžadováno
|
Maximální počet vláken, která se mají použít pro danou iteraci trénování. Přijatelné hodnoty:
|
max_concurrent_iterations
Vyžadováno
|
Představuje maximální počet iterací, které by byly provedeny paralelně. Výchozí hodnota je 1.
|
iteration_timeout_minutes
Vyžadováno
|
Maximální doba v minutách, po kterou může každá iterace běžet, než se ukončí. Pokud není zadaný, použije se hodnota 1 měsíc nebo 43200 minut. |
mem_in_mb
Vyžadováno
|
Maximální využití paměti, pro které může každá iterace běžet před jejím ukončením. Pokud není zadán, použije se hodnota 1 PB nebo 1073741824 MB. |
enforce_time_on_windows
Vyžadováno
|
Jestli se má vynucovat časový limit pro trénování modelu při každé iteraci ve Windows. Výchozí hodnota je Pravda. Pokud se spouští ze souboru skriptu Pythonu (.py), projděte si dokumentaci k povolení limitů prostředků ve Windows. |
experiment_timeout_hours
Vyžadováno
|
Maximální doba v hodinách, kterou můžou všechny kombinované iterace trvat, než se experiment ukončí. Může to být desetinná hodnota, například 0,25 představující 15 minut. Pokud není zadaný, výchozí časový limit experimentu je 6 dní. Pokud chcete zadat časový limit kratší nebo roven 1 hodině, ujistěte se, že velikost datové sady není větší než 10 000 000 (počet řádků ve sloupci) nebo zajistěte, aby nedošlo k chybě. |
experiment_exit_score
Vyžadováno
|
Cílové skóre pro experiment. Experiment se ukončí po dosažení tohoto skóre.
Pokud není zadáno (bez kritérií), experiment se spustí, dokud se u primární metriky neuskuteční žádný další pokrok. Další informace o kritériích ukončení najdete v tématu >> |
enable_early_stopping
Vyžadováno
|
Zda povolit předčasné ukončení, pokud se skóre v krátkodobém horizontu nezlepšuje. Výchozí hodnota je Pravda. Logika předčasného zastavení:
|
blocked_models
Vyžadováno
|
list(str) nebo
list(Classification) <xref:for classification task> nebo
list(Regression) <xref:for regression task> nebo
list(Forecasting) <xref:for forecasting task>
Seznam algoritmů, které se při experimentu mají ignorovat. Pokud |
blacklist_models
Vyžadováno
|
list(str) nebo
list(Classification) <xref:for classification task> nebo
list(Regression) <xref:for regression task> nebo
list(Forecasting) <xref:for forecasting task>
Zastaralý parametr, použijte místo toho blocked_models. |
exclude_nan_labels
Vyžadováno
|
Zda se mají vyloučit řádky s hodnotami NaN v popisku. Výchozí hodnota je Pravda. |
verbosity
Vyžadováno
|
Úroveň podrobností pro zápis do souboru protokolu. Výchozí hodnota je INFO nebo 20. Přijatelné hodnoty jsou definované v knihovně protokolování Pythonu. |
enable_tf
Vyžadováno
|
Jestli se mají povolit nebo zakázat algoritmy TensorFlow. Výchozí hodnota je Nepravda. |
model_explainability
Vyžadováno
|
Jestli chcete povolit vysvětlení nejlepšího modelu AutoML na konci všech iterací trénování autoML. Výchozí hodnota je Pravda. Další informace najdete v tématu Interpretovatelnost: vysvětlení modelů v automatizovaném strojovém učení. |
allowed_models
Vyžadováno
|
list(str) nebo
list(Classification) <xref:for classification task> nebo
list(Regression) <xref:for regression task> nebo
list(Forecasting) <xref:for forecasting task>
Seznam názvů modelů pro hledání experimentu Pokud není zadáno, použijí se všechny modely podporované pro úlohu minus všechny zadané v |
allowed_models
Vyžadováno
|
Seznam názvů modelů pro hledání experimentu Pokud není zadáno, použijí se všechny modely podporované pro úlohu minus všechny zadané v |
whitelist_models
Vyžadováno
|
Zastaralý parametr, místo toho použijte allowed_models. |
enable_onnx_compatible_models
Vyžadováno
|
Jestli chcete povolit nebo zakázat vynucování modelů kompatibilních s ONNX. Výchozí hodnota je Nepravda. Další informace o službě Open Neural Network Exchange (ONNX) a Azure Machine Learning najdete v tomto článku. |
forecasting_parameters
Vyžadováno
|
Objekt, který bude obsahovat všechny parametry specifické pro prognózu. |
time_column_name
Vyžadováno
|
Název sloupce času. Tento parametr se vyžaduje při prognózování, aby bylo možné zadat sloupec datetime ve vstupních datech použitých pro sestavení časové řady a odvození její frekvence. Toto nastavení je zastaralé. Místo toho použijte forecasting_parameters. |
max_horizon
Vyžadováno
|
Požadovaný maximální horizont prognózy v jednotkách frekvence časových řad. Výchozí hodnota je 1. Toto nastavení je zastaralé. Místo toho použijte forecasting_parameters. Jednotky jsou založené na časovém intervalu trénovacích dat, například měsíčních nebo týdenních, které by měl prognózovat. Při prognózování typu úkolu je tento parametr povinný. Další informace o nastavení parametrů prognózy najdete v tématu Automatické trénování modelu prognózy časových řad. |
grain_column_names
Vyžadováno
|
Názvy sloupců sloužících k seskupení časových intervalů Dá se použít k vytvoření více řad. Pokud není definováno zrnění, předpokládá se, že datová sada je jednou časovou řadou. Tento parametr se používá s prognózováním typu úlohy. Toto nastavení je zastaralé. Místo toho použijte forecasting_parameters. |
target_lags
Vyžadováno
|
Počet minulých období, která mají být zpožděna od cílového sloupce. Výchozí hodnota je 1. Toto nastavení je zastaralé. Místo toho použijte forecasting_parameters. Při prognózování tento parametr představuje počet řádků, které mají zaostávat v cílových hodnotách na základě frekvence dat. Toto je reprezentováno jako seznam nebo jedno celé číslo. Prodleva by se měla použít, pokud se vztah mezi nezávislými proměnnými a závislými proměnnými ve výchozím nastavení neshoduje nebo nekoreluje. Například při pokusu o odhad poptávky po produktu může poptávka v libovolném měsíci záviset na ceně konkrétních komodit před 3 měsíci. V tomto příkladu můžete chtít záporně zaostávat cíl (poptávka) o 3 měsíce, aby model trénoval na správné relaci. Další informace najdete v tématu Automatické trénování modelu prognózy časových řad. |
feature_lags
Vyžadováno
|
Příznak pro generování prodlev pro číselné funkce Toto nastavení je zastaralé. Místo toho použijte forecasting_parameters. |
target_rolling_window_size
Vyžadováno
|
Počet minulých období použitých k vytvoření průměru klouzavého okna cílového sloupce. Toto nastavení je zastaralé. Místo toho použijte forecasting_parameters. Při prognózování tento parametr představuje n historických období, která se mají použít ke generování předpokládaných hodnot, <= velikost trénovací sady. Pokud ho vynecháte, n je úplná velikost trénovací sady. Tento parametr zadejte, pokud chcete při trénování modelu vzít v úvahu jenom určitou část historie. |
country_or_region
Vyžadováno
|
Země nebo oblast, která se používá k vygenerování funkcí svátků. Mělo by to být dvoumísmenné kódy země/oblasti ISO 3166, například "US" nebo "GB". Toto nastavení je zastaralé. Místo toho použijte forecasting_parameters. |
use_stl
Vyžadováno
|
Nakonfigurujte rozklad STL cílového sloupce časové řady. use_stl můžou mít tři hodnoty: Žádné (výchozí) – bez rozkladu stl, 'season' - pouze generovat komponentu sezóny a season_trend - generovat komponenty sezóny i trendu. Toto nastavení je zastaralé. Místo toho použijte forecasting_parameters. |
seasonality
Vyžadováno
|
Nastavte sezónnost časových řad. Pokud je sezónnost nastavená na hodnotu -1, bude odvozena. Pokud use_stl není nastaven, nebude tento parametr použit. Toto nastavení je zastaralé. Místo toho použijte forecasting_parameters. |
short_series_handling_configuration
Vyžadováno
|
Parametr definující, jak má AutoML zpracovávat krátké časové řady. Možné hodnoty: "auto" (výchozí), "pad", "drop" a None.
Date (Datum) numeric_value řetězec Cíl 01. 01. 2020 23 green 55 Výstup za předpokladu, že minimální počet hodnot je čtyři: +————+—————+———-+—–+ | Datum | numeric_value | string | target | +============+===============+==========+========+ | 29. 12. 2019 | 0 | NA | 55.1 | +————+—————+———-+——–+ | 30. 12. 2019 | 0 | NA | 55,6 | +————+—————+———-+——–+ | 31. 12. 2019 | 0 | NA | 54,5 | +————+—————+———-+——–+ | 1. 1. 2020 | 23 | zelená | 55 | +————+—————+———-+——–+ Poznámka: Máme dva parametry short_series_handling_configuration a starší short_series_handling. Když jsou oba parametry nastavené, synchronizujeme je, jak je znázorněno v následující tabulce (short_series_handling_configuration a short_series_handling pro stručnost jsou označeny jako handling_configuration a zpracování). Zpracování handling_configuration výsledná manipulace výsledné handling_configuration Ano auto Ano auto Ano Pad Ano auto Ano drop Ano auto Ano Žádné Ne Žádné Ne auto Ne Žádné Ne Pad Ne Žádné Ne drop Ne Žádné Ne Žádné Ne Žádné |
freq
Vyžadováno
|
Četnost prognóz. Při prognózování tento parametr představuje období, ve kterém je prognóza požadovaná, například denně, týdně, ročně atd. Frekvence prognózy je ve výchozím nastavení frekvence datové sady. Volitelně ho můžete nastavit na větší (ale ne menší) než četnost datové sady. Agregujeme data a vygenerujeme výsledky s frekvencí prognózy. U denních dat můžete například nastavit denní, týdenní nebo měsíční frekvenci, ale ne každou hodinu. Frekvence musí být alias posunu pandas. Další informace najdete v dokumentaci k knihovně pandas: https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#dateoffset-objects |
target_aggregation_function
Vyžadováno
|
Funkce, která se má použít k agregaci cílového sloupce časové řady tak, aby odpovídala frekvenci zadané uživatelem. Pokud je target_aggregation_function nastaven, ale není nastavený parametr freq, vyvolá se chyba. Možné cílové agregační funkce jsou: "sum", "max", "min" a "střední". Frekvence target_aggregation_function Mechanismus opravy pravidelnosti údajů Žádné (výchozí) Žádné (výchozí) Agregace se nepoužije. Pokud platnou frekvenci nelze určit, bude vyvolána chyba. Nějaká hodnota Žádné (výchozí) Agregace se nepoužije. Pokud je počet datových bodů vyhovujících dané mřížce četnosti menší, odeberou se tyto body o 90 %, jinak dojde k chybě. Žádné (výchozí) Agregační funkce Došlo k chybě týkající se chybějícího parametru frekvence. Nějaká hodnota Agregační funkce Agregace na frekvenci pomocí funkce providedaggregation |
enable_voting_ensemble
Vyžadováno
|
Jestli chcete povolit nebo zakázat iteraci VotingEnsemble. Výchozí hodnota je Pravda. Další informace o souborech najdete v tématu Konfigurace souboru. |
enable_stack_ensemble
Vyžadováno
|
Jestli chcete povolit nebo zakázat iteraci StackEnsemble. Výchozí hodnota je Žádný. Pokud se nastavuje příznak enable_onnx_compatible_models , bude iterace StackEnsemble zakázaná. Podobně u úkolů Timeseries bude iterace StackEnsemble ve výchozím nastavení zakázaná, aby se zabránilo riziku přeurčení kvůli malé trénovací sadě použité k přizpůsobení meta learneru. Další informace o souborech najdete v tématu Konfigurace souboru. |
debug_log
Vyžadováno
|
Soubor protokolu, do který chcete zapisovat informace o ladění. Pokud není zadaný, použije se automl.log. |
training_data
Vyžadováno
|
Trénovací data, která se mají použít v rámci experimentu.
Měl by obsahovat jak trénovací funkce, tak sloupec popisku (volitelně sloupec s váhou vzorku).
Pokud
|
validation_data
Vyžadováno
|
Ověřovací data, která se mají použít v rámci experimentu.
Měl by obsahovat jak trénovací funkce, tak sloupec popisku (volitelně sloupec s váhou vzorku).
Pokud
|
test_data
Vyžadováno
|
Dataset nebo
TabularDataset
Funkce Test modelu využívající testovací datové sady nebo rozdělení testovacích dat je funkce ve stavu Preview a může se kdykoli změnit. Testovací data, která se mají použít pro testovací běh, který se automaticky spustí po dokončení trénování modelu. Testovací běh získá předpovědi pomocí nejlepšího modelu a vypočítá metriky dané predikcemi. Pokud tento parametr nebo |
test_size
Vyžadováno
|
Funkce Test modelu využívající testovací datové sady nebo rozdělení testovacích dat je funkce ve stavu Preview a může se kdykoli změnit. Jaký zlomek trénovacích dat se má uchovávat pro testovací data pro testovací běh, který se automaticky spustí po dokončení trénování modelu. Testovací běh získá předpovědi pomocí nejlepšího modelu a vypočítá metriky dané predikcemi. Tato hodnota by měla být mezi 0,0 a 1,0 bez začlenění.
Pokud Pro úlohy založené na regresi se používá náhodný vzorkování. Pro úlohy klasifikace se používá stratifikované vzorkování. Prognózování v současné době nepodporuje zadání testovací datové sady pomocí rozdělení trénování a testu. Pokud tento parametr nebo |
label_column_name
Vyžadováno
|
Název sloupce popisku Pokud vstupní data pocházejí z knihovny pandas. Datový rámec, který nemá názvy sloupců, je možné místo toho použít indexy sloupců vyjádřené jako celá čísla. Tento parametr se vztahuje na |
weight_column_name
Vyžadováno
|
Název sloupce hmotnosti vzorku. Automatizované strojové učení podporuje jako vstup vážený sloupec, což způsobuje, že se řádky v datech váží nahoru nebo dolů. Pokud vstupní data pocházejí z knihovny pandas. Datový rámec, který nemá názvy sloupců, je možné místo toho použít indexy sloupců vyjádřené jako celá čísla. Tento parametr platí pro |
cv_split_column_names
Vyžadováno
|
Seznam názvů sloupců, které obsahují vlastní rozdělení křížového ověření Každý ze sloupců s rozdělením životopisu představuje jedno rozdělení CV, kde každý řádek je označený buď 1 pro trénování, nebo 0 pro ověření. Tento parametr se vztahuje na Použijte nebo Další informace najdete v tématu Konfigurace rozdělení dat a křížového ověřování v automatizovaném strojovém učení. |
enable_local_managed
Vyžadováno
|
Zakázaný parametr. Místní spravovaná spuštění nelze v tuto chvíli povolit. |
enable_dnn
Vyžadováno
|
Zda se mají při výběru modelu zahrnout modely založené na DNN. Výchozí hodnota v inicializaci je Žádná. Výchozí hodnota je však true pro úlohy NLP DNN a pro všechny ostatní úlohy Automatického strojového učení je nepravda. |
Poznámky
Následující kód ukazuje základní příklad vytvoření objektu AutoMLConfig a odeslání experimentu pro regresi:
automl_settings = {
"n_cross_validations": 3,
"primary_metric": 'r2_score',
"enable_early_stopping": True,
"experiment_timeout_hours": 1.0,
"max_concurrent_iterations": 4,
"max_cores_per_iteration": -1,
"verbosity": logging.INFO,
}
automl_config = AutoMLConfig(task = 'regression',
compute_target = compute_target,
training_data = train_data,
label_column_name = label,
**automl_settings
)
ws = Workspace.from_config()
experiment = Experiment(ws, "your-experiment-name")
run = experiment.submit(automl_config, show_output=True)
Úplná ukázka je k dispozici na stránce Regrese.
Příklady použití funkce AutoMLConfig pro prognózování jsou v těchto poznámkových blocích:
Příklady použití nástroje AutoMLConfig pro všechny typy úloh najdete v těchto automatizovaných poznámkových blocích ML.
Informace o automatizovaném strojovém učení najdete v článcích:
Konfigurace automatizovaných experimentů ML v Pythonu V tomto článku najdete informace o různých algoritmech a primárních metrikách používaných pro každý typ úlohy.
Automatické trénování modelu prognózy časových řad V tomto článku jsou informace o tom, které parametry konstruktoru a
**kwargs
se používají při prognózování.
Další informace o různých možnostech konfigurace trénovacích a ověřovacích rozdělení dat a křížového ověřování pro automatizované strojové učení, automatické strojové učení a experimenty najdete v tématu Konfigurace rozdělení dat a křížového ověřování v automatizovaném strojovém učení.
Metody
as_serializable_dict |
Převeďte objekt do slovníku. |
get_supported_dataset_languages |
Získejte podporované jazyky a jejich odpovídající kódy jazyků v ISO 639-3. |
as_serializable_dict
Převeďte objekt do slovníku.
as_serializable_dict() -> Dict[str, Any]
get_supported_dataset_languages
Získejte podporované jazyky a jejich odpovídající kódy jazyků v ISO 639-3.
get_supported_dataset_languages(use_gpu: bool) -> Dict[Any, Any]
Parametry
Name | Description |
---|---|
cls
Vyžadováno
|
Objekt třídy objektu AutoMLConfig. |
use_gpu
Vyžadováno
|
logická hodnota označující, jestli se výpočetní prostředky gpu používají, nebo ne. |
Návraty
Typ | Description |
---|---|
slovník formátu {: }. Kód jazyka je v souladu se standardem ISO 639-3, projděte si prosím https://en.wikipedia.org/wiki/List_of_ISO_639-3_codes |