Lag features for time-series forecasting in AutoML
Tento článek popisuje, jak automatizované strojové učení (AutoML) ve službě Azure Machine Learning vytváří funkce agregace prodlevy a průběžného intervalu, které vám pomůžou předpovídat regresní modely časových řad. Funkce AutoML používají historická data modelu, která můžou výrazně zvýšit přesnost modelu tím, že modelu pomáhají učit se korelační vzory v čase.
Pokud se chcete dozvědět více o metodologii prognózování v AutoML, přečtěte si téma Přehled metod prognózování v AutoML. Pokud chcete prozkoumat příklady trénování pro prognózování modelů v AutoML, přečtěte si téma Nastavení autoML pro trénování modelu prognózování časových řad pomocí sady SDK a rozhraní příkazového řádku.
Lag featurization in AutoML
AutoML generuje funkce prodlevy, které odpovídají horizontu prognózy. Tato část zkoumá funkciaturace prodlevy v AutoML pro model s horizontem prognózy tří cílových prodlev jednoho. Následující tabulky představují funkce dat modelu a prodlevy pro měsíční časovou řadu.
Tabulka 1: Původní časová řada
Datum | $y_t$ |
---|---|
1/1/2001 | 0 |
2/1/2001 | 10 |
3/1/2001 | 20 |
4/1/2001 | 30 |
5/1/2001 | 40 |
6/1/2001 | 50 |
První krok vygeneruje funkci prodlevy pouze pro horizont $h=1$. Následující tabulky ukazují, proč proces používá jednotlivé horizonty k dokončení featurizace prodlevy.
Tabulka 2: Prodleva featurizace pro horizont $h=1$
Datum | $y_t$ | Zdroj | $y_{t-1}$ | $h$ |
---|---|---|---|---|
1/1/2001 | 0 | 12/1/2000 | - | 0 |
2/1/2001 | 10 | 1/1/2001 | 0 | 1 |
3/1/2001 | 20 | 2/1/2001 | 10 | 0 |
4/1/2001 | 30 | 3/1/2001 | 20 | 0 |
5/1/2001 | 40 | 4/1/2001 | 30 | 0 |
6/1/2001 | 50 | 5/1/2001 | 40 | 0 |
AutoML vygeneruje data v tabulce 2 z dat v tabulce 1 tak, že posune sloupec $y_t$ o jedno pozorování dolů. Tabulky 2 až 5 obsahují sloupec Origin , aby se zobrazila data, ze kterých pocházejí funkce prodlevy.
Další krok vygeneruje funkci prodlevy pouze pro horizont prognózy $h=2$.
Tabulka 3: Prodleva featurizace pro horizont prognózy $h=2$
Datum | $y_t$ | Zdroj | $y_{t-2}$ | $h$ |
---|---|---|---|---|
1/1/2001 | 0 | 11/1/2000 | - | 2 |
2/1/2001 | 10 | 12/1/2000 | - | 2 |
3/1/2001 | 20 | 1/1/2001 | 0 | 2 |
4/1/2001 | 30 | 2/1/2001 | 10 | 2 |
5/1/2001 | 40 | 3/1/2001 | 20 | 2 |
6/1/2001 | 50 | 4/1/2001 | 30 | 2 |
AutoML vygeneruje data v tabulce 3 z dat v tabulce 1 posunutím sloupce $y_t$ dolů o dvě pozorování.
Další krok vygeneruje funkci prodlevy pouze pro horizont prognózy $h=3$.
Tabulka 4: Prodleva featurizace pro horizont prognózy $h=3$
Datum | $y_t$ | Zdroj | $y_{t-3}$ | $h$ |
---|---|---|---|---|
1/1/2001 | 0 | 10/1/2000 | - | 3 |
2/1/2001 | 10 | 11/1/2000 | - | 3 |
3/1/2001 | 20 | 12/1/2000 | - | 3 |
4/1/2001 | 30 | 1/1/2001 | 0 | 3 |
5/1/2001 | 40 | 2/1/2001 | 10 | 3 |
6/1/2001 | 50 | 3/1/2001 | 20 | 3 |
Poslední krok zřetězí data v tabulkách 1, 2 a 3 a přeuspořádá řádky.
Tabulka 5: Dokončení funkce prodlevy
Datum | $y_t$ | Zdroj | $y_{t-1}^{(h)}$ | $h$ |
---|---|---|---|---|
1/1/2001 | 0 | 12/1/2000 | - | 0 |
1/1/2001 | 0 | 11/1/2000 | - | 2 |
1/1/2001 | 0 | 10/1/2000 | - | 3 |
2/1/2001 | 10 | 1/1/2001 | 0 | 1 |
2/1/2001 | 10 | 12/1/2000 | - | 2 |
2/1/2001 | 10 | 11/1/2000 | - | 3 |
3/1/2001 | 20 | 2/1/2001 | 10 | 0 |
3/1/2001 | 20 | 1/1/2001 | 0 | 2 |
3/1/2001 | 20 | 12/1/2000 | - | 3 |
4/1/2001 | 30 | 3/1/2001 | 20 | 0 |
4/1/2001 | 30 | 2/1/2001 | 10 | 2 |
4/1/2001 | 30 | 1/1/2001 | 0 | 3 |
5/1/2001 | 40 | 4/1/2001 | 30 | 0 |
5/1/2001 | 40 | 3/1/2001 | 20 | 2 |
5/1/2001 | 40 | 2/1/2001 | 10 | 3 |
6/1/2001 | 50 | 4/1/2001 | 40 | 0 |
6/1/2001 | 50 | 4/1/2001 | 30 | 2 |
6/1/2001 | 50 | 3/1/2001 | 20 | 3 |
V tabulce 5 se sloupec prodlevy přejmenuje na $y_{t-1}^{(h)}$ tak, aby odrážel, že prodleva se generuje s ohledem na určitý horizont. Tabulka 5 ukazuje, jak lze prodlevy vygenerované s ohledem na horizont mapovat na konvenční způsoby generování prodlev v předchozích tabulkách.
Tabulka 5 je příkladem rozšíření dat, které AutoML používá pro trénovací data, aby bylo možné přímé prognózování z regresních modelů. Když konfigurace zahrnuje funkce prodlevy, AutoML vytvoří prodlevy závislé na horizontu spolu s celočíselnou hodnotou horizont funkce. Modely regrese prognóz AutoML můžou vytvořit předpověď na horizont $h$ bez ohledu na předpověď v $h-1$, na rozdíl od rekurzivně definovaných modelů, jako je ARIMA.
Co je potřeba vzít v úvahu při featurizaci prodlevy
Existuje několik aspektů souvisejících se zpožděním featurizace modelu. V následujících částech najdete informace o potenciálních akcích pro váš scénář.
Růst velikosti datové sady
Když AutoML generuje funkce prodlevy závislé na horizontu, přidá do datové sady modelu nové řádky . Počet nových řádků je úměrný horizontu prognózy.
Růst velikosti datové sady může vést k chybám nedostatku paměti na menších výpočetních uzlech nebo v případech, kdy je velikost datové sady už velká. Řešení tohoto problému najdete v nejčastějších dotazech k prognózování AutoML.
Oddělení pořadí prodlevy a horizontu prognóz
Zpoždění strategie AutoML odděluje pořadí prodlev a horizont prognózy. Předpokládejme, že horizont prognózy je sedm a chcete, aby AutoML používalo funkce prodlevy. V tomto scénáři nemusíte nastavit prodlevu na sedm, abyste zajistili predikci v rámci úplného horizontu prognózy. Vzhledem k tomu, že AutoML generuje prodlevy s ohledem na horizont, můžete nastavit pořadí prodlevy na jednu. AutoML rozšiřuje data tak, aby prodlevy libovolného pořadí byly platné až do horizontu prognózy.