Lag features for time-series forecasting in AutoML

Tento článek popisuje, jak automatizované strojové učení (AutoML) ve službě Azure Machine Learning vytváří funkce agregace prodlevy a průběžného intervalu, které vám pomůžou předpovídat regresní modely časových řad. Funkce AutoML používají historická data modelu, která můžou výrazně zvýšit přesnost modelu tím, že modelu pomáhají učit se korelační vzory v čase.

Pokud se chcete dozvědět více o metodologii prognózování v AutoML, přečtěte si téma Přehled metod prognózování v AutoML. Pokud chcete prozkoumat příklady trénování pro prognózování modelů v AutoML, přečtěte si téma Nastavení autoML pro trénování modelu prognózování časových řad pomocí sady SDK a rozhraní příkazového řádku.

Lag featurization in AutoML

AutoML generuje funkce prodlevy, které odpovídají horizontu prognózy. Tato část zkoumá funkciaturace prodlevy v AutoML pro model s horizontem prognózy tří cílových prodlev jednoho. Následující tabulky představují funkce dat modelu a prodlevy pro měsíční časovou řadu.

Tabulka 1: Původní časová řada

Datum $y_t$
1/1/2001 0
2/1/2001 10
3/1/2001 20
4/1/2001 30
5/1/2001 40
6/1/2001 50

První krok vygeneruje funkci prodlevy pouze pro horizont $h=1$. Následující tabulky ukazují, proč proces používá jednotlivé horizonty k dokončení featurizace prodlevy.

Tabulka 2: Prodleva featurizace pro horizont $h=1$

Datum $y_t$ Zdroj $y_{t-1}$ $h$
1/1/2001 0 12/1/2000 - 0
2/1/2001 10 1/1/2001 0 1
3/1/2001 20 2/1/2001 10 0
4/1/2001 30 3/1/2001 20 0
5/1/2001 40 4/1/2001 30 0
6/1/2001 50 5/1/2001 40 0

AutoML vygeneruje data v tabulce 2 z dat v tabulce 1 tak, že posune sloupec $y_t$ o jedno pozorování dolů. Tabulky 2 až 5 obsahují sloupec Origin , aby se zobrazila data, ze kterých pocházejí funkce prodlevy.

Další krok vygeneruje funkci prodlevy pouze pro horizont prognózy $h=2$.

Tabulka 3: Prodleva featurizace pro horizont prognózy $h=2$

Datum $y_t$ Zdroj $y_{t-2}$ $h$
1/1/2001 0 11/1/2000 - 2
2/1/2001 10 12/1/2000 - 2
3/1/2001 20 1/1/2001 0 2
4/1/2001 30 2/1/2001 10 2
5/1/2001 40 3/1/2001 20 2
6/1/2001 50 4/1/2001 30 2

AutoML vygeneruje data v tabulce 3 z dat v tabulce 1 posunutím sloupce $y_t$ dolů o dvě pozorování.

Další krok vygeneruje funkci prodlevy pouze pro horizont prognózy $h=3$.

Tabulka 4: Prodleva featurizace pro horizont prognózy $h=3$

Datum $y_t$ Zdroj $y_{t-3}$ $h$
1/1/2001 0 10/1/2000 - 3
2/1/2001 10 11/1/2000 - 3
3/1/2001 20 12/1/2000 - 3
4/1/2001 30 1/1/2001 0 3
5/1/2001 40 2/1/2001 10 3
6/1/2001 50 3/1/2001 20 3

Poslední krok zřetězí data v tabulkách 1, 2 a 3 a přeuspořádá řádky.

Tabulka 5: Dokončení funkce prodlevy

Datum $y_t$ Zdroj $y_{t-1}^{(h)}$ $h$
1/1/2001 0 12/1/2000 - 0
1/1/2001 0 11/1/2000 - 2
1/1/2001 0 10/1/2000 - 3
2/1/2001 10 1/1/2001 0 1
2/1/2001 10 12/1/2000 - 2
2/1/2001 10 11/1/2000 - 3
3/1/2001 20 2/1/2001 10 0
3/1/2001 20 1/1/2001 0 2
3/1/2001 20 12/1/2000 - 3
4/1/2001 30 3/1/2001 20 0
4/1/2001 30 2/1/2001 10 2
4/1/2001 30 1/1/2001 0 3
5/1/2001 40 4/1/2001 30 0
5/1/2001 40 3/1/2001 20 2
5/1/2001 40 2/1/2001 10 3
6/1/2001 50 4/1/2001 40 0
6/1/2001 50 4/1/2001 30 2
6/1/2001 50 3/1/2001 20 3

V tabulce 5 se sloupec prodlevy přejmenuje na $y_{t-1}^{(h)}$ tak, aby odrážel, že prodleva se generuje s ohledem na určitý horizont. Tabulka 5 ukazuje, jak lze prodlevy vygenerované s ohledem na horizont mapovat na konvenční způsoby generování prodlev v předchozích tabulkách.

Tabulka 5 je příkladem rozšíření dat, které AutoML používá pro trénovací data, aby bylo možné přímé prognózování z regresních modelů. Když konfigurace zahrnuje funkce prodlevy, AutoML vytvoří prodlevy závislé na horizontu spolu s celočíselnou hodnotou horizont funkce. Modely regrese prognóz AutoML můžou vytvořit předpověď na horizont $h$ bez ohledu na předpověď v $h-1$, na rozdíl od rekurzivně definovaných modelů, jako je ARIMA.

Co je potřeba vzít v úvahu při featurizaci prodlevy

Existuje několik aspektů souvisejících se zpožděním featurizace modelu. V následujících částech najdete informace o potenciálních akcích pro váš scénář.

Růst velikosti datové sady

Když AutoML generuje funkce prodlevy závislé na horizontu, přidá do datové sady modelu nové řádky . Počet nových řádků je úměrný horizontu prognózy.

Růst velikosti datové sady může vést k chybám nedostatku paměti na menších výpočetních uzlech nebo v případech, kdy je velikost datové sady už velká. Řešení tohoto problému najdete v nejčastějších dotazech k prognózování AutoML.

Oddělení pořadí prodlevy a horizontu prognóz

Zpoždění strategie AutoML odděluje pořadí prodlev a horizont prognózy. Předpokládejme, že horizont prognózy je sedm a chcete, aby AutoML používalo funkce prodlevy. V tomto scénáři nemusíte nastavit prodlevu na sedm, abyste zajistili predikci v rámci úplného horizontu prognózy. Vzhledem k tomu, že AutoML generuje prodlevy s ohledem na horizont, můžete nastavit pořadí prodlevy na jednu. AutoML rozšiřuje data tak, aby prodlevy libovolného pořadí byly platné až do horizontu prognózy.