Funzionalità differite per la previsione delle serie temporali in AutoML

Questo articolo è incentrato sui metodi di AutoML per la creazione di funzionalità di aggregazione di ritardo e finestra mobile per la previsione dei modelli di regressione. Funzionalità come queste che usano informazioni passate possono aumentare significativamente l'accuratezza aiutando il modello ad apprendere criteri di correlazione nel tempo. Per informazioni generali sulla metodologia di previsione in AutoML, vedere l'articolo sulla panoramica dei metodi. Istruzioni ed esempi per il training dei modelli di previsione in AutoML sono disponibili nell'articolo Configurare AutoML per le previsioni delle serie temporali.

Esempio di funzionalità di ritardo

AutoML genera ritardi rispetto all'orizzonte di previsione. L'esempio in questa sezione illustra questo concetto. In questo caso, si usa un orizzonte di previsione di tre e un ordine di ritardo di destinazione di uno. Si consideri la serie temporale mensile seguente:

Tabella 1: Serie temporale originale

Data $y_t$
1/1/2001 0
2/1/2001 10
3/1/2001 20
4/1/2001 30
5/1/2001 40
6/1/2001 50

Prima di tutto, viene generata la funzionalità di ritardo soltanto per l'orizzonte $h=1$. Man mano che si continua a leggere, diventerà chiaro il motivo per cui usiamo i singoli orizzonti in ogni tabella.

Tabella 2: Definizione delle funzionalità di ritardo per $h=1$

Data $y_t$ Origine $y_{t-1}$ $h$
1/1/2001 0 12/1/2000 - 1
2/1/2001 10 1/1/2001 0 1
3/1/2001 20 2/1/2001 10 1
4/1/2001 30 3/1/2001 20 1
5/1/2001 40 4/1/2001 30 1
6/1/2001 50 5/1/2001 40 1

La tabella 2 viene generata dalla tabella 1 spostando la colonna $y_t$ verso il basso con una singola osservazione. È stata aggiunta una colonna denominata Origin con le date da cui provengono le funzionalità di ritardo. Successivamente, viene generata la funzionalità di ritardo soltanto per l'orizzonte di previsione $h=2$.

Tabella 3: Definizione delle funzionalità di ritardo per $h=2$

Data $y_t$ Origine $y_{t-2}$ $h$
1/1/2001 0 11/1/2000 - 2
2/1/2001 10 12/1/2000 - 2
3/1/2001 20 1/1/2001 0 2
4/1/2001 30 2/1/2001 10 2
5/1/2001 40 3/1/2001 20 2
6/1/2001 50 4/1/2001 30 2

La tabella 3 viene generata dalla tabella 1 spostando la colonna $y_t$ verso il basso di due osservazioni. Infine, verrà generata la funzionalità di ritardo soltanto per l'orizzonte di previsione $h=3$.

Tabella 4: Definizione delle funzionalità di ritardo per $h=3$

Data $y_t$ Origine $y_{t-3}$ $h$
1/1/2001 0 10/1/2000 - 3
2/1/2001 10 11/1/2000 - 3
3/1/2001 20 12/1/2000 - 3
4/1/2001 30 1/1/2001 0 3
5/1/2001 40 2/1/2001 10 3
6/1/2001 50 3/1/2001 20 3

Successivamente, vengono concatenate le tabelle 1, 2 e 3 e vengono riorganizzate le righe. Il risultato è riportato nella tabella seguente:

Tabella 5: Definizione delle funzionalità di ritardo completata

Data $y_t$ Origine $y_{t-1}^{(h)}$ $h$
1/1/2001 0 12/1/2000 - 1
1/1/2001 0 11/1/2000 - 2
1/1/2001 0 10/1/2000 - 3
2/1/2001 10 1/1/2001 0 1
2/1/2001 10 12/1/2000 - 2
2/1/2001 10 11/1/2000 - 3
3/1/2001 20 2/1/2001 10 1
3/1/2001 20 1/1/2001 0 2
3/1/2001 20 12/1/2000 - 3
4/1/2001 30 3/1/2001 20 1
4/1/2001 30 2/1/2001 10 2
4/1/2001 30 1/1/2001 0 3
5/1/2001 40 4/1/2001 30 1
5/1/2001 40 3/1/2001 20 2
5/1/2001 40 2/1/2001 10 3
6/1/2001 50 4/1/2001 40 1
6/1/2001 50 4/1/2001 30 2
6/1/2001 50 3/1/2001 20 3

Nella tabella finale il nome della colonna di ritardo è stato modificato in $y_{t-1}^{(h)}$ in modo da riflettere che il ritardo viene generato rispetto a un orizzonte specifico. La tabella mostra che i ritardi generati rispetto all'orizzonte possono essere mappati alle modalità tradizionali di generazione dei ritardi nelle tabelle precedenti.

La tabella 5 è un esempio dell'aumento dei dati applicato da AutoML ai dati di training per abilitare la previsione diretta dai modelli di regressione. Quando la configurazione include funzionalità di ritardo, AutoML crea ritardi dipendenti dall'orizzonte insieme a una funzionalità di orizzonte con valori interi. Ciò consente ai modelli di regressione di previsione di AutoML di eseguire una stima all'orizzonte $h$ senza considerare la stima a $h-1$, a differenza dei modelli definiti in modo ricorsivo come ARIMA.

Nota

La generazione di funzionalità di ritardo dipendenti dall'orizzonte aggiunge nuove righe al set di dati. Il numero di nuove righe è proporzionale all'orizzonte di previsione. Questa crescita delle dimensioni del set di dati può causare errori di memoria insufficiente su nodi di calcolo più piccoli o quando le dimensioni del set di dati sono già considerevoli. Per le soluzioni a questo problema, vedere l'articolo delle domande frequenti.

Un'altra conseguenza di questa strategia di ritardo è che l'ordine di ritardo e l'orizzonte di previsione sono disaccoppiati. Se, ad esempio, l'orizzonte di previsione è sette e si vuole che AutoML usi le funzionalità di ritardo, non è necessario impostare l'ordine di ritardo su sette per garantire la stima su un orizzonte di previsione completo. Poiché AutoML genera ritardi rispetto all'orizzonte, è possibile impostare l'ordine di ritardo su uno e AutoML aumenta i dati in modo che i ritardi di qualsiasi ordine siano validi fino all'orizzonte di previsione.

Passaggi successivi