Recursos de atraso para previsão de séries cronológicas no AutoML

Este artigo descreve como o aprendizado de máquina automatizado (AutoML) no Aprendizado de Máquina do Azure cria recursos de agregação de janela com atraso e rolagem para ajudá-lo a prever modelos de regressão de séries temporais. Os recursos do AutoML usam dados históricos do modelo que podem aumentar significativamente a precisão do modelo, ajudando o modelo a aprender padrões correlacionais no tempo.

Se você estiver interessado em saber mais sobre a metodologia de previsão no AutoML, consulte Visão geral dos métodos de previsão no AutoML. Para explorar exemplos de treinamento para modelos de previsão no AutoML, consulte Configurar o AutoML para treinar um modelo de previsão de séries cronológicas com o SDK e a CLI.

Featurização de lag em AutoML

O AutoML gera recursos de atraso que correspondem ao horizonte de previsão. Esta seção explora a featurização de lag no AutoML para um modelo com um horizonte de previsão de três e uma ordem de lag alvo de um. As tabelas a seguir apresentam os dados do modelo e os recursos de atraso para uma série temporal mensal.

Quadro 1: Séries cronológicas originais

Date $y_t$
1/1/2001 0
2/1/2001 10
3/1/2001 20
4/1/2001 30
5/1/2001 40
6/1/2001 50

A primeira etapa gera o recurso de atraso para o horizonte $h=1$ apenas. As tabelas subsequentes demonstram por que o processo usa horizontes individuais para completar a featurização do atraso.

Tabela 2: Featurização do atraso para o horizonte $h=1$

Date $y_t$ Origem $y_{T-1}$ $h$
1/1/2001 0 12/1/2000 - 1
2/1/2001 10 1/1/2001 0 1
3/1/2001 20 2/1/2001 10 1
4/1/2001 30 3/1/2001 20 1
5/1/2001 40 4/1/2001 30 1
6/1/2001 50 5/1/2001 40 1

O AutoML gera os dados da Tabela 2 a partir dos dados da Tabela 1 deslocando a coluna $y_t$ para baixo por uma única observação. As tabelas 2 a 5 incluem a coluna Origem para mostrar as datas de origem das características de atraso.

A próxima etapa gera o recurso de atraso para o horizonte de previsão $h=2$ apenas.

Tabela 3: Featurização do atraso para o horizonte de previsão $h=2$

Date $y_t$ Origem $y_{T-2}$ $h$
1/1/2001 0 11/1/2000 - 2
2/1/2001 10 12/1/2000 - 2
3/1/2001 20 1/1/2001 0 2
4/1/2001 30 2/1/2001 10 2
5/1/2001 40 3/1/2001 20 2
6/1/2001 50 4/1/2001 30 2

O AutoML gera os dados da Tabela 3 a partir dos dados da Tabela 1 deslocando a coluna $y_t$ para baixo por duas observações.

A próxima etapa gera o recurso de atraso para o horizonte de previsão $h=3$ apenas.

Tabela 4: Featurização do defasagem para o horizonte de previsão $h=3$

Date $y_t$ Origem $y_{T-3}$ $h$
1/1/2001 0 10/1/2000 - 3
2/1/2001 10 11/1/2000 - 3
3/1/2001 20 12/1/2000 - 3
4/1/2001 30 1/1/2001 0 3
5/1/2001 40 2/1/2001 10 3
6/1/2001 50 3/1/2001 20 3

A etapa final concatena os dados nas Tabelas 1, 2 e 3 e reorganiza as linhas.

Tabela 5: Conclusão da featurização defasada

Date $y_t$ Origem $y_{t-1}^{(h)}$ $h$
1/1/2001 0 12/1/2000 - 1
1/1/2001 0 11/1/2000 - 2
1/1/2001 0 10/1/2000 - 3
2/1/2001 10 1/1/2001 0 1
2/1/2001 10 12/1/2000 - 2
2/1/2001 10 11/1/2000 - 3
3/1/2001 20 2/1/2001 10 1
3/1/2001 20 1/1/2001 0 2
3/1/2001 20 12/1/2000 - 3
4/1/2001 30 3/1/2001 20 1
4/1/2001 30 2/1/2001 10 2
4/1/2001 30 1/1/2001 0 3
5/1/2001 40 4/1/2001 30 1
5/1/2001 40 3/1/2001 20 2
5/1/2001 40 2/1/2001 10 3
6/1/2001 50 4/1/2001 40 1
6/1/2001 50 4/1/2001 30 2
6/1/2001 50 3/1/2001 20 3

Na Tabela 5, a coluna de atraso é renomeada para $y_{t-1}^{(h)}$ para refletir que o atraso é gerado em relação a um horizonte específico. A Tabela 5 mostra como as defasagens geradas em relação ao horizonte podem ser mapeadas para as formas convencionais de geração de defasagens nas tabelas anteriores.

A Tabela 5 é um exemplo do aumento de dados que o AutoML aplica aos dados de treinamento para permitir a previsão direta a partir de modelos de regressão. Quando a configuração inclui recursos de atraso, o AutoML cria atrasos dependentes do horizonte, juntamente com um recurso de horizonte com valor inteiro. Os modelos de regressão de previsão AutoML podem fazer uma previsão no horizonte $h$ sem considerar a previsão em $h-1$, em contraste com modelos definidos recursivamente como ARIMA.

Considerações para a featurização do atraso

Existem algumas considerações relacionadas à featurização lag para um modelo. Analise as seções a seguir para identificar possíveis ações para seu cenário.

Crescimento do tamanho do conjunto de dados

Quando o AutoML gera recursos de atraso dependentes do horizonte, ele adiciona novas linhas ao conjunto de dados do modelo. O número de novas linhas é proporcional ao horizonte de previsão.

O crescimento no tamanho do conjunto de dados pode levar a erros de falta de memória em nós de computação menores ou quando o tamanho do conjunto de dados já é grande. Você pode encontrar soluções para resolver esse problema nas Perguntas freqüentes (FAQ) para previsão de AutoML.

Dissociação entre a ordem dos desfasamentos e o horizonte de previsão

A estratégia de atraso do AutoML separa a ordem de atraso e o horizonte de previsão. Suponha que seu horizonte de previsão seja sete e você queira que o AutoML use recursos de atraso. Nesse cenário, você não precisa definir a ordem de atraso para sete para garantir a previsão em um horizonte de previsão completo. Como o AutoML gera atrasos em relação ao horizonte, você pode definir a ordem de atraso como uma. O AutoML aumenta os dados para que os atrasos de qualquer ordem sejam válidos até o horizonte de previsão.