Recursos de atraso para previsão de séries cronológicas no AutoML
Este artigo descreve como o aprendizado de máquina automatizado (AutoML) no Aprendizado de Máquina do Azure cria recursos de agregação de janela com atraso e rolagem para ajudá-lo a prever modelos de regressão de séries temporais. Os recursos do AutoML usam dados históricos do modelo que podem aumentar significativamente a precisão do modelo, ajudando o modelo a aprender padrões correlacionais no tempo.
Se você estiver interessado em saber mais sobre a metodologia de previsão no AutoML, consulte Visão geral dos métodos de previsão no AutoML. Para explorar exemplos de treinamento para modelos de previsão no AutoML, consulte Configurar o AutoML para treinar um modelo de previsão de séries cronológicas com o SDK e a CLI.
Featurização de lag em AutoML
O AutoML gera recursos de atraso que correspondem ao horizonte de previsão. Esta seção explora a featurização de lag no AutoML para um modelo com um horizonte de previsão de três e uma ordem de lag alvo de um. As tabelas a seguir apresentam os dados do modelo e os recursos de atraso para uma série temporal mensal.
Quadro 1: Séries cronológicas originais
Date | $y_t$ |
---|---|
1/1/2001 | 0 |
2/1/2001 | 10 |
3/1/2001 | 20 |
4/1/2001 | 30 |
5/1/2001 | 40 |
6/1/2001 | 50 |
A primeira etapa gera o recurso de atraso para o horizonte $h=1$ apenas. As tabelas subsequentes demonstram por que o processo usa horizontes individuais para completar a featurização do atraso.
Tabela 2: Featurização do atraso para o horizonte $h=1$
Date | $y_t$ | Origem | $y_{T-1}$ | $h$ |
---|---|---|---|---|
1/1/2001 | 0 | 12/1/2000 | - | 1 |
2/1/2001 | 10 | 1/1/2001 | 0 | 1 |
3/1/2001 | 20 | 2/1/2001 | 10 | 1 |
4/1/2001 | 30 | 3/1/2001 | 20 | 1 |
5/1/2001 | 40 | 4/1/2001 | 30 | 1 |
6/1/2001 | 50 | 5/1/2001 | 40 | 1 |
O AutoML gera os dados da Tabela 2 a partir dos dados da Tabela 1 deslocando a coluna $y_t$ para baixo por uma única observação. As tabelas 2 a 5 incluem a coluna Origem para mostrar as datas de origem das características de atraso.
A próxima etapa gera o recurso de atraso para o horizonte de previsão $h=2$ apenas.
Tabela 3: Featurização do atraso para o horizonte de previsão $h=2$
Date | $y_t$ | Origem | $y_{T-2}$ | $h$ |
---|---|---|---|---|
1/1/2001 | 0 | 11/1/2000 | - | 2 |
2/1/2001 | 10 | 12/1/2000 | - | 2 |
3/1/2001 | 20 | 1/1/2001 | 0 | 2 |
4/1/2001 | 30 | 2/1/2001 | 10 | 2 |
5/1/2001 | 40 | 3/1/2001 | 20 | 2 |
6/1/2001 | 50 | 4/1/2001 | 30 | 2 |
O AutoML gera os dados da Tabela 3 a partir dos dados da Tabela 1 deslocando a coluna $y_t$ para baixo por duas observações.
A próxima etapa gera o recurso de atraso para o horizonte de previsão $h=3$ apenas.
Tabela 4: Featurização do defasagem para o horizonte de previsão $h=3$
Date | $y_t$ | Origem | $y_{T-3}$ | $h$ |
---|---|---|---|---|
1/1/2001 | 0 | 10/1/2000 | - | 3 |
2/1/2001 | 10 | 11/1/2000 | - | 3 |
3/1/2001 | 20 | 12/1/2000 | - | 3 |
4/1/2001 | 30 | 1/1/2001 | 0 | 3 |
5/1/2001 | 40 | 2/1/2001 | 10 | 3 |
6/1/2001 | 50 | 3/1/2001 | 20 | 3 |
A etapa final concatena os dados nas Tabelas 1, 2 e 3 e reorganiza as linhas.
Tabela 5: Conclusão da featurização defasada
Date | $y_t$ | Origem | $y_{t-1}^{(h)}$ | $h$ |
---|---|---|---|---|
1/1/2001 | 0 | 12/1/2000 | - | 1 |
1/1/2001 | 0 | 11/1/2000 | - | 2 |
1/1/2001 | 0 | 10/1/2000 | - | 3 |
2/1/2001 | 10 | 1/1/2001 | 0 | 1 |
2/1/2001 | 10 | 12/1/2000 | - | 2 |
2/1/2001 | 10 | 11/1/2000 | - | 3 |
3/1/2001 | 20 | 2/1/2001 | 10 | 1 |
3/1/2001 | 20 | 1/1/2001 | 0 | 2 |
3/1/2001 | 20 | 12/1/2000 | - | 3 |
4/1/2001 | 30 | 3/1/2001 | 20 | 1 |
4/1/2001 | 30 | 2/1/2001 | 10 | 2 |
4/1/2001 | 30 | 1/1/2001 | 0 | 3 |
5/1/2001 | 40 | 4/1/2001 | 30 | 1 |
5/1/2001 | 40 | 3/1/2001 | 20 | 2 |
5/1/2001 | 40 | 2/1/2001 | 10 | 3 |
6/1/2001 | 50 | 4/1/2001 | 40 | 1 |
6/1/2001 | 50 | 4/1/2001 | 30 | 2 |
6/1/2001 | 50 | 3/1/2001 | 20 | 3 |
Na Tabela 5, a coluna de atraso é renomeada para $y_{t-1}^{(h)}$ para refletir que o atraso é gerado em relação a um horizonte específico. A Tabela 5 mostra como as defasagens geradas em relação ao horizonte podem ser mapeadas para as formas convencionais de geração de defasagens nas tabelas anteriores.
A Tabela 5 é um exemplo do aumento de dados que o AutoML aplica aos dados de treinamento para permitir a previsão direta a partir de modelos de regressão. Quando a configuração inclui recursos de atraso, o AutoML cria atrasos dependentes do horizonte, juntamente com um recurso de horizonte com valor inteiro. Os modelos de regressão de previsão AutoML podem fazer uma previsão no horizonte $h$ sem considerar a previsão em $h-1$, em contraste com modelos definidos recursivamente como ARIMA.
Considerações para a featurização do atraso
Existem algumas considerações relacionadas à featurização lag para um modelo. Analise as seções a seguir para identificar possíveis ações para seu cenário.
Crescimento do tamanho do conjunto de dados
Quando o AutoML gera recursos de atraso dependentes do horizonte, ele adiciona novas linhas ao conjunto de dados do modelo. O número de novas linhas é proporcional ao horizonte de previsão.
O crescimento no tamanho do conjunto de dados pode levar a erros de falta de memória em nós de computação menores ou quando o tamanho do conjunto de dados já é grande. Você pode encontrar soluções para resolver esse problema nas Perguntas freqüentes (FAQ) para previsão de AutoML.
Dissociação entre a ordem dos desfasamentos e o horizonte de previsão
A estratégia de atraso do AutoML separa a ordem de atraso e o horizonte de previsão. Suponha que seu horizonte de previsão seja sete e você queira que o AutoML use recursos de atraso. Nesse cenário, você não precisa definir a ordem de atraso para sete para garantir a previsão em um horizonte de previsão completo. Como o AutoML gera atrasos em relação ao horizonte, você pode definir a ordem de atraso como uma. O AutoML aumenta os dados para que os atrasos de qualquer ordem sejam válidos até o horizonte de previsão.