Tutorial: previsão de demanda com machine learning automatizado sem código no Estúdio do Azure Machine Learning

Saiba como criar um modelo de previsão de série temporal sem escrever nenhuma linha de código usando o machine learning automatizado no Estúdio do Azure Machine Learning. Esse modelo prevê a demanda de locações para um serviço de compartilhamento de bicicletas.

Você não escreverá nenhum código neste tutorial e usará a interface do estúdio para realizar o treinamento. Você aprenderá a realizar as seguintes tarefas:

  • Criar e carregar um conjunto de dados.
  • Configurar e executar um experimento de ML automatizado.
  • Especificar configurações de previsão.
  • Explorar os resultados do experimento.
  • Implantar o melhor modelo.

Além disso, experimente o machine learning automatizado para estes outros tipos de modelo:

Pré-requisitos

Entrar no estúdio

Para este tutorial, você criará sua execução do experimento de ML automatizado no estúdio do Azure Machine Learning, uma interface Web consolidada que inclui ferramentas de machine learning para realizar cenários de ciência de dados destinado a praticantes de ciência de dados de todos os níveis de habilidades. O estúdio não é compatível com navegadores Internet Explorer.

  1. Entre no Estúdio do Azure Machine Learning.

  2. Selecione a assinatura e o workspace criado.

  3. Selecione Introdução.

  4. No painel esquerdo, selecione ML Automatizado na seção Criar.

  5. Selecione +Novo trabalho de ML automatizado.

Criar e carregar um conjunto de dados

Antes de configurar seu experimento, carregue o arquivo de dados no workspace na forma de um conjunto de dados do Azure Machine Learning. Essa ação permite que você garanta que os dados estejam formatados corretamente para o experimento.

  1. No formulário Selecionar conjunto de dados, selecione De arquivos locais na lista suspensa +Criar conjunto de dados.

    1. No formulário Informações básicas, dê um nome ao conjunto de dados e forneça uma descrição opcional. O tipo de conjunto de dados deverá usar Tabela como padrão, pois o ML automatizado no Azure Machine Learning Studio atualmente só dá suporte a conjuntos de dados de tabela.

    2. Selecione Avançar na parte inferior esquerda

    3. No formulário Seleção de armazenamento de dados e de arquivo, selecione o armazenamento de dados padrão que foi configurado automaticamente durante a criação do workspace, workspaceblobstore (Armazenamento de Blobs do Azure) . Esse é o local de armazenamento onde você carregará o arquivo de dados.

    4. Selecione Carregar arquivos no menu suspenso Carregar.

    5. Escolha o arquivo bike-no.csv no computador local. Esse é o arquivo que você baixou como pré-requisito.

    6. Selecione Avançar

      Após a conclusão do upload, o formulário Configurações e visualização será pré-populado com base no tipo de arquivo.

    7. Verifique se o formulário Configurações e visualização é populado conforme mostrado a seguir e selecione Avançar.

      Campo Descrição Valor para o tutorial
      Formato de arquivo Define o layout e o tipo de dados armazenados em um arquivo. Delimitado
      Delimitador Um ou mais caracteres para especificar o limite entre regiões separadas e independentes em texto sem formatação ou outros fluxos de dados. Vírgula
      Codificação Identifica qual tabela de esquema de bit para caractere usar para ler seu conjunto de dados. UTF-8
      Cabeçalhos da coluna Indica como os cabeçalhos do conjunto de dados, se houver, serão tratados. Somente o primeiro arquivo tem cabeçalhos
      Ignorar linhas Indica quantas linhas, se houver, serão ignoradas no conjunto de registros. Nenhum
    8. O formulário Esquema permite configurar ainda mais os dados do experimento.

      1. Para este exemplo, opte por ignorar as colunas casual e registrada. Essas colunas são um detalhamento da coluna cnt e, portanto, não as incluímos.

      2. Além disso, para este exemplo, mantenha os padrões das Propriedades e do Tipo.

      3. Selecione Avançar.

    9. No formulário Confirmar detalhes, verifique se as informações correspondem ao que foi previamente preenchido nos formulários Informações básicas e Configurações e visualização.

    10. Selecione Criar para concluir a criação do conjunto de dados.

    11. Selecione seu conjunto de dados quando ele aparecer na lista.

    12. Selecione Avançar.

Configurar trabalho

Depois de carregar e configurar seus dados, configure o destino de computação remota e selecione qual coluna nos dados você deseja prever.

  1. Preencha o formulário Configurar trabalho da seguinte maneira:
    1. Insira um nome de experimento: automl-bikeshare

    2. Selecione cnt como a coluna de destino, o que você deseja prever. Essa coluna indica o número total de aluguéis de compartilhamento de bicicletas.

    3. Selecione cluster de computação como seu tipo de computação.

    4. Selecione +Novo para configurar o destino de computação. O ML automatizado só dá suporte à Computação do Azure Machine Learning.

      1. Preencha o formulário Selecionar máquina virtual para configurar a computação.

        Campo Descrição Valor para o tutorial
        Tipo de máquina virtual Selecione a prioridade que o experimento deve ter Dedicado
        Tipo de máquina virtual Selecione o tipo da máquina virtual da computação. CPU (Unidade de Processamento Central)
        Tamanho da máquina virtual Selecione o tamanho da máquina virtual da computação. É fornecida uma lista de tamanhos recomendados com base em seus dados e no tipo de experimento. Standard_DS12_V2
      2. Selecione Avançar para preencher o Formulário Definir configurações.

        Campo Descrição Valor para o tutorial
        Nome da computação Um nome exclusivo que identifique o contexto de computação. bike-compute
        Mín./máx. de nós Para criar um perfil de dados, você deve especificar um ou mais nós. Número mín. de nós: 1
        Número máx. de nós: 6
        Segundos de espera antes de reduzir verticalmente Tempo de espera antes que o cluster seja reduzido verticalmente automaticamente para a contagem mínima de nós. 120 (padrão)
        Configurações avançadas Definições para configurar e autorizar uma rede virtual para seu experimento. Nenhum
      3. Selecione Criar para obter o destino de computação.

        Isso levará alguns minutos para ser concluído.

      4. Após a criação, selecione o novo destino de computação na lista suspensa.

    5. Selecione Avançar.

Selecionar configurações de previsão

Conclua a configuração do experimento de ML automatizado especificando o tipo de tarefa de aprendizado de máquina e as definições de configuração.

  1. No formulário Tipo de tarefa e configurações, selecione Previsão de série temporal como o tipo de tarefa de aprendizado de máquina.

  2. Selecione data como a Coluna de tempo e deixe os Identificadores de série temporal em branco.

  3. A Frequência na qual os dados históricos são coletados. Mantenha a Detecção automática selecionada.

  4. O horizonte de previsão é o período de tempo no futuro que você deseja prever. Desmarque a Detecção Automática e digite 14 no campo.

  5. Selecione Exibir definições de configuração adicionais e preencha os campos da seguinte maneira. Essas configurações são destinadas a controlar melhor o trabalho de treinamento e especificar configurações para sua previsão. Caso contrário, os padrões são aplicados com base na seleção e nos dados de experimento.

    Configurações adicionais Descrição Valor para o tutorial
    Métrica principal Métrica de avaliação pela qual o algoritmo de aprendizado de máquina será medido. Raiz do erro quadrático médio normalizado
    Explicar o melhor modelo Mostra automaticamente a explicabilidade no melhor modelo criado pelo ML automatizado. Habilitar
    Algoritmos bloqueados Algoritmos que você deseja excluir do trabalho de treinamento Árvores aleatórias extremas
    Configurações adicionais de previsão Essas configurações ajudam a aprimorar a precisão do modelo.

    Retardos de destino de previsão: até que ponto no passado você deseja construir os retardos da variável de destino
    Janela de rolagem de destino: especifica o tamanho da janela de rolagem na qual recursos, como máx., mín. e soma, são gerados.


    Retardos do destino de previsão: nenhum
    Tamanho da janela de rolagem de destino: nenhum
    Critério de saída Se um critério for atendido, o trabalho de treinamento será interrompido. Tempo do trabalho de treinamento (horas): 3
    Limite de pontuação da métrica: nenhum
    Simultaneidade O número máximo de iterações paralelas executadas por iteração Máximo de iterações simultâneas: 6

    Selecione Salvar.

  6. Selecione Avançar.

  7. No formulário [Opcional] Validar e testar,

    1. Selecione a validação cruzada k-fold como seu Tipo de validação.
    2. Selecione 5 como Número de validações cruzadas.

Executar o experimento

Para executar o experimento, selecione Concluir. A tela Detalhes do trabalho será aberta com o Status do trabalho na parte superior ao lado do número do trabalho. Esse status é atualizado conforme o progresso do experimento. Também aparecem notificações no canto superior direito do estúdio para informar você sobre o status do experimento.

Importante

A preparação do trabalho de experimento leva de 10 a 15 minutos. Durante a execução, são necessários mais 2 a 3 minutos para cada iteração.

Em produção, provavelmente, você terá tempo para outras tarefas, pois esse processo é demorado. Enquanto você aguarda, sugerimos que você comece a explorar os algoritmos testados na guia Modelos conforme eles são concluídos.

Explorar modelos

Navegue até a guia Modelos para ver os algoritmos (modelos) testados. Por padrão, os modelos são ordenados pela pontuação da métrica à medida que são concluídos. Para este tutorial, o modelo com a pontuação mais alta com base na métrica Raiz do erro quadrático médio normalizado escolhida é exibido no início da lista.

Enquanto você aguarda a conclusão de todos os modelos de experimento, selecione o Nome do algoritmo de um modelo concluído para explorar seus detalhes de desempenho.

O seguinte exemplo navega até selecionar um modelo na lista de modelos que o trabalho criou. Em seguida, selecione as guias Visão Geral e Métricas para exibir as propriedades, as métricas e os gráficos de desempenho do modelo selecionado.

Visão Geral da Execução

Implantar o modelo

O machine learning automatizado no estúdio do Azure Machine Learning permite que você implante o melhor modelo como um serviço Web em algumas etapas. A implantação é a integração do modelo para que ele possa prever novos dados e identificar possíveis áreas de oportunidade.

Para este experimento, a implantação em um serviço Web significa que a empresa de compartilhamento de bicicletas agora tem uma solução da Web iterativa e escalonável para prever a demanda de aluguel de compartilhamento de bicicletas.

Quando a execução estiver concluída, volte para a página de execução pai selecionando Trabalho 1 na parte superior da sua tela.

Na seção Resumo do melhor modelo, é selecionado o melhor modelo no contexto desse experimento com base na Métrica da raiz do erro quadrático médio.

Implantamos esse modelo, mas saiba que a implantação demora cerca de 20 minutos para ser concluída. O processo de implantação envolve várias etapas, incluindo o registro do modelo, a geração de recursos e a configuração deles para o serviço Web.

  1. Selecione o melhor modelo para abrir a página específica do modelo.

  2. Selecione o botão Implantar localizado na área superior esquerda da tela.

  3. Preencha o painel Implantar um Modelo da seguinte maneira:

    Campo Valor
    Nome da implantação bikeshare-deploy
    Descrição da implantação implantação da demanda de compartilhamento de bicicletas
    Tipo de computação Selecionar ACI (Instância de Computação do Azure)
    Habilitar autenticação Desabilite.
    Usar ativos da implantação personalizada Desabilite. A desabilitação permite que o arquivo de driver padrão (script de pontuação) e o arquivo de ambiente sejam gerados automaticamente.

    Para este exemplo, usamos os padrões fornecidos no menu Avançado.

  4. Selecione Implantar.

    Uma mensagem de êxito verde será exibida na parte superior da tela Trabalho indicando que a implantação foi iniciada com êxito. O progresso da implantação pode ser encontrado no painel de Resumo do modelo em Status da implantação.

Após o êxito da implantação, você terá um serviço Web operacional para gerar previsões.

Vá para as Próximas etapas para saber mais sobre como consumir o novo serviço Web e testar as previsões usando o suporte interno do Power BI no Azure Machine Learning.

Limpar os recursos

Os arquivos de implantação são maiores que os dados e os arquivos de teste, portanto, eles custam mais para serem armazenados. Exclua somente os arquivos de implantação para minimizar os custos de sua conta ou se você quiser manter o workspace e os arquivos do experimento. Caso contrário, se você não planeja usar nenhum dos arquivos, exclua o grupo de recursos inteiro.

Excluir a instância de implantação

Exclua apenas a instância de implantação do estúdio do Azure Machine Learning se você quiser manter o grupo de recursos e o workspace para outros tutoriais e explorações.

  1. Vá para o estúdio do Azure Machine Learning. Navegue até o workspace e, no lado esquerdo, no painel Ativos, selecione Pontos de extremidade.

  2. Selecione a implantação que você deseja excluir e selecione Excluir.

  3. Selecione Continuar.

Exclua o grupo de recursos

Importante

Os recursos que você criou podem ser usados como pré-requisitos em outros tutoriais e artigos de instruções do Azure Machine Learning.

Se você não pretende usar nenhum dos recursos criados, exclua-os para não gerar custos:

  1. No portal do Azure, na caixa de pesquisa, insira Grupos de recursos e selecione-o nos resultados.

  2. Selecione o grupo de recursos que você criou por meio da lista.

  3. Na página Visão geral, selecione Excluir grupo de recursos.

    Captura de tela das seleções para excluir um grupo de recursos no portal do Azure.

  4. Insira o nome do grupo de recursos. Em seguida, selecione Excluir.

Próximas etapas

Neste tutorial, você usou o ML automatizado no Azure Machine Learning Studio para criar e implantar um modelo de previsão de série temporal que prevê a demanda de aluguel de compartilhamento de bicicletas.

Observação

Este conjunto de dados de compartilhamento de bicicletas foi modificado para este tutorial. Esse conjunto de dados foi disponibilizado como parte de uma competição da Kaggle e estava originalmente disponível por meio da Capital Bikeshare. Também pode ser encontrado no Banco de dados de machine learning do UCI.

Origem: Fanaee-T, Hadi e Gama, Joao, Rotulagem de evento combinando detectores de agrupamento e conhecimento prévio, Progresso em inteligência artificial (2013): pp. 1-15, Springer Berlim Heidelberg.