Pipelines e conjuntos de dados de exemplo para o designer do Azure Machine Learning

Use os exemplos internos do designer do Azure Machine Learning para começar rapidamente a criar os próprios pipelines de aprendizado de máquina. O repositório do GitHub do designer do Azure Machine Learning contém uma documentação detalhada para ajudar você a entender alguns cenários comuns de machine learning.

Pré-requisitos

  • Uma assinatura do Azure. Se você não tem uma assinatura do Azure, crie uma conta gratuita
  • Um Workspace do Azure Machine Learning

Importante

Se você não vir os elementos gráficos mencionados neste documento, como botões no estúdio ou no designer, talvez você não tenha o nível de permissões certo para o workspace. Entre em contato com seu administrador de assinatura do Azure para verificar se você recebeu o nível de acesso correto. Para obter mais informações, confira Gerenciar usuários e funções.

Usar pipelines de exemplo

O designer salva uma cópia dos pipelines de exemplo no seu workspace do estúdio. Você pode editar o pipeline para adaptá-lo às suas necessidades e salvá-lo como o próprio. Use-os como um ponto de partida para iniciar rapidamente seus projetos.

Veja como usar um exemplo de designer:

  1. Entre em ml.azure.com e selecione o workspace com o qual deseja trabalhar.

  2. Selecione Designer.

  3. Selecione um pipeline de exemplo na seção Novo pipeline.

    Selecione Mostrar mais amostras para obter uma lista completa de amostras.

  4. Para executar um pipeline, primeiro defina o destino de computação padrão no qual executar o pipeline.

    1. No painel Configurações à direita da tela, selecione Selecionar de destino de computação.

    2. Na caixa de diálogo exibida, selecione um destino de computação existente ou crie um. Clique em Salvar.

    3. Selecione Enviar na parte superior da tela para enviar uma execução de pipeline.

    Dependendo do pipeline de exemplo e das configurações de computação, as execuções podem levar algum tempo para serem concluídas. As configurações de computação padrão têm um tamanho de nó mínimo de 0, o que significa que o designer precisa alocar recursos depois de ficar ocioso. Trabalhos de pipeline repetidos levarão menos tempo, já que os recursos de computação já estão alocados. Além disso, o designer usa resultados armazenados em cache para cada componente para melhorar ainda mais a eficiência.

  5. Depois que a execução do pipeline for concluída, você poderá examinar o pipeline e exibir a saída de cada componente para saber mais. Use as seguintes etapas para exibir as saídas do componente:

    1. Clique com o botão direito do mouse no componente na tela cuja saída você gostaria de ver.
    2. Selecione Visualizar.

    Use os exemplos como pontos de partida para alguns dos cenários de aprendizado de máquina mais comuns.

Regressão

Explore esses exemplos internos de regressão.

Titulo do exemplo Descrição
Regressão – previsão de preços de automóveis (básica) Preveja os preços de carros usando a regressão linear.
Regressão – previsão de preço de automóveis (avançada) Preveja os preços de carros usando a floresta de decisão e os regressores de árvore de decisão aumentada. Compare os modelos para encontrar o melhor algoritmo.

classificação

Explore esses exemplos internos de classificação. Saiba mais sobre os exemplos abrindo-os e vendo os comentários do componente no designer.

Titulo do exemplo Descrição
Classificação binária com seleção de recursos – previsão de receita Preveja a receita como alta ou baixa usando uma árvore de decisão aumentada de duas classes. Use a correlação de Pearson para selecionar recursos.
Classificação binária com script Python personalizado – previsão de risco de crédito Classifique os pedidos de crédito como de alto ou baixo risco. Use o componente Executar Script Python para ponderar seus dados.
Classificação binária – previsão de relacionamento com o cliente Preveja a rotatividade de clientes usando árvores de decisão aumentadas de duas classes. Use o SMOTE para fazer a amostragem dos dados polarizados.
Classificação de textos – conjunto de dados SP 500 da Wikipédia Classifique os tipos de empresas com base nos artigos da Wikipédia com a regressão logística multiclasse.
Classificação multiclasse – reconhecimento de letras Crie um conjunto de classificadores binários para classificar letras escritas.

Visual computacional

Explore esses exemplos de pesquisa visual computacional internos. Saiba mais sobre os exemplos abrindo-os e vendo os comentários do componente no designer.

Titulo do exemplo Descrição
Classificação de imagem usando DenseNet Use componentes da pesquisa visual computacional para criar o modelo de classificação de imagem com base no PyTorch DenseNet.

Sistema de recomendação

Explore esses exemplos internos de sistema de recomendação. Saiba mais sobre os exemplos abrindo-os e vendo os comentários do componente no designer.

Titulo do exemplo Descrição
Recomendação baseada em Wide & Deep – previsão de classificação de restaurante Crie um mecanismo de recomendação de restaurante usando avaliações e recursos do usuário do restaurante/usuário.
recomendação – tweets de classificação de filmes Crie um mecanismo de recomendação de filmes com base nas classificações e recursos dos usuários/filmes.

Utilitário

Saiba mais sobre as amostras que descrevem os recursos e os utilitários de aprendizado de máquina. Saiba mais sobre os exemplos abrindo-os e vendo os comentários do componente no designer.

Titulo do exemplo Descrição
Classificação binária usando modelo do Vowpal Wabbit – previsão de renda adulta O Vowpal Wabbit é um sistema de machine learning que vai além dos limites do machine learning com técnicas como aprendizado online, hashing, allreduce, reductions, learning2search, ativo e interativo. Este exemplo mostra como usar o modelo Vowpal Wabbit para criar um modelo de classificação binária.
Usar um script R personalizado – previsão de atraso de voo Use o script do R personalizado para prever se um voo de passageiros agendado sofrerá um atraso superior a 15 minutos.
validação cruzada para classificação binária – previsão de receita de adulto Use a validação cruzada para criar um classificador binário para a receita de adulto.
Importância do recurso de permuta Use a importância do recurso de permuta para computar pontuações de importância para o conjunto de dados de teste.
ajustar parâmetros para classificação binária – previsão de receita de adulto Use os hiperparâmetros do modelo de ajuste para encontrar hiperparâmetros ideais para a criação de um classificador binário.

Conjunto de dados

Ao criar um pipeline no designer do Azure Machine Learning, diversos conjuntos de dados de exemplo são incluídos por padrão. Esses conjuntos de dados de exemplo são usados pelos pipelines de exemplo na home page do designer.

Os conjuntos de dados de exemplo estão disponíveis na categoria Conjuntos de Dados-Amostras. Encontre-a na paleta do componente à esquerda da tela do designer. Você pode usar qualquer um desses conjuntos de dados no próprio pipeline arrastando-o para a tela.

Nome do conjunto de dados Descrição do conjunto de dados
Conjunto de dados de classificação binária de receita no recenseamento adulto Um subconjunto do banco de dados do Censo de 1994, usando adultos que trabalham com mais de 16 anos com um índice de renda ajustado > 100.
Uso: classificar pessoas usando dados demográficos para prever se uma pessoa recebe acima de 50 mil por ano.
Pesquisa relacionada: Kohavi, R., Becker, B., (1996). UCI Machine Learning Repository. Irvine, CA: University of California, School of Information and Computer Science
Dados de preço de automóvel (Brutos) Informações sobre automóveis por marca e modelo, incluindo o preço, recursos como número de cilindradas e MPG, bem como uma pontuação de risco de seguro.
A pontuação de risco é inicialmente associada com preço automático. Depois ela é ajustada ao risco real em um processo conhecido pelos atuários como valor simbólico. Um valor de +3 indica que o automóvel apresenta risco e um valor de -3 indica que ele provavelmente é seguro.
Uso: prever a pontuação de risco por recursos, usando a regressão ou a classificação multivariada.
Pesquisa relacionada: Schlimmer, J.C. (1987). UCI Machine Learning Repository. Irvine, CA: University of California, School of Information and Computer Science.
Rótulos de apetência CRM compartilhados Rótulos do desafio de previsão de relacionamento com o cliente KDD Cup 2009 (orange_small_train_appetency.labels).
Rótulos de variação CRM compartilhados Rótulos do desafio de previsão de relacionamento com o cliente KDD Cup 2009 (orange_small_train_churn.labels).
Conjunto de dados CRM compartilhado Estes dados foram obtidos do desafio de previsão de relacionamento com o cliente KDD Cup 2009 (orange_small_train.data.zip).
Esse conjunto de dados contém 50 mil clientes da empresa francesa de telecomunicações Orange. Cada cliente possui 230 recursos anônimos, dos quais 190 são numéricos e 40 categóricos. Os recursos são muito esparsos.
Rótulos de vendas agregadas CRM compartilhados Rótulos do desafio de previsão de relacionamento com o Cliente do KDD Cup 2009 (orange_large_train_upselling.labels
Dados de atrasos de voo Dados de desempenho pontual do voo do passageiro obtidos da coleção de dados TranStats do Departamento de Transportes dos EUA (On-Time).
O conjunto de dados abrange o período de abril a outubro de 2013. Antes do upload no designer, o conjunto de dados foi processado da seguinte forma:
– O conjunto de dados foi filtrado para abranger somente os 70 aeroportos mais movimentados dos EUA continentais
– Os voos cancelados foram rotulados como atrasados por mais de 15 minutos
– Os voos desviados foram filtrados
– As seguintes colunas foram selecionadas: Year, Month, DayofMonth, DayOfWeek, Carrier, OriginAirportID, DestAirportID, CRSDepTime, DepDelay, DepDel15, CRSArrTime, ArrDelay, ArrDel15, Canceled
Conjunto de dados do cartão de crédito alemão UCI O conjunto de dados UCI Statlog (cartão de crédito alemão) (Statlog+German+Credit+Data), usando o arquivo german.data.
O conjunto de dados classifica pessoas, descritas como um conjunto de atributos, como baixos ou altos riscos de crédito. Cada exemplo representa uma pessoa. Há 20 recursos, ambos numéricos e categóricos, e um rótulo binário (o valor de risco de crédito). Entradas de risco de crédito alto têm o rótulo = 2, entradas de risco de crédito baixo têm o rótulo = 1. O custo de classificar incorretamente um exemplo de risco baixo como alto é 1, considerando que o custo de classificar incorretamente um exemplo de risco alto como baixo é 5.
Títulos de filmes no IMDB O conjunto de dados contém informações sobre filmes que foram classificados em tweets do X: ID do filme no IMDB, nome do filme, gênero e ano de produção. Há 17 mil filmes no conjunto de dados. O conjunto de dados foi introduzido no artigo “S. Dooms, T. De Pessemier e L. Martens. MovieTweetings: um conjunto de dados de classificação de filmes coletado do Twitter. Oficina de crowdsourcing and computação humana para sistemas recomendados, CrowdRec em RecSys 2013."
Classificação de filmes O conjunto de dados é uma versão estendida do conjunto de dados de Movie Tweetings. O conjunto de dados tem 170 mil classificações para filmes, extraídos de tweets bem estruturados do X. Cada instância representa um tweet e é uma tupla: identificação de usuário, ID do filme no IMDB, classificação, carimbo de data/hora, número de favoritos para esse tweet e número de retweets desse tweet. O conjunto de dados foi disponibilizado por A. Said, S. Dooms, B. Loni e D. Tikk para desafio de sistemas de recomendação 2014.
Conjunto de dados de clima Observações climáticas terrestres de hora em hora da NOAA (dados mesclados de 201304 para 201310).
Os dados de clima abrangem observações feitas de estações meteorológica de aeroportos, que abrangem o período de abril a outubro de 2013. Antes do upload no designer, o conjunto de dados foi processado da seguinte forma:
– As IDs das estações meteorológicas foram mapeadas para as IDs dos aeroportos correspondentes
– As estações meteorológicas não associadas aos 70 aeroportos mais movimentados foram filtradas
– A coluna Data foi dividida nas colunas separadas Ano, Mês e Dia
– As seguintes colunas foram selecionadas: AirportID, Year, Month, Day, Time, TimeZone, SkyCondition, Visibility, WeatherType, DryBulbFarenheit, DryBulbCelsius, WetBulbFarenheit, WetBulbCelsius, DewPointFarenheit, DewPointCelsius, RelativeHumidity, WindSpeed, WindDirection, ValueForWindCharacter, StationPressure, PressureTendency, PressureChange, SeaLevelPressure, RecordType, HourlyPrecip, Altimeter
Conjunto de dados da SP 500 da Wikipédia Os dados foram extraídos do Wikipedia (https://www.wikipedia.org/), com base em artigos de cada empresa S&P 500, armazenados como dados XML.
Antes do upload no designer, o conjunto de dados foi processado da seguinte forma:
– Extração do conteúdo de texto de cada empresa específica
– Remoção da formatação do Wiki
– Remoção de caracteres não alfanuméricos
– Conversão de todo o texto em minúsculas
– Adição de categorias de empresas conhecidas
Observe que, para algumas empresas, um artigo não foi encontrado, assim, o número de registros é menor que 500.
Dados de recurso de restaurante Um conjunto de metadados sobre restaurantes e seus recursos, como tipo de comida, estilo de jantar e localização.
Uso: use esse conjunto de dados, em combinação com os outros dois conjuntos de dados de restaurantes, para treinar e testar um sistema de recomendação.
Pesquisa relacionada: Bache, K. e Lichman, M. (2013). UCI Machine Learning Repository. Irvine, CA: University of California, School of Information and Computer Science.
Classificação de restaurantes Contém a classificação fornecida por usuários de restaurantes em uma escala de 0 a 2.
Uso: use esse conjunto de dados, em combinação com os outros dois conjuntos de dados de restaurantes, para treinar e testar um sistema de recomendação.
Pesquisa relacionada: Bache, K. e Lichman, M. (2013). UCI Machine Learning Repository. Irvine, CA: University of California, School of Information and Computer Science.
Dados do cliente dos restaurantes Um conjunto de metadados sobre consumidores, incluindo demografia e preferências.
Uso: use esse conjunto de dados, em combinação com os outros dois conjuntos de dados de restaurantes, para treinar e testar um sistema de recomendação.
Pesquisa relacionada: Bache, K. e Lichman, M. (2013). UCI Machine Learning Repository Irvine, CA: University of California, School of Information and Computer Science.

Limpar os recursos

Importante

Você pode usar os recursos que criou como pré-requisitos em outros tutoriais e artigos de instruções do Serviço do Azure Machine Learning.

Excluir tudo

Se você não pretende usar os recursos criados, exclua todo o grupo de recursos para não gerar encargos.

  1. No portal do Azure, selecione Grupos de recursos no lado esquerdo da janela.

    Excluir um grupo de recursos no portal do Azure

  2. Na lista, selecione o grupo de recursos que você criou.

  3. Selecione Excluir grupo de recursos.

A exclusão de um grupo de recursos também exclui todos os recursos criados no designer.

Excluir recursos individuais

No designer em que você criou seu experimento, exclua ativos individuais selecionando-os e, em seguida, selecionando o botão Excluir.

O destino de computação que você criou aqui é dimensionado automaticamente para zero nós quando não estiver sendo usado. Essa ação é executada para minimizar encargos. Se você quiser excluir o destino de computação, siga estas etapas:

Excluir ativos

É possível cancelar o registro de conjuntos de dados do seu workspace selecionando cada conjunto de dados e, Cancelar registro.

Cancelar o registro do conjunto de dados

Para excluir um conjunto de dados, acesse a conta de armazenamento usando o portal do Azure ou o Gerenciador de Armazenamento do Azure e exclua manualmente esses ativos.

Próximas etapas

Conheça os conceitos fundamentais da análise preditiva e do machine learning com o Tutorial: Prever preço de automóvel com o designer