Dados no Azure Machine Learning v1

APLICA-SE A: Azure CLI ml extension v1

APLICA-SE A: Python SDK azureml v1

O Azure Machine Learning facilita a ligação aos seus dados na nuvem. Ele fornece uma camada de abstração sobre o serviço de armazenamento subjacente, para que você possa acessar e trabalhar com segurança com seus dados sem a necessidade de escrever código específico para seu tipo de armazenamento. O Azure Machine Learning também fornece estes recursos de dados:

  • Interoperabilidade com Pandas e Spark DataFrames
  • Controle de versão e rastreamento de linhagem de dados
  • Identificação de dados
  • Monitorização de desvios de dados

Fluxo de trabalho de dados

Para usar os dados em sua solução de armazenamento baseada em nuvem, recomendamos este fluxo de trabalho de entrega de dados. O fluxo de trabalho pressupõe que você tenha uma conta de armazenamento do Azure e dados em um serviço de armazenamento baseado em nuvem do Azure.

  1. Criar um armazenamento de dados do Azure Machine Learning para armazenar informações de conexão no seu armazenamento do Azure

  2. A partir desse armazenamento de dados, crie um conjunto de dados do Azure Machine Learning para apontar para um arquivo ou arquivos específicos em seu armazenamento subjacente

  3. Para usar esse conjunto de dados em seu experimento de aprendizado de máquina, você pode:

    • Monte o conjunto de dados no destino de computação do seu experimento, para treinamento de modelo

      OU

    • Consuma o conjunto de dados diretamente nas soluções do Azure Machine Learning - por exemplo, execuções de experimento de aprendizado de máquina automatizado (ML automatizado), pipelines de aprendizado de máquina ou o designer do Azure Machine Learning.

  4. Crie monitores de conjunto de dados para o conjunto de dados de saída do modelo para detetar desvio de dados

  5. Para desvios de dados detetados, atualize seu conjunto de dados de entrada e treine novamente seu modelo de acordo

Esta captura de tela mostra o fluxo de trabalho recomendado:

Captura de tela mostrando o Serviço de Armazenamento do Azure, que flui para um armazenamento de dados e, em seguida, para um conjunto de dados.

Conectar-se ao armazenamento com armazenamentos de dados

Os armazenamentos de dados do Azure Machine Learning hospedam com segurança suas informações de conexão de armazenamento de dados no Azure, para que você não precise colocar essas informações em seus scripts. Para obter mais informações sobre como se conectar a uma conta de armazenamento e acesso a dados em seu serviço de armazenamento subjacente, visite Registrar e criar um armazenamento de dados.

Estes serviços de armazenamento baseados na nuvem do Azure suportados podem registar-se como armazenamentos de dados:

  • Contentor de Blobs do Azure
  • Partilha de Ficheiros do Azure
  • Azure Data Lake
  • Azure Data Lake Gen2
  • Base de Dados SQL do Azure
  • Base de Dados do Azure para PostgreSQL
  • Sistema de Ficheiros do Databricks
  • Base de Dados do Azure para MySQL

Gorjeta

Você pode criar armazenamentos de dados com autenticação baseada em credenciais para acessar serviços de armazenamento, por exemplo, uma entidade de serviço ou um token de assinatura de acesso compartilhado (SAS). Os usuários com acesso de leitor ao espaço de trabalho podem acessar essas credenciais.

Se essa for uma preocupação, visite criar um armazenamento de dados que usa acesso a dados baseado em identidade para obter mais informações sobre conexões com serviços de armazenamento.

Dados de referência armazenados com conjuntos de dados

Os conjuntos de dados do Azure Machine Learning não são cópias dos seus dados. A própria criação do conjunto de dados cria uma referência aos dados em seu serviço de armazenamento, juntamente com uma cópia de seus metadados.

Como os conjuntos de dados são avaliados preguiçosamente e os dados permanecem em seu local existente, você

  • Incorra sem custos adicionais de armazenamento
  • Não arrisque alterações não intencionais em suas fontes de dados originais
  • Melhore as velocidades de desempenho do fluxo de trabalho de ML

Para interagir com seus dados no armazenamento, crie um conjunto de dados para empacotar seus dados em um objeto consumível para tarefas de aprendizado de máquina. Registre o conjunto de dados em seu espaço de trabalho para compartilhá-lo e reutilizá-lo em diferentes experimentos sem complexidades de ingestão de dados.

Você pode criar conjuntos de dados a partir de arquivos locais, urls públicas, conjuntos de dados abertos do Azure ou serviços de armazenamento do Azure por meio de armazenamentos de dados.

Existem dois tipos de conjuntos de dados:

  • Um FileDataset faz referência a um ou vários arquivos em seus armazenamentos de dados ou URLs públicas. Se seus dados já estiverem limpos e prontos para experimentos de treinamento, você poderá baixar ou montar arquivos referenciados por FileDatasets para seu destino de computação

  • Um TabularDataset representa dados em um formato tabular, analisando o arquivo fornecido ou a lista de arquivos. Você pode carregar um TabularDataset em um pandas ou Spark DataFrame para manipulação e limpeza adicionais. Para obter uma lista completa de formatos de dados a partir dos quais você pode criar TabularDatasets, visite a classe TabularDatasetFactory

Esses recursos oferecem mais informações sobre os recursos do conjunto de dados:

Trabalhar com os seus dados

Com conjuntos de dados, você pode realizar tarefas de aprendizado de máquina por meio da integração perfeita com os recursos do Azure Machine Learning.

Rotular dados com projetos de rotulagem de dados

Rotular grandes volumes de dados em projetos de aprendizado de máquina pode se tornar uma dor de cabeça. Projetos que envolvem um componente de visão computacional, como classificação de imagens ou deteção de objetos, geralmente exigem milhares de imagens e rótulos correspondentes.

O Azure Machine Learning fornece um local central para criar, gerenciar e monitorar projetos de rotulagem. Os projetos de rotulagem ajudam a coordenar os dados, os rótulos e os membros da equipe, para que você possa gerenciar as tarefas de rotulagem com mais eficiência. As tarefas atualmente suportadas envolvem classificação de imagem, multi-label ou multi-classe, e identificação de objetos usando caixas delimitadas.

Crie um projeto de rotulagem de imagem ou projeto de rotulagem de texto e produza um conjunto de dados para uso em experimentos de aprendizado de máquina.

Monitore o desempenho do modelo com desvio de dados

No contexto do aprendizado de máquina, o desvio de dados envolve a alteração nos dados de entrada do modelo que leva à degradação do desempenho do modelo. É uma das principais razões pelas quais a precisão do modelo se degrada com o tempo, e o monitoramento de desvio de dados ajuda a detetar problemas de desempenho do modelo.

Para obter mais informações, visite Criar um monitor de conjunto de dados para saber como detetar e alertar para desvio de dados em novos dados em um conjunto de dados.

Próximos passos