Tutorial: Como acessar dados do Azure Synapse ADLS Gen2 no Azure Machine Learning

Neste tutorial, vamos mostrar a você o processo de acesso aos dados armazenados no ADLS Gen2 (Azure Synapse Azure Data Lake Storage Gen2) por meio do Azure Machine Learning. Essa funcionalidade é especialmente útil quando você pretende simplificar seu fluxo de trabalho de machine learning aproveitando ferramentas como ML automatizado, modelo integrado e acompanhamento de experimentos ou hardware especializado, como GPUs disponíveis no Azure Machine Learning.

Para acessar os dados do ADLS Gen2 no Azure Machine Learning, vamos criar um armazenamento de dados do Azure Machine Learning que aponta para a conta de armazenamento do Azure Synapse ADLS Gen2.

Pré-requisitos

Instalar bibliotecas

Primeiro, instalaremos o pacote azure-ai-ml.

%pip install azure-ai-ml

Criar um armazenamento de dados

O Azure Machine Learning oferece um recurso conhecido como armazenamento de dados, que funciona como referência à sua conta de armazenamento do Azure existente. Criaremos um armazenamento de dados que referencia nossa conta de armazenamento do Azure Synapse ADLS Gen2.

Neste exemplo, vamos criar um armazenamento de dados, vinculando-o ao armazenamento do Azure Synapse ADLS Gen2. Depois de inicializar um objeto MLClient, você pode informar os detalhes de conexão para sua conta do ADLS Gen2. Por fim, você poderá executar o código para criar ou atualizar o armazenamento de dados.

from azure.ai.ml.entities import AzureDataLakeGen2Datastore
from azure.ai.ml import MLClient

ml_client = MLClient.from_config()

# Provide the connection details to your Azure Synapse ADLSg2 storage account
store = AzureDataLakeGen2Datastore(
    name="",
    description="",
    account_name="",
    filesystem=""
)

ml_client.create_or_update(store)

Saiba mais sobre como criar e gerenciar armazenamentos de dados do Azure Machine Learning usando este tutorial sobre armazenamentos de dados do Azure Machine Learning.

Montar sua conta de armazenamento do ADLS Gen2

Depois de configurar o armazenamento de dados, você poderá acessar esses dados criando uma montagem em sua conta do ADLSg2. No Azure Machine Learning, a criação de uma montagem na conta do ADLS Gen2 envolve o estabelecimento de um vínculo direto entre o workspace e a conta de armazenamento, permitindo o acesso contínuo aos dados armazenados nele. Essencialmente, uma montagem funciona como um caminho que permite que o Azure Machine Learning interaja com os arquivos e as pastas em sua conta do ADLS Gen2 como se fossem parte do sistema de arquivos local do workspace.

Depois que a conta de armazenamento for montada, você poderá ler, gravar e processar com facilidade os dados armazenados no ADLS Gen2 usando operações de sistema de arquivos conhecidas diretamente no ambiente do Azure Machine Learning, simplificando as tarefas de pré-processamento de dados, treinamento de modelo e experimentação.

Para fazer isso:

  1. Inicie o mecanismo de computação.

  2. Selecione Ações de Dados e Montar.

    Screenshot of Azure Machine Learning option to select data actions.

  3. A partir daqui, você deverá ver e selecionar o nome da conta de armazenamento do ADLSg2. A criação da montagem pode demorar alguns instantes.

  4. Depois que a montagem estiver pronta, você poderá selecionar Ações de dados e Consumir. Em Dados, você pode escolher a montagem da qual deseja consumir dados.

Agora, você pode usar suas bibliotecas preferidas para ler diretamente os dados da sua conta montada do Azure Data Lake Storage.

Ler dados da sua conta de armazenamento

import os
# List the files in the mounted path
print(os.listdir("/home/azureuser/cloudfiles/data/datastore/{name of mount}"))

# Get the path of your file and load the data using your preferred libraries
import pandas as pd
df = pd.read_csv("/home/azureuser/cloudfiles/data/datastore/{name of mount}/{file name}")
print(df.head(5))

Próximas etapas