Atualizar o gerenciamento de dados para o SDK v2

Artigo
09/01/2024

Na V1, um conjunto de dados do Azure Machine Learning pode ser um Filedataset ou um Tabulardataset. Na V2, um ativo de dados do Azure Machine Learning pode ser um uri_folder, uri_file, ou mltable. Conceitualmente, você pode mapear Filedataset para uri_folder, e uri_file ou Tabulardataset para mltable.

URIs (uri_folder, uri_file) - um Uniform Resource Identifier é uma referência a um local de armazenamento em seu computador local ou na nuvem, para facilitar o acesso aos dados em seus trabalhos.
MLTable - um método para abstrair a definição do esquema de dados tabulares; os consumidores desses dados podem materializar mais facilmente a tabela em um dataframe Pandas/Dask/Spark.

Este artigo compara cenários de dados no SDK v1 e no SDK v2.

Criar um tipo `filedataset`/uri de ativo de dados

SDK v1 – Criar um Filedataset

from azureml.core import Workspace, Datastore, Dataset

# create a FileDataset pointing to files in 'animals' folder and its subfolders recursively
datastore_paths = [(datastore, 'animals')]
animal_ds = Dataset.File.from_files(path=datastore_paths)

# create a FileDataset from image and label files behind public web urls
web_paths = ['https://azureopendatastorage.blob.core.windows.net/mnist/train-images-idx3-ubyte.gz',
             'https://azureopendatastorage.blob.core.windows.net/mnist/train-labels-idx1-ubyte.gz']
mnist_ds = Dataset.File.from_files(path=web_paths)

SDK v2

Criar um ativo de dados de tipo URI_FOLDER

from azure.ai.ml.entities import Data
from azure.ai.ml.constants import AssetTypes

# Supported paths include:
# local: './<path>'
# blob:  'https://<account_name>.blob.core.windows.net/<container_name>/<path>'
# ADLS gen2: 'abfss://<file_system>@<account_name>.dfs.core.windows.net/<path>/'
# Datastore: 'azureml://datastores/<data_store_name>/paths/<path>'

my_path = '<path>'

my_data = Data(
    path=my_path,
    type=AssetTypes.URI_FOLDER,
    description="<description>",
    name="<name>",
    version='<version>'
)

ml_client.data.create_or_update(my_data)

Criar um ativo de dados de tipo URI_FILE.

from azure.ai.ml.entities import Data
from azure.ai.ml.constants import AssetTypes

# Supported paths include:
# local: './<path>/<file>'
# blob:  'https://<account_name>.blob.core.windows.net/<container_name>/<path>/<file>'
# ADLS gen2: 'abfss://<file_system>@<account_name>.dfs.core.windows.net/<path>/<file>'
# Datastore: 'azureml://datastores/<data_store_name>/paths/<path>/<file>'
my_path = '<path>'

my_data = Data(
    path=my_path,
    type=AssetTypes.URI_FILE,
    description="<description>",
    name="<name>",
    version="<version>"
)

ml_client.data.create_or_update(my_data)

Criar um conjunto de dados/ativo de dados tabular

SDK v1

from azureml.core import Workspace, Datastore, Dataset

datastore_name = 'your datastore name'

# get existing workspace
workspace = Workspace.from_config()

# retrieve an existing datastore in the workspace by name
datastore = Datastore.get(workspace, datastore_name)

# create a TabularDataset from 3 file paths in datastore
datastore_paths = [(datastore, 'weather/2018/11.csv'),
                   (datastore, 'weather/2018/12.csv'),
                   (datastore, 'weather/2019/*.csv')]

weather_ds = Dataset.Tabular.from_delimited_files(path=datastore_paths)

SDK v2 – Criar ativo de dados mltable por meio da definição de YAML

type: mltable

paths:
  - pattern: ./*.txt
transformations:
  - read_delimited:
      delimiter: ,
      encoding: ascii
      header: all_files_same_headers

from azure.ai.ml.entities import Data
from azure.ai.ml.constants import AssetTypes

# my_path must point to folder containing MLTable artifact (MLTable file + data
# Supported paths include:
# local: './<path>'
# blob:  'https://<account_name>.blob.core.windows.net/<container_name>/<path>'
# ADLS gen2: 'abfss://<file_system>@<account_name>.dfs.core.windows.net/<path>/'
# Datastore: 'azureml://datastores/<data_store_name>/paths/<path>'

my_path = '<path>'

my_data = Data(
    path=my_path,
    type=AssetTypes.MLTABLE,
    description="<description>",
    name="<name>",
    version='<version>'
)

ml_client.data.create_or_update(my_data)

Usar dados em um experimento/trabalho

SDK v1

from azureml.core import ScriptRunConfig

src = ScriptRunConfig(source_directory=script_folder,
                      script='train_titanic.py',
                      # pass dataset as an input with friendly name 'titanic'
                      arguments=['--input-data', titanic_ds.as_named_input('titanic')],
                      compute_target=compute_target,
                      environment=myenv)

# Submit the run configuration for your training run
run = experiment.submit(src)
run.wait_for_completion(show_output=True)

SDK v2

from azure.ai.ml import command
from azure.ai.ml.entities import Data
from azure.ai.ml import Input, Output
from azure.ai.ml.constants import AssetTypes

# Possible Asset Types for Data:
# AssetTypes.URI_FILE
# AssetTypes.URI_FOLDER
# AssetTypes.MLTABLE

# Possible Paths for Data:
# Blob: https://<account_name>.blob.core.windows.net/<container_name>/<folder>/<file>
# Datastore: azureml://datastores/paths/<folder>/<file>
# Data Asset: azureml:<my_data>:<version>

my_job_inputs = {
    "raw_data": Input(type=AssetTypes.URI_FOLDER, path="<path>")
}

my_job_outputs = {
    "prep_data": Output(type=AssetTypes.URI_FOLDER, path="<path>")
}

job = command(
    code="./src",  # local path where the code is stored
    command="python process_data.py --raw_data ${{inputs.raw_data}} --prep_data ${{outputs.prep_data}}",
    inputs=my_job_inputs,
    outputs=my_job_outputs,
    environment="<environment_name>:<version>",
    compute="cpu-cluster",
)

# submit the command
returned_job = ml_client.create_or_update(job)
# get a URL for the status of the job
returned_job.services["Studio"].endpoint

Mapeamento da funcionalidade de chave no SDK v1 e no SDK v2

Funcionalidade no SDK v1	Mapeamento aproximado no SDK v2
Método/API no SDK v1	Método/API no SDK v2

Próximas etapas

Para obter mais informações, confira esta documentação:

Compartilhar via

Atualizar o gerenciamento de dados para o SDK v2

Criar um tipo `filedataset`/uri de ativo de dados

Criar um conjunto de dados/ativo de dados tabular

Usar dados em um experimento/trabalho

Mapeamento da funcionalidade de chave no SDK v1 e no SDK v2

Próximas etapas

Comentários

Recursos adicionais

Compartilhar via

Atualizar o gerenciamento de dados para o SDK v2

Criar um tipo filedataset/uri de ativo de dados

Criar um conjunto de dados/ativo de dados tabular

Usar dados em um experimento/trabalho

Mapeamento da funcionalidade de chave no SDK v1 e no SDK v2

Próximas etapas

Comentários

Recursos adicionais

Criar um tipo `filedataset`/uri de ativo de dados