Udostępnianie danych między obszarami roboczymi przy użyciu rejestrów (wersja zapoznawcza)

Artykuł
09/02/2024

Rejestr usługi Azure Machine Learning umożliwia współpracę między obszarami roboczymi w organizacji. Za pomocą rejestrów można udostępniać modele, składniki, środowiska i dane. Udostępnianie danych rejestrom jest obecnie funkcją w wersji zapoznawczej. W tym artykule omówiono sposób wykonywania następujących zadań:

Utwórz zasób danych w rejestrze.
Udostępnianie istniejącego zasobu danych z obszaru roboczego do rejestru
Użyj zasobu danych z rejestru jako danych wejściowych do zadania trenowania modelu w obszarze roboczym.

Ważne

Ta funkcja jest obecnie w publicznej wersji zapoznawczej. Ta wersja zapoznawcza jest udostępniana bez umowy dotyczącej poziomu usług i nie zalecamy korzystania z niej w przypadku obciążeń produkcyjnych. Niektóre funkcje mogą być nieobsługiwane lub ograniczone.

Aby uzyskać więcej informacji, zobacz Uzupełniające warunki korzystania z wersji zapoznawczych platformy Microsoft Azure.

Możesz mieć dane współużytkowane przez wiele zespołów, projektów lub obszarów roboczych w centralnej lokalizacji. Takie dane nie mają poufnych kontroli dostępu i mogą być szeroko używane w organizacji.

Oto kilka przykładów:

Zespół chce udostępnić publiczny zestaw danych, który jest wstępnie przetworzony i gotowy do użycia w eksperymentach.
Twoja organizacja nabyła określony zestaw danych dla projektu od zewnętrznego dostawcy i chce udostępnić go wszystkim zespołom pracującym nad projektem.
Zespół chce udostępniać zasoby danych między obszarami roboczymi w różnych regionach.

W tych scenariuszach można utworzyć zasób danych w rejestrze lub udostępnić istniejący zasób danych z obszaru roboczego do rejestru. Ten zasób danych może być następnie używany w wielu obszarach roboczych.

Udostępnianie poufnych danych, które wymagają szczegółowej kontroli dostępu. Nie można utworzyć zasobu danych w rejestrze, aby udostępnić go małym podzbiorowi użytkowników/obszarów roboczych, podczas gdy rejestr jest dostępny dla wielu innych użytkowników w organizacji.
Udostępnianie danych dostępnych w istniejącym magazynie, które nie może być kopiowane lub jest zbyt duże lub zbyt drogie, aby można je było skopiować. Za każdym razem, gdy zasoby danych są tworzone w rejestrze, kopia danych jest pozyskiwana do magazynu rejestru, aby można je było replikować.

Typy zasobów danych obsługiwane przez rejestr usługi Azure Machine Learning

Napiwek

Zapoznaj się z następującymi scenariuszami kanonicznymi podczas podejmowania decyzji, czy chcesz użyć uri_filemetody , uri_folderlub mltable dla danego scenariusza.

Możesz utworzyć trzy typy zasobów danych:

Typ	Interfejs API w wersji 2	Scenariusz kanoniczny
Plik: odwołanie do pojedynczego pliku	`uri_file`	Odczyt/zapis pojedynczego pliku — plik może mieć dowolny format.
Folder: Odwołanie do pojedynczego folderu	`uri_folder`	Musisz odczytywać/zapisywać katalog plików parquet/CSV w bibliotece Pandas/Spark. Uczenie głębokie przy użyciu obrazów, tekstu, audio, plików wideo znajdujących się w katalogu.
Tabela: odwołanie do tabeli danych	`mltable`	Masz złożony schemat, który podlega częstym zmianom lub potrzebujesz podzbioru dużych danych tabelarycznych.

Ścieżki obsługiwane przez rejestr usługi Azure Machine Learning

Podczas tworzenia zasobu danych należy określić parametr ścieżki wskazujący lokalizację danych. Obecnie jedynymi obsługiwanymi ścieżkami są lokalizacje na komputerze lokalnym.

Napiwek

"Lokalny" oznacza magazyn lokalny dla używanego komputera. Jeśli na przykład używasz laptopa, dysk lokalny. Jeśli wystąpienie obliczeniowe usługi Azure Machine Learning, dysk "lokalny" wystąpienia obliczeniowego.

Wymagania wstępne

Przed wykonaniem kroków opisanych w tym artykule upewnij się, że masz następujące wymagania wstępne:

Znajomość rejestrów i pojęć dotyczących danych usługi Azure Machine Learning w usłudze Azure Machine Learning.
Rejestr usługi Azure Machine Learning do udostępniania danych. Aby utworzyć rejestr, zobacz Dowiedz się, jak utworzyć rejestr.
Obszar roboczy usługi Azure Machine Learning. Jeśli go nie masz, wykonaj kroki opisane w artykule Szybki start: tworzenie zasobów obszaru roboczego, aby je utworzyć.

Ważne

Region platformy Azure (lokalizacja), w którym tworzysz obszar roboczy, musi znajdować się na liście obsługiwanych regionów rejestru usługi Azure Machine Learning.
Środowisko i składnik utworzony w artykule How to share models, components, and environments (Jak udostępniać modele, składniki i środowiska).
Interfejs wiersza polecenia platformy ml Azure i rozszerzenie lub zestaw SDK języka Python usługi Azure Machine Learning w wersji 2:
- Interfejs wiersza polecenia platformy Azure
- Zestaw SDK dla języka Python
Aby zainstalować interfejs wiersza polecenia platformy Azure i rozszerzenie, zobacz Instalowanie, konfigurowanie i używanie interfejsu wiersza polecenia (wersja 2).
Ważne
- W przykładach interfejsu wiersza polecenia w tym artykule założono, że używasz powłoki Bash (lub zgodnej). Na przykład z systemu Linux lub Podsystem Windows dla systemu Linux.
- W przykładach założono również, że skonfigurowano wartości domyślne dla interfejsu wiersza polecenia platformy Azure, aby nie trzeba było określać parametrów subskrypcji, obszaru roboczego, grupy zasobów ani lokalizacji. Aby ustawić ustawienia domyślne, użyj następujących poleceń. Zastąp następujące parametry wartościami konfiguracji:
  
  Zamień wartość <subscription> na identyfikator swojej subskrypcji platformy Azure.
  
  Zastąp <workspace> ciąg nazwą obszaru roboczego usługi Azure Machine Learning.
  
  Zastąp element <resource-group> grupą zasobów platformy Azure zawierającą obszar roboczy.
  
  Zastąp element <location> regionem platformy Azure zawierającym obszar roboczy.
  
  az account set --subscription <subscription> az configure --defaults workspace=<workspace> group=<resource-group> location=<location>
  
  Bieżące wartości domyślne można zobaczyć za pomocą az configure -l polecenia .
Aby zainstalować zestaw PYTHON SDK w wersji 2, użyj następującego polecenia:
```
pip install --pre --upgrade azure-ai-ml azure-identity
```

Klonowanie repozytorium przykładów

Przykłady kodu w tym artykule są oparte na nyc_taxi_data_regression przykładzie w repozytorium przykładów. Aby użyć tych plików w środowisku projektowym, użyj następujących poleceń, aby sklonować repozytorium i zmienić katalogi na przykład:

git clone https://github.com/Azure/azureml-examples
cd azureml-examples

Interfejs wiersza polecenia platformy Azure
Zestaw SDK dla języka Python

W przykładzie interfejsu wiersza polecenia zmień katalogi na cli/jobs/pipelines-with-components/nyc_taxi_data_regression w lokalnym klonie repozytorium przykładów.

cd cli/jobs/pipelines-with-components/nyc_taxi_data_regression

W przykładzie zestawu SDK języka Python użyj nyc_taxi_data_regression przykładu z repozytorium przykładów. Przykładowy notes jest dostępny w sdk/python/assets/assets-in-registry katalogu. Wszystkie przykładowe kod trenowania modelu plików YAML, przykładowe dane na potrzeby trenowania i wnioskowania są dostępne w programie cli/jobs/pipelines-with-components/nyc_taxi_data_regression. Przejdź do sdk/resources/registry katalogu i otwórz notes, jeśli chcesz przejść przez notes, aby wypróbować kod w tym dokumencie.

Tworzenie połączenia zestawu SDK

Napiwek

Ten krok jest wymagany tylko w przypadku korzystania z zestawu SDK języka Python.

Utwórz połączenie klienta z obszarem roboczym i rejestrem usługi Azure Machine Learning. W poniższym przykładzie zastąp <...> wartości symboli zastępczych wartościami odpowiednimi dla konfiguracji. Na przykład identyfikator subskrypcji platformy Azure, nazwa obszaru roboczego, nazwa rejestru itp.:

ml_client_workspace = MLClient( credential=credential,
    subscription_id = "<workspace-subscription>",
    resource_group_name = "<workspace-resource-group",
    workspace_name = "<workspace-name>")
print(ml_client_workspace)

ml_client_registry = MLClient(credential=credential,
                        registry_name="<REGISTRY_NAME>",
                        registry_location="<REGISTRY_REGION>")
print(ml_client_registry)

Tworzenie danych w rejestrze

Zasób danych utworzony w tym kroku jest używany w dalszej części tego artykułu podczas przesyłania zadania szkoleniowego.

Interfejs wiersza polecenia platformy Azure
Zestaw SDK dla języka Python

Napiwek

To samo polecenie interfejsu wiersza polecenia az ml data create może służyć do tworzenia danych w obszarze roboczym lub rejestrze. Uruchomienie polecenia za --workspace-name pomocą polecenia powoduje utworzenie danych w obszarze roboczym podczas uruchamiania polecenia za --registry-name pomocą polecenia tworzy dane w rejestrze.

Źródło danych znajduje się we wcześniej sklonowanym repozytorium przykładów. W obszarze klonu lokalnego przejdź do następującej ścieżki katalogu: cli/jobs/pipelines-with-components/nyc_taxi_data_regression. W tym katalogu utwórz plik YAML o nazwie data-registry.yml i użyj następującego kodu YAML jako zawartości pliku:

$schema: https://azuremlschemas.azureedge.net/latest/data.schema.json
name: transformed-nyc-taxt-data
description: Transformed NYC Taxi data created from local folder.
version: 1
type: uri_folder
path: data_transformed/

Wartość path wskazuje data_transformed podkatalog, który zawiera dane udostępniane przy użyciu rejestru.

Aby utworzyć dane w rejestrze, użyj polecenia az ml data create. W poniższych przykładach zastąp <registry-name> ciąg nazwą rejestru.

az ml data create --file data-registry.yml --registry-name <registry-name>

Jeśli wystąpi błąd, że dane o tej nazwie i wersji już istnieją w rejestrze, możesz edytować version pole w data-registry.yml pliku lub określić inną wersję interfejsu wiersza polecenia, która zastępuje wartość wersji w data-registry.ymlpliku .

# use shell epoch time as the version
version=$(date +%s)
az ml data create --file data-registry.yml --registry-name <registry-name> --set version=$version

Napiwek

version=$(date +%s) Jeśli polecenie nie ustawi zmiennej $version w środowisku, zastąp $version zmienną liczbą losową.

name Zapisz dane i version z danych wyjściowych az ml data create polecenia i użyj ich z poleceniem az ml data show , aby wyświetlić szczegóły zasobu.

az ml data show --name transformed-nyc-taxt-data --version 1 --registry-name <registry-name>

Napiwek

Jeśli użyto innej nazwy lub wersji danych, zastąp odpowiednio --name parametry i --version .

Można również użyć az ml data list --registry-name <registry-name> polecenia , aby wyświetlić listę wszystkich zasobów danych w rejestrze.

Napiwek

To samo MLClient.environmentsdata.create_or_update() może służyć do tworzenia danych w obszarze roboczym lub rejestrze w zależności od miejsca docelowego, z którego został zainicjowany. Ponieważ pracujesz zarówno w obszarze roboczym, jak i rejestrze w tym dokumencie, zainicjowano ml_client_workspace ml_client_registry pracę z obszarem roboczym i rejestrem.

Źródłowy katalog data_transformed danych jest dostępny w katalogu cli/jobs/pipelines-with-components/nyc_taxi_data_regression/. Zainicjuj obiekt danych i utwórz dane.

my_path = "./data_transformed/"
my_data = Data(path=my_path,
               type=AssetTypes.URI_FOLDER,
               description="Transformed NYC Taxi data created from local folder.",
               name="transformed-nyc-taxt-data",
               version='1')
ml_client_registry.data.create_or_update(my_data)

Napiwek

Jeśli wystąpi błąd, że dane o tej nazwie i wersji już istnieją w rejestrze, określ inną wersję parametru version .

name Zanotuj wartości i version danych z danych wyjściowych i przekaż je do ml_client_registry.data.get() metody , aby pobrać dane z rejestru.

Można również użyć ml_client_registry.data.list() polecenia , aby wyświetlić listę wszystkich zasobów danych w rejestrze.

Tworzenie środowiska i składnika w rejestrze

Aby utworzyć środowisko i składnik w rejestrze, wykonaj kroki opisane w artykule Jak udostępniać modele, składniki i środowiska . Środowisko i składnik są używane w zadaniu trenowania w następnej sekcji.

Napiwek

Możesz użyć środowiska i składnika z obszaru roboczego zamiast używać tych z rejestru.

Uruchamianie zadania potoku w obszarze roboczym przy użyciu składnika z rejestru

W przypadku uruchamiania zadania potoku, które używa składnika i danych z rejestru, zasoby obliczeniowe są lokalne w obszarze roboczym. W poniższym przykładzie zadanie używa składnika szkoleniowego Scikit Learn i zasobu danych utworzonego w poprzednich sekcjach w celu wytrenowania modelu.

Uwaga

Kluczowym aspektem jest to, że ten potok będzie uruchamiany w obszarze roboczym przy użyciu danych treningowych, które nie są w określonym obszarze roboczym. Dane są w rejestrze, który może być używany z dowolnym obszarem roboczym w organizacji. To zadanie szkoleniowe można uruchomić w dowolnym obszarze roboczym, do którego masz dostęp bez obaw o udostępnianie danych szkoleniowych w tym obszarze roboczym.

Interfejs wiersza polecenia platformy Azure
Zestaw SDK dla języka Python

Sprawdź, czy jesteś w cli/jobs/pipelines-with-components/nyc_taxi_data_regression katalogu. Edytuj sekcję component w train_job sekcji single-job-pipeline.yml pliku, aby odwołać się do składnika trenowania i path w training_data sekcji, aby odwołać się do zasobu danych utworzonego w poprzednich sekcjach. W poniższym przykładzie pokazano, jak wygląda po single-job-pipeline.yml edycji. Zastąp ciąg <registry_name> nazwą rejestru:

$schema: https://azuremlschemas.azureedge.net/latest/pipelineJob.schema.json
type: pipeline
display_name: nyc_taxi_data_regression_single_job
description: Single job pipeline to train regression model based on nyc taxi dataset

jobs:
  train_job:
    type: command
    component: azureml://registries/<registry-name>/component/train_linear_regression_model/versions/1
    compute: azureml:cpu-cluster
    inputs:
      training_data: 
        type: uri_folder
        path: azureml://registries/<registry-name>/data/transformed-nyc-taxt-data/versions/1
    outputs:
      model_output: 
        type: mlflow_model
      test_data:

Ostrzeżenie

Przed uruchomieniem zadania potoku upewnij się, że obszar roboczy, w którym zostanie uruchomione zadanie, znajduje się w regionie świadczenia usługi Azure obsługiwanym przez rejestr, w którym utworzono dane.
Upewnij się, że obszar roboczy ma klaster obliczeniowy o nazwie cpu-cluster lub zmodyfikuj compute pole pod jobs.train_job.compute nazwą obliczeń.

Uruchom zadanie potoku za az ml job create pomocą polecenia .

az ml job create --file single-job-pipeline.yml

Napiwek

Jeśli nie skonfigurowano domyślnego obszaru roboczego i grupy zasobów, zgodnie z opisem w sekcji wymagań wstępnych, należy określić --workspace-name parametry i --resource-group dla elementu az ml job create do pracy.

Aby uzyskać więcej informacji na temat uruchamiania zadań, zobacz następujące artykuły:

# get the data asset
data_asset_from_registry = ml_client_registry.data.get(name="transformed-nyc-taxt-data", version="1")

@pipeline()
def pipeline_with_registered_components(
    training_data
):
    train_job = train_component_from_registry(
        training_data=training_data,
    )
pipeline_job = pipeline_with_registered_components(
    training_data=Input(type="uri_folder", path=data_asset_from_registry.id"),
)
pipeline_job.settings.default_compute = "cpu-cluster"
print(pipeline_job)

Ostrzeżenie

Upewnij się, że obszar roboczy, w którym uruchomisz to zadanie, znajduje się w lokalizacji platformy Azure obsługiwanej przez rejestr, w którym został utworzony składnik przed uruchomieniem zadania potoku.
Upewnij się, że obszar roboczy ma klaster obliczeniowy o nazwie cpu-cluster lub zaktualizuj go pipeline_job.settings.default_compute=<compute-cluster-name>.

Uruchom zadanie potoku i poczekaj na jego ukończenie.

pipeline_job = ml_client_workspace.jobs.create_or_update(
    pipeline_job, experiment_name="sdk_job_data_from_registry" ,  skip_validation=True
)
ml_client_workspace.jobs.stream(pipeline_job.name)
pipeline_job=ml_client_workspace.jobs.get(pipeline_job.name)
pipeline_job

Napiwek

Zwróć uwagę, że używasz ml_client_workspace polecenia do uruchamiania zadania potoku, podczas gdy użyto go ml_client_registry do tworzenia środowiska i składnika.

Ponieważ składnik używany w zadaniu trenowania jest udostępniany za pośrednictwem rejestru, możesz przesłać zadanie do dowolnego obszaru roboczego, do którego masz dostęp w organizacji, nawet w różnych subskrypcjach. Jeśli na przykład masz elementy dev-workspace, test-workspace i prod-workspace, możesz nawiązać połączenie z tymi obszarami roboczymi i ponownie przesłać zadanie.

Aby uzyskać więcej informacji na temat uruchamiania zadań, zobacz następujące artykuły:

W poniższych krokach pokazano, jak udostępnić istniejący zasób danych z obszaru roboczego do rejestru.

Interfejs wiersza polecenia platformy Azure
Zestaw SDK dla języka Python

Najpierw utwórz zasób danych w obszarze roboczym. Upewnij się, że jesteś w cli/assets/data katalogu. Obiekt local-folder.yml znajdujący się w tym katalogu służy do tworzenia zasobu danych w obszarze roboczym. Dane określone w tym pliku są dostępne w cli/assets/data/sample-data katalogu. Następujący kod YAML to zawartość local-folder.yml pliku:

$schema: https://azuremlschemas.azureedge.net/latest/data.schema.json
name: local-folder-example-titanic
description: Dataset created from local folder.
type: uri_folder
path: sample-data/

Aby utworzyć zasób danych w obszarze roboczym, użyj następującego polecenia:

az ml data create -f local-folder.yml

Aby uzyskać więcej informacji na temat tworzenia zasobów danych w obszarze roboczym, zobacz How to create data assets (Jak tworzyć zasoby danych).

Zasób danych utworzony w obszarze roboczym może być udostępniany rejestrowi. Z rejestru można go używać w wielu obszarach roboczych. Należy pamiętać, że przekazujemy --share_with_name parametry i --share_with_version w funkcji udostępniania. Te parametry są opcjonalne i jeśli te dane nie zostaną przekazane, zostaną udostępnione tej samej nazwie i wersji co w obszarze roboczym.

W poniższym przykładzie pokazano użycie polecenia udostępniania w celu udostępnienia zasobu danych. Zastąp <registry-name> ciąg nazwą rejestru, do którego będą udostępniane dane.

az ml data share --name local-folder-example-titanic --version <version-in-workspace> --share-with-name <name-in-registry> --share-with-version <version-in-registry> --registry-name <registry-name>

Najpierw utwórz zasób danych w obszarze roboczym. Upewnij się, że jesteś w sdk/assets/data katalogu. Dane są dostępne w sdk/assets/data/sample-data katalogu.

my_path = "./sample-data/"
my_data = Data(path=my_path,
               type=AssetTypes.URI_FOLDER,
               description="",
               name="titanic-dataset",
               version='1')
ml_client_workspace.data.create_or_update(my_data)

Aby uzyskać więcej informacji na temat tworzenia zasobów danych w obszarze roboczym, zobacz How to create data assets (Jak tworzyć zasoby danych).

Zasób danych utworzony w obszarze roboczym może być udostępniany rejestrowi i może być używany w wielu obszarach roboczych. Możesz również zmienić nazwę i wersję podczas udostępniania danych z obszaru roboczego na rejestr.

Należy pamiętać, że przekazujemy share_with_name parametry i share_with_version w funkcji udostępniania. Te parametry są opcjonalne i jeśli te dane nie zostaną przekazane, zostaną udostępnione tej samej nazwie i wersji co w obszarze roboczym.

# Sharing data from workspace to registry
ml_client_workspace.data.share(
    name="titanic-dataset",
    version="1",
    registry_name="<REGISTRY_NAME>",
    share_with_name=<name-in-registry>,
    share_with_version=<version-in-registry>,
)

Udostępnij za pośrednictwem

Typy zasobów danych obsługiwane przez rejestr usługi Azure Machine Learning

Ścieżki obsługiwane przez rejestr usługi Azure Machine Learning

Wymagania wstępne

Klonowanie repozytorium przykładów

Tworzenie połączenia zestawu SDK

Tworzenie danych w rejestrze

Tworzenie środowiska i składnika w rejestrze

Uruchamianie zadania potoku w obszarze roboczym przy użyciu składnika z rejestru

Następne kroki

Opinia

Dodatkowe zasoby

Udostępnij za pośrednictwem

Kluczowy scenariusz rozwiązany przez udostępnianie danych przy użyciu rejestru usługi Azure Machine Learning

Scenariusze NIE rozwiązane przez udostępnianie danych przy użyciu rejestru usługi Azure Machine Learning

Typy zasobów danych obsługiwane przez rejestr usługi Azure Machine Learning

Ścieżki obsługiwane przez rejestr usługi Azure Machine Learning

Wymagania wstępne

Klonowanie repozytorium przykładów

Tworzenie połączenia zestawu SDK

Tworzenie danych w rejestrze

Tworzenie środowiska i składnika w rejestrze

Uruchamianie zadania potoku w obszarze roboczym przy użyciu składnika z rejestru

Udostępnianie danych z obszaru roboczego do rejestru

Następne kroki

Opinia

Dodatkowe zasoby