Azure Machine Learning のしくみ: リソースとアセット

[アーティクル]
09/03/2024

適用対象:Azure CLI ml extension v2 (現行)Python SDK azure-ai-ml v2 (現行)

この記事は、Azure Machine Learning CLI と Python SDK (v2) の 2 番目のバージョンに適用されます。バージョン 1 (v1) については、「Azure Machine Learning のしくみ: アーキテクチャと概念 (v1)」を参照してください

Azure Machine Learning には、機械学習タスクを実行するためのリソースとアセットがいくつか含まれています。これらのリソースとアセットは、あらゆるジョブを実行するうえで必要となります。

リソース: 機械学習ワークフローを実行するために必要なセットアップリソースやインフラストラクチャリソース。リソースには以下が含まれます。
アセット: Azure Machine Learning コマンドを使用して、またはトレーニング/スコアリングの実行の一部として作成されます。アセットはバージョン管理され、Azure Machine Learning ワークスペースに登録できます。具体的な内容を次に示します。

このドキュメントでは、これらのリソースとアセットの概要を簡単に説明します。

前提条件

Python SDK
Azure CLI
[スタジオ](#tab/azure-studio)

この記事の Python SDK のコード例を使用するには:

Python SDK v2 をインストールします

Azure Machine Learning サブスクリプションへの接続を作成します。例はすべて ml_client に依存しています。ワークスペースを作成するには、接続にワークスペース名は必要ありません。まだない可能性があるためです。この記事の他のすべての例では、ワークスペース名が接続に含まれている必要があります。

# import required libraries
from azure.ai.ml import MLClient
from azure.ai.ml.entities import Workspace
from azure.identity import DefaultAzureCredential

# Enter details of your subscription
subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"

# get a handle to the subscription (use this if you haven't created a workspace yet)
ml_client = MLClient(DefaultAzureCredential(), subscription_id, resource_group)

# all other examples in this article require the connection to include workspace name
workspace_name = "<WORKSPACE_NAME>"
ml_client = ml_client = MLClient(DefaultAzureCredential(), subscription_id, resource_group, workspace_name)

この記事の Azure CLI のコード例を使用するには、Azure CLI がインストールおよび構成されている必要があります。 Azure CLI は、「CLI (v2) のインストールと設定」からインストールできます。

Azure CLI がインストールされたら、Azure アカウントにサインインします。

az login

複数の Azure サブスクリプションにアクセスできる場合は、アクティブなサブスクリプションを設定します。

az account set -s "<YOUR_SUBSCRIPTION_NAME_OR_ID>"

ワークスペース

ワークスペースは、Azure Machine Learning の最上位のリソースで、Azure Machine Learning を使用するときに作成するすべての成果物を操作するための一元的な場所を提供します。ワークスペースには、スクリプトのログ、メトリック、出力、スナップショットなど、すべてのジョブの履歴が保持されます。ワークスペースには、データストアやコンピューティングなどのリソースへの参照が格納されます。また、モデル、環境、コンポーネント、データアセットなど、すべてのアセットも保持されます。

ワークスペースを作成する

Python SDK
Azure CLI
[スタジオ](#tab/azure-studio)

Python SDK v2 を使用してワークスペースを作成するには、次のコードを使用できます。

適用対象: Python SDK azure-ai-ml v2 (現行)

# specify the workspace details
ws = Workspace(
    name="my_workspace",
    location="eastus",
    display_name="My workspace",
    description="This example shows how to create a workspace",
    tags=dict(purpose="demo"),
)

ml_client.workspaces.begin_create(ws) # use MLClient to connect to the subscription and resource group and create workspace

この Jupyter Notebook では、SDK v2 を使用して Azure Machine Learning ワークスペースを作成する方法がさらに示されています。

CLI v2 を使用してワークスペースを作成するには、次のコマンドを使用します。

適用対象: Azure CLI ml 拡張機能 v2 (現行)

az ml workspace create --file my_workspace.yml

ファイルの内容については、ワークスペース YAML の例に関するページを参照してください。

ワークスペースの作成について詳しくは、「ポータルまたは Python SDK (v2) を使用して Azure Machine Learning ワークスペースを管理する」をご覧ください。

Compute

コンピューティングとは、ジョブを実行したり、エンドポイントをホストしたりする、指定されたコンピューティングリソースのことです。 Azure Machine Learning は、次の種類のコンピューティングをサポートしています。

コンピューティングインスタンス - 完全に構成および管理される、クラウド上の開発環境。このインスタンスは、トレーニングまたは推論コンピューティングとして、開発やテストに使用できます。これは、クラウド上の仮想マシンのようなものです。
コンピューティングクラスター - クラウド上に CPU または GPU コンピューティングノードのクラスターを簡単に作成できる、マネージドコンピューティングインフラストラクチャ。
サーバーレスコンピューティング - 即時にアクセスするコンピューティングクラスター。サーバーレスコンピューティングを使うと、独自のクラスターを作成する必要がありません。すべてのコンピューティングライフサイクル管理は、Azure Machine Learning にオフロードされます。
推論クラスター - トレーニング済みの機械学習モデルを Azure Kubernetes Service にデプロイするために使用されます。 Azure Machine Learning ワークスペースから Azure Kubernetes Service (AKS) クラスターを作成するか、既存の AKS クラスターをアタッチすることができます。
アタッチ型コンピューティング - 独自のコンピューティングリソースをワークスペースにアタッチし、トレーニングと推論に使用できます。

コンピューティング

Python SDK
Azure CLI
[スタジオ](#tab/azure-studio)

Python SDK v2 を使用してコンピューティングクラスターを作成するには、次のコードを使用できます。

適用対象: Python SDK azure-ai-ml v2 (現行)

cluster_basic = AmlCompute(
    name="basic-example",
    type="amlcompute",
    size="STANDARD_DS3_v2",
    location="westus",
    min_instances=0,
    max_instances=2,
    idle_time_before_scale_down=120,
)
ml_client.begin_create_or_update(cluster_basic)

この Jupyter Notebook では、SDK v2 を使用してコンピューティングを作成する方法がさらに示されています。

CLI v2 を使用してコンピューティングを作成するには、次のコマンドを使用します。

適用対象: Azure CLI ml 拡張機能 v2 (現行)

az ml compute create --file my_compute.yml

ファイルの内容については、コンピューティング YAML の例に関するページを参照してください。

コンピューティングの作成について詳しくは、以下をご覧ください。

データストア

Azure Machine Learning データストアでは、Azure のデータストレージへの接続情報が安全に保持されるため、ご自身のスクリプトでそのコードを書く必要はありません。データストアを登録および作成すると、ストレージアカウントに簡単に接続し、基になるストレージサービスのデータにアクセスできます。 CLI v2 と SDK v2 では、次の種類のクラウドベースストレージサービスがサポートされています。

Azure BLOB コンテナー
Azure ファイル共有
Azure Data Lake
Azure Data Lake Gen2

データストアを作成する

Python SDK
Azure CLI
[スタジオ](#tab/azure-studio)

Python SDK v2 を使用してデータストアを作成するには、次のコードを使用できます。

適用対象: Python SDK azure-ai-ml v2 (現行)

import AzureBlobDatastore

blob_datastore1 = AzureBlobDatastore(
    name="blob_example",
    description="Datastore pointing to a blob container.",
    account_name="mytestblobstore",
    container_name="data-container",
    credentials={
        "account_key": "XXXxxxXXXxXXXXxxXXXXXxXXXXXxXxxXxXXXxXXXxXXxxxXXxxXXXxXxXXXxxXxxXXXXxxxxxXXxxxxxxXXXxXXX"
    },
)
ml_client.create_or_update(blob_datastore1)

この Jupyter Notebook では、SDK v2 を使用してデータストアを作成する方法がさらに示されています。

CLI v2 を使用してデータストアを作成するには、次のコマンドを使用します。

適用対象: Azure CLI ml 拡張機能 v2 (現行)

az ml datastore create --file my_datastore.yml

ファイルの内容については、データストア YAML の例に関するページを参照してください。

データストアの使用の詳細については、「データ資産の作成と管理」を参照してください。

モデル

Azure Machine Learning モデルは、機械学習モデルと対応するメタデータを表すバイナリファイルで構成されます。モデルは、ローカルまたはリモートのファイルやディレクトリから作成できます。リモートの場所としては、https、wasbs、およびazureml がサポートされています。作成されたモデルは、指定された名前とバージョンでワークスペース内で追跡されます。 Azure Machine Learning では、モデルのストレージ形式として次の 3 種類がサポートされています。

custom_model
mlflow_model
triton_model

モデルレジストリでのモデルの作成

モデルの登録によって、モデルを Azure クラウドに格納し、ワークスペースでバージョン管理できます。モデルのレジストリは、トレーニングしたモデルの整理と追跡に役立ちます。

レジストリでモデルを作成する方法の詳細については、「Azure Machine Learning でモデルを操作する」をご覧ください。

環境

Azure Machine Learning 環境は、機械学習タスクが行われる環境をカプセル化したものです。そこでは、トレーニングとスコアリングのスクリプトに関連する、ソフトウェアパッケージ、環境変数、およびソフトウェア設定を指定します。環境は、Machine Learning ワークスペース内で管理およびバージョン管理されるエンティティです。環境を使用することで、さまざまなコンピューティング先で再現、監査、移植できる機械学習ワークフローを実現できます。

環境の種類

Azure Machine Learning では、キュレーション環境とカスタム環境の 2 種類がサポートされています。

キュレートされた環境は Azure Machine Learning から提供され、既定でお使いのワークスペースで利用できます。これらには、現状のまま使用する目的で、Python のパッケージと設定のコレクションが含まれていて、さまざまな機械学習フレームワークの使用を開始する助けとなります。これらの事前に作成された環境を利用すると、デプロイ時間の短縮も可能です。完全な一覧については、キュレーションされた環境に関する記事を参照してください。

カスタム環境では、ユーザーが環境を設定し、トレーニングスクリプトやスコアリングスクリプトに必要なパッケージとその他すべての依存関係をコンピューティングにインストールする必要があります。 Azure Machine Learning では以下のものを使用して独自の環境を作成できます

Docker イメージ
さらにカスタマイズするための conda YAML を含んだ基本 Docker イメージ
Docker ビルドのコンテキスト

Azure Machine Learning カスタム環境を作成する

Python SDK
Azure CLI
[スタジオ](#tab/azure-studio)

Python SDK v2 を使用して環境を作成するには、「環境の作成」を参照してください。

この Jupyter Notebook では、SDK v2 を使用してカスタム環境を作成する方法がさらに示されています。

環境について詳しくは、Azure Machine Learning での環境の作成と管理に関する記事をご覧ください。

データ

Azure Machine Learning では、さまざまな種類のデータを利用できます。

URI (ローカル/クラウドストレージ内の場所)
- uri_folder
- uri_file
テーブル (表形式データの抽象化)
- mltable
プリミティブ
- string
- boolean
- number

ほとんどのシナリオでは、URI (uri_folder および uri_file) を使用します。これは、ストレージをマウントするか、ノードにダウンロードすることで、ジョブ内のコンピューティングノードのファイルシステムに簡単にマップできるストレージ内の場所です。

mltable は、AutoML ジョブ、並列ジョブ、およびいくつかの高度なシナリオで使用される表形式データの抽象化です。 Azure Machine Learning を使用し始めたばかりで、AutoML を使用していない場合は、URI から始めることを強くお勧めします。

コンポーネント

Azure Machine Learning コンポーネントは、機械学習パイプラインで 1 つのステップを実行する自己格納型のコードです。コンポーネントは、高度な機械学習パイプラインの構成要素です。コンポーネントは、データ処理、モデルトレーニング、モデルスコアリングなどのタスクを実行できます。コンポーネントは関数に類似しており、名前とパラメーターを持ち、入力を予想し、出力を返します。

次の方法で共有

Azure Machine Learning のしくみ: リソースとアセット

前提条件

ワークスペース

ワークスペースを作成する

Compute

コンピューティング

データストア

データストアを作成する

モデル

モデルレジストリでのモデルの作成

環境

環境の種類

Azure Machine Learning カスタム環境を作成する

データ

コンポーネント

フィードバック

その他のリソース

次の方法で共有

Azure Machine Learning のしくみ: リソースとアセット

前提条件

ワークスペース

ワークスペースを作成する

Compute

コンピューティング

データストア

データストアを作成する

モデル

モデル レジストリでのモデルの作成

環境

環境の種類

Azure Machine Learning カスタム環境を作成する

データ​​

コンポーネント

関連するコンテンツ

フィードバック

その他のリソース

モデルレジストリでのモデルの作成

データ