チュートリアル: クラウドワークステーションでのモデル開発

[アーティクル]
09/04/2024

Azure Machine Learning のクラウドワークステーションでノートブックを使用してトレーニングスクリプトを開発する方法について説明します。このチュートリアルでは、次のことを開始するために必要な基本について説明します。

クラウドワークステーションを設定して構成する。クラウドワークステーションには Azure Machine Learning コンピューティングインスタンスが備わっており、さまざまなモデル開発ニーズをサポートするための環境が事前に構成されています。
クラウドベースの開発環境を使用する。
MLflow を使用して、ノートブック内からすべてのモデルメトリックを追跡する。

前提条件

Azure Machine Learning を使用するには、ワークスペースが必要です。まだない場合は、作業を開始するために必要なリソースの作成を完了し、ワークスペースを作成してその使用方法の詳細を確認してください。

重要

Azure Machine Learning ワークスペースがマネージド仮想ネットワークを使用して構成されている場合、パブリック Python パッケージリポジトリへのアクセスを許可するアウトバウンド規則の追加が必要になることがあります。詳細については、「シナリオ: パブリック機械学習パッケージにアクセスする」を参照してください。

コンピューティングから始める

ワークスペースの [コンピューティング] セクションでは、コンピューティングリソースを作成できます。コンピューティングインスタンスは、Azure Machine Learning によって完全に管理されるクラウドベースのワークステーションです。このチュートリアルシリーズでは、コンピューティングインスタンスを使います。それを使って独自のコードを実行したり、モデルの開発とテストを行ったりすることもできます。

Azure Machine Learning Studio にサインインします。
まだ開いていない場合は、ワークスペースを選びます。
左側のナビゲーションで、[コンピューティング] を選びます。
コンピューティングインスタンスがない場合は、画面の中央に [新規] と表示されます。 [新規] を選んで、フォームに入力します。すべての既定値を使用できます。
コンピューティングインスタンスがある場合は、一覧からそれを選びます。停止されている場合は、[開始] を選びます。

Visual Studio Code (VS Code) を開く

実行状態になったコンピューティングインスタンスには、さまざまな方法でアクセスできます。このチュートリアルでは、VS Code からコンピューティングインスタンスを使う方法を示します。 VS Code では、Azure Machine Learning リソースの機能を備えた完全な統合開発環境 (IDE) が提供されます。

コンピューティングインスタンスの一覧で、使用するコンピューティングインスタンスの [VS Code (Web)] または [VS Code (デスクトップ)] リンクを選びます。 [VS Code (デスクトップ)] を選んだ場合は、アプリケーションを開くかどうかを確認するポップアップが表示されることがあります。

スクリーンショットでは、VS Code (Web) または (デスクトップ) を起動するためのリンクが示されています。

この VS Code インスタンスは、お使いのコンピューティングインスタンスとワークスペースファイルシステムにアタッチされます。デスクトップで開いても、表示されるファイルはワークスペース内のファイルです。

プロトタイプ作成用の新しい環境を設定する (省略可能)

スクリプトを実行するには、コードで想定される依存関係とライブラリを使用して構成された環境で作業する必要があります。このセクションは、使用するコードに合わせた環境を作成するのに役立ちます。ノートブックが接続する新しい Jupyter カーネルを作成するには、依存関係を定義する YAML ファイルを使用します。

ファイルをアップロードします。

アップロードしたファイルは Azure ファイル共有に保存されます。これらのファイルは各コンピューティングインスタンスにマウントされ、ワークスペース内で共有されます。
1. 右上にある [Download raw file] (生ファイルのダウンロード) ボタンを使って、この conda 環境ファイル workstation_env.yml をお使いのコンピューターにダウンロードします。
2. ファイルをコンピューターから VS Code ウィンドウにドラッグします。ファイルがワークスペースにアップロードされます。
3. 自分のユーザー名のフォルダーにファイルを移動します。
4. このファイルを選んでプレビューし、そこで指定されている依存関係を確認します。次のような内容が表示されます。
```
name: workstation_env
# This file serves as an example - you can update packages or versions to fit your use case
dependencies:
  - python=3.8
  - pip=21.2.4
  - scikit-learn=0.24.2
  - scipy=1.7.1
  - pandas>=1.1,<1.2
  - pip:
    - mlflow-skinny 
    - azureml-mlflow
    - psutil>=5.8,<5.9
    - ipykernel~=6.0
    - matplotlib
```
カーネルを作成します。

次に、ターミナルを使い、workstation_env.yml ファイルを基にして新しい Jupyter カーネルを作成します。
1. 上部のメニューバーで、[ターミナル] > [新しいターミナル] を選びます。
2. 現在の conda 環境を表示します。アクティブな環境は * でマークされます。
```
conda env list
```
3. cd を使って、workstation_env.yml ファイルをアップロードしたフォルダーに移動します。たとえば、自分のユーザーフォルダーにアップロードした場合は、次のようになります。
```
cd Users/myusername
```
4. workstation_env.yml がこのフォルダーにあることを確認します。
```
ls
```
5. 提供された conda ファイルに基づいて環境を作成します。この環境を構築するには数分かかります。
```
conda env create -f workstation_env.yml
```
6. 新しい環境をアクティブにします。
```
conda activate workstation_env
```
  Note
  
  CommandNotFoundError が表示される場合は、指示に従って conda init bash を実行し、ターミナルを閉じて新しく開きます。その後、conda activate workstation_env コマンドを再試行します。
7. 正しい環境がアクティブであることを検証し、* でマークされた環境をもう一度探します。
```
conda env list
```
8. アクティブな環境に基づいて新しい Jupyter カーネルを作成します。
```
python -m ipykernel install --user --name workstation_env --display-name "Tutorial Workstation Env" 
```
9. ターミナルウィンドウを閉じます。

これで新しいカーネルが作成されました。次に、ノートブックを開き、このカーネルを使用します。

ノートブックを作成する

上部のメニューバーで、[ファイル] > [新しいファイル] を選びます。
新しいファイルに develop-tutorial.ipynb という名前を付けます (または、任意の名前を入力します)。 .ipynb 拡張子を使っていることを確認します。

カーネルを設定する

右上にある [カーネルの選択] を選びます。
[Azure ML コンピューティングインスタンス (<コンピューティングインスタンス名>)] を選びます。
作成したカーネル Tutorial Workstation Env を選びます。それが表示されない場合は、右上にある [最新の情報に更新] ツールを選びます。

トレーニングスクリプトを開発する

このセクションでは、UCI データセットから準備されたテストとトレーニングの各データセットを使用して、クレジットカードの既定の支払いを予測する Python トレーニングスクリプトを開発します。

このコードでは、トレーニングには sklearn を使用して、メトリックのログ記録には MLflow を使用します。

まず、トレーニングスクリプトで使用するパッケージとライブラリをインポートするコードから始めます。

import os
import argparse
import pandas as pd
import mlflow
import mlflow.sklearn
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.metrics import classification_report
from sklearn.model_selection import train_test_split

次に、この実験用のデータを読み込んで処理します。このチュートリアルでは、インターネット上のファイルからデータを読み取ります。

# load the data
credit_df = pd.read_csv(
    "https://azuremlexamples.blob.core.windows.net/datasets/credit_card/default_of_credit_card_clients.csv",
    header=1,
    index_col=0,
)

train_df, test_df = train_test_split(
    credit_df,
    test_size=0.25,
)

トレーニング用のデータを準備します。

# Extracting the label column
y_train = train_df.pop("default payment next month")

# convert the dataframe values to array
X_train = train_df.values

# Extracting the label column
y_test = test_df.pop("default payment next month")

# convert the dataframe values to array
X_test = test_df.values

MLflow に自動ログ記録を開始するコードを追加して、メトリックと結果を追跡できるようにします。モデル開発の反復的な性質により、MLflow は、モデルのパラメーターと結果をログに記録するのに役立ちます。これらの実行を参照して、モデルのパフォーマンスを比較して理解します。ログには、Azure Machine Learning 内のワークフローの開発フェーズからトレーニングフェーズに移行する準備ができた場合のコンテキストも提供されます。
```
# set name for logging
mlflow.set_experiment("Develop on cloud tutorial")
# enable autologging with MLflow
mlflow.sklearn.autolog()
```

モデルをトレーニングします。

# Train Gradient Boosting Classifier
print(f"Training with data of shape {X_train.shape}")

mlflow.start_run()
clf = GradientBoostingClassifier(n_estimators=100, learning_rate=0.1)
clf.fit(X_train, y_train)

y_pred = clf.predict(X_test)

print(classification_report(y_test, y_pred))
# Stop logging for this model
mlflow.end_run()

Note

mlflow の警告は無視できます。追跡する必要があるすべての結果は引き続き受け取ります。

繰り返す

モデルの結果が得られたので、何かを変更して、もう一度やり直すことができます。たとえば、別の分類子の手法を試してみてください。

# Train  AdaBoost Classifier
from sklearn.ensemble import AdaBoostClassifier

print(f"Training with data of shape {X_train.shape}")

mlflow.start_run()
ada = AdaBoostClassifier()

ada.fit(X_train, y_train)

y_pred = ada.predict(X_test)

print(classification_report(y_test, y_pred))
# Stop logging for this model
mlflow.end_run()

Note

mlflow の警告は無視できます。追跡する必要があるすべての結果は引き続き受け取ります。

結果を検証する

2 つの異なるモデルを試したので、MLFfow で追跡した結果を使用して、どちらのモデルが優れているかを判断します。正確性などのメトリックや、シナリオの最も重要なその他のインジケーターを参照できます。 MLflow によって作成されたジョブを確認することで、これらの結果をさらに詳しく調べることができます。

Azure Machine Learning スタジオでワークスペースに戻ります。
左側のナビゲーションで、[ジョブ] を選択します。
[Develop on cloud tutorial] (クラウドでの開発チュートリアル) のリンクを選択します。
2 つの異なるジョブが表示されます。試した各モデルごとに 1 つです。これらの名前は自動生成されます。名前を変更する場合は、名前の上にマウスポインターを置き、名前の横にある鉛筆ツールを使用します。
最初のジョブのリンクを選択します。名前が上部に表示されます。鉛筆ツールを使用してここで名前を変更することもできます。
ページには、プロパティ、出力、タグ、パラメーターなど、ジョブの詳細が表示されます。 [タグ] の下に、モデルの種類を説明する estimator_name が表示されます。
[メトリック] タブを選択して、MLflow によってログに記録されたメトリックを表示します (異なるトレーニングセットを使用するため、結果が異なることを想定してください)。
[イメージ] タブを選択して、MLflow によって生成されたイメージを表示します。
他のモデルのメトリックとイメージを戻って確認します。

Python スクリプトを作成する

次に、モデルトレーニング用にノートブックから Python スクリプトを作成します。

VS Code ウィンドウで、ノートブックのファイル名を右クリックして、[ノートブックをスクリプトにインポート] を選びます。
メニュー [ファイル] > [保存] を使って、この新しいスクリプトファイルを保存します。それに train.py という名前を付けます。
このファイルを確認し、トレーニングスクリプトに不要なコードを削除します。たとえば、使用するモデルのコードを保持し、不要なモデルのコードを削除します。
- 自動ログを開始するコードは保持するようにします (mlflow.sklearn.autolog())。
- Python スクリプトを (ここで行っているように) 対話形式で実行する場合は、実験名を定義する行を維持できます (mlflow.set_experiment("Develop on cloud tutorial"))。または、別の名前を付けて、[ジョブ] セクションの別のエントリとして表示することもできます。ただし、トレーニングジョブのスクリプトを準備する場合、その行は適用されないため、省略する必要があります。ジョブ定義には実験名が含まれます。
- 1 つのモデルをトレーニングする場合、実行開始と終了の各行 (mlflow.start_run() と mlflow.end_run()) も必要ありません (効果はありません)。ただし、必要に応じて残すことができます。
編集が完了したら、ファイルを保存します。

これで、希望するモデルのトレーニングに使用する Python スクリプトが作成されました。

Python スクリプトを実行する

ここでは、Azure Machine Learning 開発環境であるコンピューティングインスタンスでこのコードを実行しています。チュートリアル: モデルのトレーニングでは、より強力なコンピューティングリソースに対して、よりスケーラブルな方法でトレーニングスクリプトを実行する方法について説明します。

Python のバージョン (workstations_env) として、このチュートリアルで前に作成した環境を選びます。ノートブックの右下隅に、環境名が表示されます。それを選んでから、画面の中央で環境を選びます。
次に、Python スクリプトを実行します。右上にある [Python ファイルの実行] ツールを使います。

Note

mlflow の警告は無視できます。自動ログからのすべてのメトリックと画像は引き続き受け取ります。

スクリプトの結果を確認する

Azure Machine Learning スタジオのワークスペースで [ジョブ] に戻り、トレーニングスクリプトの結果を確認します。トレーニングデータは分割ごとに変化するため、実行間でも結果が異なることに注意してください。

リソースをクリーンアップする

引き続き他のチュートリアルに取り組む場合は、「次のステップ」に進んでください。

コンピューティングインスタンスを停止する

コンピューティングインスタンスをすぐに使用しない場合は、停止してください。

スタジオの左側のナビゲーション領域で、[コンピューティング] を選択します。
上部のタブで、 [コンピューティングインスタンス] を選択します
一覧からコンピューティングインスタンスを選択します。
上部のツールバーで、 [停止] を選択します。

すべてのリソースの削除

重要

作成したリソースは、Azure Machine Learning に関連したその他のチュートリアルおよびハウツー記事の前提条件として使用できます。

作成したどのリソースも今後使用する予定がない場合は、課金が発生しないように削除します。

Azure portal の検索ボックスに「リソースグループ」と入力し、それを結果から選択します。
一覧から、作成したリソースグループを選択します。
[概要] ページで、[リソースグループの削除] を選択します。
リソースグループ名を入力します。次に、 [削除] を選択します。

次のステップ

各項目の詳細情報

このチュートリアルでは、コードが存在するのと同じコンピューターでプロトタイプを作成して、モデルを作成する初期の手順について説明しました。運用トレーニングでは、より強力なリモートコンピューティングリソースでそのトレーニングスクリプトを使用する方法について説明します。

モデルをトレーニングする

次の方法で共有

チュートリアル: クラウドワークステーションでのモデル開発

前提条件

コンピューティングから始める

Visual Studio Code (VS Code) を開く

プロトタイプ作成用の新しい環境を設定する (省略可能)

ノートブックを作成する

カーネルを設定する

トレーニングスクリプトを開発する

繰り返す

結果を検証する

Python スクリプトを作成する

Python スクリプトを実行する

スクリプトの結果を確認する

リソースをクリーンアップする

コンピューティングインスタンスを停止する

すべてのリソースの削除

次のステップ

フィードバック

その他のリソース

次の方法で共有

チュートリアル: クラウド ワークステーションでのモデル開発

前提条件

コンピューティングから始める

Visual Studio Code (VS Code) を開く

プロトタイプ作成用の新しい環境を設定する (省略可能)

ノートブックを作成する

カーネルを設定する

トレーニング スクリプトを開発する

繰り返す

結果を検証する

Python スクリプトを作成する

Python スクリプトを実行する

スクリプトの結果を確認する

リソースをクリーンアップする

コンピューティング インスタンスを停止する

すべてのリソースの削除

次のステップ

フィードバック

その他のリソース

チュートリアル: クラウドワークステーションでのモデル開発

トレーニングスクリプトを開発する

コンピューティングインスタンスを停止する