Azure Machine Learning スタジオでプロンプトフローコンピューティングセッションを管理する

[アーティクル]
09/04/2024

プロンプトフローコンピューティングセッションでは、必要なすべての依存関係パッケージを含む Docker イメージなど、アプリケーションの実行に必要なコンピューティングリソースが提供されます。この信頼性が高くスケーラブルな環境により、プロンプトフローはシームレスなユーザーエクスペリエンスのためのタスクと機能を効率的に実行できます。

コンピューティングセッション管理のアクセス許可とロール

ロールを割り当てるには、リソースに対する owner または Microsoft.Authorization/roleAssignments/write アクセス許可を持っている必要があります。

コンピューティングセッションのユーザーに、ワークスペースで AzureML Data Scientist ロールを割り当てます。詳しくは、「Azure Machine Learning ワークスペースへのアクセスの管理」をご覧ください。

ロールの割り当てが有効になるまで、数分かかる場合があります。

スタジオでコンピューティングセッションを開始する

Azure Machine Learning スタジオを使用してコンピューティングセッションを開始する前に、次の点を確認してください。

ワークスペースでの AzureML Data Scientist ロールを持っている。
ワークスペースの既定のデータストア (通常は workspaceblobstore) の種類が BLOB である。
作業ディレクトリ (workspaceworkingdirectory) がワークスペースに存在する。
プロンプトフローに仮想ネットワークを使う場合は、「プロンプトフローでのネットワークの分離」での考慮事項を理解している。

フローページでコンピューティングセッションを開始する

1 つのフローが 1 つのコンピューティングセッションにバインドされます。フローページでコンピューティングセッションを開始できます。

開始を選択します。フローフォルダーの flow.dag.yaml で定義されている環境を使用してコンピューティングセッションを始めます。これは、ワークスペースに十分なクォータがある、サーバーレスコンピューティングの仮想マシン (VM) サイズで実行されます。

[詳細設定から始める] を選択します。詳細設定では、次のことを実行できます。

コンピューティングの種類を選択します。サーバーレスコンピューティングとコンピューティングインスタンスのどちらかを選択できます。

サーバーレスコンピューティングを選択する場合は、次のように設定します。

コンピューティングセッションで使用する VM サイズをカスタマイズします。 VM シリーズ D 以降を選択します。詳細については、サポートされている VM シリーズとサイズに関するセクションを参照してください
アイドル時間をカスタマイズします。この時間中、コンピューティングセッションがしばらく使用されないと、セッションは自動的に削除されます。
ユーザー割り当てマネージド ID を設定する。コンピューティングセッションではこの ID を使用して基本イメージをプルし、接続を使って認証し、パッケージをインストールします。ユーザー割り当てマネージド ID に十分なアクセス許可があることを確認します。この ID を設定しない場合は、既定でユーザー ID を使用します。

次の CLI コマンドを使用して、ユーザー割り当てマネージド ID をワークスペースに割り当てることができます。ワークスペースのユーザー割り当て ID を作成および更新する方法の詳細を確認してください。

az ml workspace update -f workspace_update_with_multiple_UAIs.yml --subscription <subscription ID> --resource-group <resource group name> --name <workspace name>

workspace_update_with_multiple_UAIs.yml の内容は、次のようになります。

identity:
   type: system_assigned, user_assigned
   user_assigned_identities:
    '/subscriptions/<subscription_id>/resourcegroups/<resource_group_name>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<uai_name>': {}
    '<UAI resource ID 2>': {}

ヒント

Azure Machine Learning ワークスペースがワークスペースに関連するリソースのデータにアクセスするには、ユーザー割り当てマネージド ID に次の Azure RBAC のロールの割り当てが必要になります。

リソース	権限
Azure Machine Learning ワークスペース	Contributor
Azure Storage	共同作成者 (コントロールプレーン) + ストレージ BLOB データ共同作成者 + ストレージファイルデータ特権共同作成者 (データプレーン、ファイル共有のフロードラフトと BLOB 内のデータの使用)
Azure Key Vault (アクセスポリシーのアクセス許可モデルを使用する場合)	共同作成者 + 消去操作以外のすべてのアクセスポリシーのアクセス許可。これはリンクされた Azure Key Vault の既定モードです。
Azure Key Vault (RBAC アクセス許可モデルを使用する場合)	共同作成者 (コントロールプレーン) + Key Vault 管理者 (データプレーン)
Azure Container Registry	Contributor
Azure Application Insights	Contributor

Note

ジョブの送信者には、ユーザー割り当てマネージド ID に対する assign アクセス許可が必要です。Managed Identity Operator ロールを割り当てることができます。サーバーレスコンピューティングセッションを作成するたびに、ユーザー割り当てマネージド ID がコンピューティングに割り当てられます。

コンピューティングの種類としてコンピューティングインスタンスを選択する場合は、アイドルシャットダウン時間のみを設定できます。
- 既存のコンピューティングインスタンス上で実行されているため、VM のサイズは固定され、セッション側で変更することはできません。
- このセッションに使用される ID はコンピューティングインスタンスでも定義され、既定ではユーザー ID が使用されます。コンピューティングインスタンスに ID を割り当てる方法の詳細
- アイドルシャットダウン時間は、コンピューティングセッションのライフサイクルを定義するために使用されます。設定した時間にセッションがアイドル状態の場合は、自動的に削除されます。コンピューティングインスタンスでアイドルシャットダウンを有効にした場合は、コンピューティングレベルから有効になります。
- コンピューティングインスタンスを作成および管理する方法の詳細

コンピューティングセッションを使用して CLI/SDK でフロー実行を送信する

スタジオに加えて、フロー実行を送信するときに CLI/SDK でコンピューティングセッションを指定することもできます。

Azure CLI
Python SDK

リソース部分でインスタンスの種類またはコンピューティングインスタンス名を指定することもできます。インスタンスの種類またはコンピューティングインスタンス名を指定しない場合、クォータ、コスト、パフォーマンス、ディスクサイズなどの要因に基づいて、Azure Machine Learning によってインスタンスの種類 (VM サイズ) が選択されます。サーバーレスコンピューティングの詳細についてはこちらをご覧ください。

$schema: https://azuremlschemas.azureedge.net/promptflow/latest/Run.schema.json
flow: <path_to_flow>
data: <path_to_flow>/data.jsonl

# specify identity used by serverless compute.
# default value
# identity:
#   type: user_identity 

# use workspace first UAI
# identity:
#   type: managed
  
# use specified client_id's UAI
# identity:
#   type: managed
#   client_id: xxx

column_mapping:
  url: ${data.url}

# define cloud resource

resources:
  instance_type: <instance_type> # serverless compute type
  # compute: <compute_instance_name> # use compute instance as compute type

CLI を使用してこの実行を送信します。

pfazure run create --file run.yml

# load flow
flow = "<path_to_flow>"
data = "<path_to_flow>/data.jsonl"


# create run
run = Run(
    # local flow file
    flow=flow,
    # remote data
    data=data,
    # to customize runtime instance type and compute instance, you can provide them in resources
    # resources={
    #     "instance_type": "STANDARD_DS11_V2",
    #     "compute": "my_compute_instance"
    # }
    # to customize identity, you can provide them in identity
    # identity={
    #     "type": "managed",
    # }
)

base_run = pf.runs.create_or_update(run=run)

「プロンプトフローを LLM ベースのアプリケーション DevOps と統合する」で、完全なエンドツーエンドコードファーストの例を参照してください。

Note

CLI/SDK を使用してフロー実行を送信する場合、アイドルシャットダウンは 1 時間です。コンピューティングページに移動してコンピューティングをリリースできます。

フローフォルダーの外部にあるファイルを参照する

場合によっては、フローフォルダーの外部にある requirements.txt ファイルを参照できます。たとえば、複数のフローを含む複雑なプロジェクトがある場合に、同じ requirements.txt ファイルを共有するとします。これを行うには、このフィールド additional_includes を flow.dag.yaml に追加します。このフィールドの値は、フローフォルダーへの相対ファイル/フォルダーパスの一覧です。たとえば、requirements.txt がフローフォルダーの親フォルダーにある場合は、../requirements.txt を additional_includes フィールドに追加できます。

inputs:
  question:
    type: string
outputs:
  output:
    type: string
    reference: ${answer_the_question_with_context.output}
environment:
  python_requirements_txt: requirements.txt
additional_includes:
  - ../requirements.txt
...

requirements.txt ファイルがフローフォルダーにコピーされ、それを使用してコンピューティングセッションが開始されます。

スタジオフローページでコンピューティングセッションを更新する

フローページで、次のオプションを使用してコンピューティングセッションを管理できます。

コンピューティングセッションの設定を変更し、VM サイズやサーバーレスコンピューティングのユーザー割り当てマネージド ID などのコンピューティング設定を変更します。コンピューティングインスタンスを使用している場合は、他のインスタンスを使用するように変更できます。次を変更することもできます。
サーバーレスコンピューティングのユーザー割り当てマネージド ID を変更することもできます。 VM サイズを変更すると、コンピューティングセッションは新しい VM サイズでリセットされます。 Azure を
requirements.txt からのパッケージのインストール プロンプトフロー UI で requirements.txt を開き、その中のパッケージを追加できます。
インストールされているパッケージの表示 コンピューティングセッションにインストールされているパッケージを表示します。これには、基本イメージにインストールされたパッケージと、フローフォルダー内の requirements.txt ファイルで指定されたパッケージが含まれます。
コンピューティングセッションのリセット 現在のコンピューティングセッションが削除され、同じ環境で新しいコンピューティングセッションが作成されます。パッケージの競合の問題が発生した場合は、このオプションを試すことができます。
コンピューティングセッションの停止 現在のコンピューティングセッションが削除されます。基になるコンピューティングにアクティブなコンピューティングセッションがない場合、サーバーレスコンピューティングリソースも削除されます。

また、フローフォルダー内の requirements.txt ファイルにパッケージを追加することで、このフローの実行に使用する環境を簡単にカスタマイズできます。このファイルにさらにパッケージを追加した後は、次のいずれかのオプションを選択できます。

[Save and install] (保存してインストール) を使用すると、フローフォルダー内の pip install -r requirements.txt がトリガーされます。インストールするパッケージによって、このプロセスは数分かかる場合があります。
[Save only] (保存のみ) を使用すると、requirements.txt ファイルの保存だけが行われます。後から自分でパッケージをインストールできます。

Note

requirements.txt の場所とファイル名を変更できますが、必ずフローフォルダー内の flow.dag.yaml ファイル内でもそれらを変更してください。

requirements.txt 内では promptflow と promptflow-tools のバージョンを固定しないでください。これは既にセッションの基本イメージ内に含めてあります。

requirements.txt では、ローカルホイールファイルはサポートされません。イメージ内でそれらをビルドし、カスタマイズされた基本イメージを flow.dag.yaml で更新します。カスタム基本イメージを構築する方法の詳細を確認してください。

Azure DevOps のプライベートフィードにパッケージを追加する

Azure DevOps でプライベートフィードを使用する場合は、次の手順に従います。

マネージド ID をワークスペースまたはコンピューティングインスタンスに割り当てます。
1. コンピューティングセッションとしてサーバーレスコンピューティングを使用します。ユーザー割り当てマネージド ID をワークスペースに割り当てる必要があります。
  1. ユーザー割り当てマネージド ID を作成し、この ID を Azure DevOps 組織に追加します。詳細については、「サービスプリンシパルとマネージド ID を使用する」を参照してください。
    
    Note
    
    [ユーザーの追加] ボタンが表示されていない場合は、おそらくこのアクションを実行するために必要なアクセス許可がありません。
  2. ユーザー割り当て ID をワークスペースに追加するか、更新します。
    
    Note
    
    ユーザー割り当てマネージド ID の、ワークスペースにリンクされた keyvault に Microsoft.KeyVault/vaults/read があることを確認してください。
2. コンピューティングインスタンスをコンピューティングセッションとして使用するには、ユーザー割り当てマネージド ID をコンピューティングインスタンスに割り当てる必要があります。
プライベートフィードの URL に {private} を追加します。たとえば、Azure DevOps の test_feed から test_package をインストールする場合は、requirements.txt に -i https://{private}@{test_feed_url_in_azure_devops} を追加します。
```
-i https://{private}@{test_feed_url_in_azure_devops}
test_package
```
コンピューティングセッション構成でユーザー割り当てマネージド ID を使用して指定します。
1. サーバーレスコンピューティングを使用していて、コンピューティングセッションが実行されていない場合は [詳細設定から始める] でユーザー割り当てマネージド ID を指定し、コンピューティングセッションが実行されている場合は [Change compute session settings]\(コンピューティングセッションの設定の変更\) ボタンを使用します。
2. コンピューティングインスタンスを使用している場合は、コンピューティングインスタンスに割り当てたユーザー割り当てマネージド ID が使用されます。

Note

このアプローチは、主にフロー開発フェーズでのクイックテストに焦点を当てています。エンドポイントとしてこのフローをデプロイする場合は、このプライベートフィードをイメージにビルドし、flow.dag.yaml の基本イメージを更新してください。カスタム基本イメージをビルドする方法の詳細はこちらをご覧ください。

コンピューティングセッションの基本イメージを変更する

既定では、最新のプロンプトフローの基本イメージを使用します。別の基本イメージを使う場合は、カスタムのものを作成できます。

スタジオでは、コンピューティングセッション設定の基本イメージ設定で基本イメージを変更できます。

フローフォルダー内の flow.dag.yaml ファイルの environment の下で新しい基本イメージを指定することもできます。
```
environment:
    image: <your-custom-image>
    python_requirements_txt: requirements.txt
```

新しい基本イメージを使用するには、コンピューティングセッションをリセットする必要があります。このプロセスは、新しい基本イメージをプルしてパッケージを再インストールするので数分かかります。

コンピューティングセッションで使用されるサーバーレスインスタンスを管理する

サーバーレスコンピューティングをコンピューティングセッションとして使用する場合、サーバーレスインスタンスを管理できます。コンピューティングページにあるコンピューティングセッションを一覧するタブで、サーバーレスインスタンスを表示します。

また、[Active flows and runs]\(アクティブなフローと実行\) タブで、コンピューティングで実行されているフローと実行にアクセスすることもできます。削除すると、インスタンスはフローに影響し、その上で実行されます。

コンピューティングセッション、コンピューティングリソース、フロー、ユーザーの関係

1 人のユーザーが複数のコンピューティングリソース (サーバーレスまたはコンピューティングインスタンス) を持つことができます。さまざまなニーズのために、1 人のユーザーが複数のコンピューティングリソースを持つことができます。たとえば、1 人のユーザーが VM サイズやユーザー割り当てマネージド ID が異なる複数のコンピューティングリソースを持つことができます。
1 つのコンピューティングリソースは、1 人のユーザーのみが使用できます。コンピューティングリソースは、1 人のユーザーのプライベートな開発ボックスとして使用されます。複数のユーザーが同じコンピューティングリソースを共有することはできません。
1 つのコンピューティングリソースで複数のコンピューティングセッションをホストできます。コンピューティングセッションは、基になるコンピューティングリソースで実行されているコンテナーです。たとえば、プロンプトフローの作成には多くのコンピューティングリソースは必要にならないため、1 つのコンピューティングリソースで同じユーザーの複数のコンピューティングセッションをホストできます。
1 つのコンピューティングセッションは、一度に 1 つのコンピューティングリソースにのみ属します。ただし、コンピューティングセッションを削除または停止し、別のコンピューティングリソースに再び割り当てることはできます。
1 つのフローで使用できるコンピューティングセッションは 1 つだけです。各フローは自己完結型であり、コンピューティングセッションのフローフォルダーに基本イメージと必要な Python パッケージを定義します。

ランタイムをコンピューティングセッションに切り替える

コンピューティングインスタンスランタイムと比べて、コンピューティングセッションには以下の利点があります。

セッションおよび基盤のコンピューティングのライフサイクルを自動的に管理します。それらを手動で作成して管理する必要はありません。
カスタム環境を作成するのではなく、フローフォルダーの requirements.txt ファイルにパッケージを追加することで、パッケージを簡単にカスタマイズします。

次の手順を使用して、コンピューティングインスタンスランタイムをコンピューティングセッションに切り替えます。

フローフォルダーの requirements.txt ファイルを準備します。 requirements.txt で promptflow と promptflow-tools のバージョンを固定しないようにします。これらは基本イメージに既に含まれています。コンピューティングセッションでは、起動時にパッケージが requirements.txt ファイルにインストールされます。
コンピューティングインスタンスランタイムを作成するためにカスタム環境を作成する場合は、環境の詳細ページからイメージを取得し、フローフォルダーの flow.dag.yaml ファイルでそれを指定できます。詳細については、「コンピューティングセッションの基本イメージを変更する」を参照してください。ワークスペース上で、自分または関連するユーザー割り当てマネージド ID に、イメージに対する acr pull のアクセス許可があることを確認します。

コンピューティングリソースに関して、ライフサイクルを手動で管理する場合は、既存のコンピューティングインスタンスを引き続き使用できます。または、ライフサイクルがシステムで管理されるサーバーレスコンピューティングを試すこともできます。

次の方法で共有

Azure Machine Learning スタジオでプロンプトフローコンピューティングセッションを管理する

コンピューティングセッション管理のアクセス許可とロール

スタジオでコンピューティングセッションを開始する

フローページでコンピューティングセッションを開始する

コンピューティングセッションを使用して CLI/SDK でフロー実行を送信する

フローフォルダーの外部にあるファイルを参照する

スタジオフローページでコンピューティングセッションを更新する

Azure DevOps のプライベートフィードにパッケージを追加する

コンピューティングセッションの基本イメージを変更する

コンピューティングセッションで使用されるサーバーレスインスタンスを管理する

コンピューティングセッション、コンピューティングリソース、フロー、ユーザーの関係

ランタイムをコンピューティングセッションに切り替える

次のステップ

フィードバック

その他のリソース

次の方法で共有

Azure Machine Learning スタジオでプロンプト フロー コンピューティング セッションを管理する

コンピューティング セッション管理のアクセス許可とロール

スタジオでコンピューティング セッションを開始する

フロー ページでコンピューティング セッションを開始する

コンピューティング セッションを使用して CLI/SDK でフロー実行を送信する

フロー フォルダーの外部にあるファイルを参照する

スタジオ フロー ページでコンピューティング セッションを更新する

Azure DevOps のプライベート フィードにパッケージを追加する

コンピューティング セッションの基本イメージを変更する

コンピューティング セッションで使用されるサーバーレス インスタンスを管理する

コンピューティング セッション、コンピューティング リソース、フロー、ユーザーの関係

ランタイムをコンピューティング セッションに切り替える

次のステップ

フィードバック

その他のリソース

Azure Machine Learning スタジオでプロンプトフローコンピューティングセッションを管理する

コンピューティングセッション管理のアクセス許可とロール

スタジオでコンピューティングセッションを開始する

フローページでコンピューティングセッションを開始する

コンピューティングセッションを使用して CLI/SDK でフロー実行を送信する

フローフォルダーの外部にあるファイルを参照する

スタジオフローページでコンピューティングセッションを更新する

Azure DevOps のプライベートフィードにパッケージを追加する

コンピューティングセッションの基本イメージを変更する

コンピューティングセッションで使用されるサーバーレスインスタンスを管理する

コンピューティングセッション、コンピューティングリソース、フロー、ユーザーの関係

ランタイムをコンピューティングセッションに切り替える