データドリフト (プレビュー) は廃止され、モデルモニターに置き換えられる予定です

[アーティクル]
09/27/2024

データドリフト (プレビュー) は 2025 年 9 月 1 日に廃止され、データドリフトタスクにモデルモニターを使用できるようになります。置き換え、機能のギャップ、手動の変更手順を理解するには、以下の内容を確認してください。

データドリフトを監視し、ドリフトが大きい場合のアラートを設定する方法について説明します。

Note

Azure Machine Learning モデルモニタリング (v2) には、シグナルとメトリックを監視するための追加機能とともに、データドリフトに対して改善された機能が用意されています。 Azure Machine Learning (v2) のモデルモニタリング機能の詳細については、「Azure Machine Learning を使用したモデルモニタリング」を参照してください。

Azure Machine Learning データセットモニター (プレビュー) を使用すると、次のことを実行できます。

データのドリフトを分析して、時間の経過と共にどのように変化するかを把握する。
モデルデータを監視して、トレーニング用データセットと供給データセットの違いを確認する。デプロイされたモデルからモデルデータを収集することから始めます。
新しいデータを監視して、ベースラインデータセットとターゲットデータセットの違いを確認する。
データの特徴をプロファイリングして、時間の経過と共に統計的な特性がどのように変化するかを追跡する。
データドリフトに関するアラートを設定して、潜在的な問題を早期に警告する。
非常に多くのドリフトがデータに発生したと判断した場合に、 新しいバージョンのデータセットを作成 する。

モニターの作成には、Azure Machine Learning のデータセットが使用されます。データセットには timestamp 列が含まれている必要があります。

データドリフトメトリックは、Python SDK または Azure Machine Learning Studio を使用して確認できます。その他のメトリックと分析情報は、Azure Machine Learning ワークスペースに関連付けられている Azure Application Insights リソースを通じて利用できます。

重要

データセットのデータドリフト検出は、現在パブリックプレビュー段階にあります。プレビューバージョンはサービスレベルアグリーメントなしで提供されています。運用環境のワークロードに使用することはお勧めできません。特定の機能はサポート対象ではなく、機能が制限されることがあります。詳しくは、Microsoft Azure プレビューの追加使用条件に関するページをご覧ください。

前提条件

データセットモニターを作成して使用するには、以下が必要です。

Azure サブスクリプション。 Azure サブスクリプションをお持ちでない場合は、開始する前に無料アカウントを作成してください。無料版または有料版の Azure Machine Learning を今すぐお試しください。
Azure Machine Learning ワークスペース。
Azure Machine Learning SDK for Python がインストール済み (これには azureml-datasets パッケージが含まれています)。
データのファイルパス、ファイル名、または列にタイムスタンプが指定された構造化 (表形式) データ。

前提条件 (モデルモニターに移行する)

モデルモニターに移行する場合は、Azure Machine Learning モデル監視の前提条件に関するこちらの記事を確認してください。

データの誤差とは

モデルの精度は時間の経過と同時に低下します。これは、主にデータドリフトが原因です。機械学習モデルの場合、データドリフトとは、モデルのパフォーマンスの低下につながるモデルの入力データの変更のことです。データドリフトを監視すると、このようなモデルのパフォーマンスの問題を検出するために役立ちます。

データドリフトは、次のようなことが原因で発生します。

上流プロセスの変更 (センサーを交換したため測定単位がインチからセンチメートルに変更された場合など)。
データ品質の問題 (センサーが破損しているため読み取り値が常に 0 になっている場合など)。
データの自然なドリフト (平均気温が季節と共に変化する場合など)。
特徴間の関係の変化 (共変量シフト)。

Azure Machine Learning を使用すると、比較されるデータセットの複雑さを抽象化する単一のメトリックを計算することにより、ドリフト検出を簡略化することができます。このようなデータセットには、数百単位の特徴と数万行が含まれている場合があります。ドリフトが検出されたら、ドリフトを引き起こしている特徴までドリルダウンします。次に、特徴レベルのメトリックを調べて、ドリフトの根本原因をデバッグし、特定します。

このトップダウンアプローチを使用すると、従来のルールベースの手法よりもデータの監視が簡単になります。許可されたデータ範囲や許可された一意の値などのルールベースの手法では、時間がかかり、エラーが発生しやすくなります。

Azure Machine Learning では、データセットモニターを使用し、データドリフトを検出して警告します。

データセットモニター

データセットモニターを使用すると、次のことができます。

データセット内の新しいデータに対してデータドリフトを検出して警告する。
履歴データのドラフトを分析する。
時系列で新しいデータをプロファイルする。

データドリフトに関するアルゴリズムは、データの変化を総合的に測定するだけでなく、どの特徴に詳細な調査が必要であるかがわかるようになっています。データセットモニターでは、timeseries データセット内の新しいデータをプロファイリングすることによって、ほかにも多くのメトリックが生成されます。

Azure Application Insights を使用することで、モニターによって生成されるすべてのメトリックについてカスタムアラートを設定できます。データセットモニターを使用すると、データの問題を迅速に検出し、考えられる原因を特定することによって問題のデバッグ時間を短縮できます。

概念的には、Azure Machine Learning でデータセットモニターを設定するシナリオは主に 3 つあります。

シナリオ	説明
トレーニングデータのドラフトに対してモデルのサービスデータを監視する	供給データがトレーニングデータからドリフトすると、モデルの精度が低下するので、このシナリオの結果は、代用品を監視してモデルの精度を調べたものと解釈できます。
時系列データセットを監視して、以前の期間からのドリフトを調べる。	このシナリオはより一般的なものであり、モデル構築の上流または下流に関係するデータセットを監視するために使用できます。対象のデータセットには timestamp 列が必要です。ベースラインデータセットは、ターゲットのデータセットと共通の特徴を持つ表形式のデータセットです。
過去のデータに対して分析を実行する。	このシナリオは、履歴データを解釈し、データセットモニターを設定する際の意思決定に反映させるために使用できます。

データセットモニターは、次の Azure サービスによって変わります。

Azure サービス	説明
データセット	ドリフトでは、Machine Learning データセットを使用してトレーニングデータが取得され、モデルのトレーニングのためにデータが比較されます。データのプロファイル生成を使用して、最小値、最大値、個別値、個別値カウントなどのレポートされたメトリックの一部を生成します。
Azure Machine Learning パイプラインとコンピューティング	ドリフト計算ジョブは、Azure Machine Learning パイプラインでホストされます。このジョブは、オンデマンドまたはスケジュールによってトリガーされ、ドリフトモニターの作成時に構成されたコンピューティングで実行されます。
Application Insights	ドリフトによって、機械学習ワークスペースに属する Application Insights にメトリックが送信されます。
Azure Blob Storage	ドリフトによって、メトリックが JSON 形式で Azure BLOB Storage に送信されます。

ベースラインデータセットとターゲットデータセット

Azure Machine Learning データセットでデータドリフトを監視します。データセットモニターを作成するときには、次の情報を参照します:

ベースラインデータセット - 通常はモデルのトレーニングデータセット。
ターゲットデータセット - 通常はモデルの入力データ - 時間の経過に沿ってベースラインデータセットと比較されます。この比較は、ターゲットデータセットにはタイムスタンプ列が指定されている必要があるということを意味します。

モニターは、ベースラインデータセットとターゲットデータセットを比較します。

モデルモニターに移行する

モデルモニターでは、対応する概念を次のように確認することができます。詳細については、「運用データを Azure Machine Learning に取り込んでモデル監視を設定する」というこちらの記事を参照してください。

参照データセット: データドリフト検出のベースラインデータセットと同様に、最近の過去の運用推論データセットとして設定されます。
運用推論データ: データドリフト検出のターゲットデータセットと同様に、運用推論データは、運用環境にデプロイされたモデルから自動的に収集できます。これは、格納している推論データにすることもできます。

ターゲットデータセットを作成する

ターゲットデータセットには、データ内の列またはファイルのパスパターンから派生した仮想列のいずれかにタイムスタンプ列を指定することにより、timeseries 特性が設定されている必要があります。 Python SDK または Azure Machine Learning Studio を使用して、タイムスタンプを持つデータセットを作成します。 timeseries 特性をデータセットに追加するには、"タイムスタンプ" を表す列を指定する必要があります。データが "{yyyy/MM/dd}" などの時刻情報を含むフォルダー構造にパーティション分割されている場合は、パスパターン設定を使用して仮想列を作成し、"パーティションのタイムスタンプ" として設定して、時系列 API 機能を有効にします。

適用対象: Python SDK azureml v1

Dataset クラスの with_timestamp_columns() メソッドによって、データセットのタイムスタンプ列が定義されます。

from azureml.core import Workspace, Dataset, Datastore

# get workspace object
ws = Workspace.from_config()

# get datastore object
dstore = Datastore.get(ws, 'your datastore name')

# specify datastore paths
dstore_paths = [(dstore, 'weather/*/*/*/*/data.parquet')]

# specify partition format
partition_format = 'weather/{state}/{date:yyyy/MM/dd}/data.parquet'

# create the Tabular dataset with 'state' and 'date' as virtual columns
dset = Dataset.Tabular.from_parquet_files(path=dstore_paths, partition_format=partition_format)

# assign the timestamp attribute to a real or virtual column in the dataset
dset = dset.with_timestamp_columns('date')

# register the dataset as the target dataset
dset = dset.register(ws, 'target')

ヒント

データセットの timeseries 特性を使用する完全な例については、ノートブックの例または Datasets SDK のドキュメントを参照してください。

データセットモニターを作成する

新しいデータセットのデータドリフトを検出して警告するデータセットモニターを作成します。 Python SDK または Azure Machine Learning Studio のいずれかを使用します。

後で説明するように、データセットモニターは、設定された頻度 (毎日、毎週、毎月) 間隔で実行されます。前回の実行以降にターゲットデータセットで使用できる新しいデータが分析されます。場合によっては、最新のデータのこのような分析では不十分な場合があります:

アップストリームソースからの新しいデータは、データパイプラインが壊れたために遅延し、データセットモニターの実行時にこの新しいデータを使用できませんでした。
時系列データセットには履歴データのみが含まれており、時間の経過とともにデータセット内のドリフトパターンを分析する必要があります。たとえば、冬と夏の両方の季節に Web サイトに流れるトラフィックを比較して、季節のパターンを特定します。
データセットモニターを初めて使用するとします。将来の日を監視するように設定する前に、既存のデータに対する機能の動作を評価する必要があるとします。このようなシナリオでは、特定のターゲットデータセットセットの日付範囲を含むオンデマンド実行を送信して、ベースラインデータセットと比較することができます。

backfill 関数は、指定した開始日と終了日の範囲に対してバックフィルジョブを実行します。バックフィルジョブは、データの精度と完全性を確保する方法として、データセット内の予期される欠落データポイントを埋めます。

Note

Azure Machine Learning モデルの監視は、手動の backfill 関数をサポートしていません。特定の時間の範囲に対してモデルモニターをやり直す場合は、その特定の時間の範囲に対して別のモデルモニターを作成できます。

適用対象: Python SDK azureml v1

詳細については、データドリフトに関する Python SDK リファレンスドキュメントを参照してください。

次の例は、Python SDK を使用してデータセットモニターを作成する方法を示しています。

from azureml.core import Workspace, Dataset
from azureml.datadrift import DataDriftDetector
from datetime import datetime

# get the workspace object
ws = Workspace.from_config()

# get the target dataset
target = Dataset.get_by_name(ws, 'target')

# set the baseline dataset
baseline = target.time_before(datetime(2019, 2, 1))

# set up feature list
features = ['latitude', 'longitude', 'elevation', 'windAngle', 'windSpeed', 'temperature', 'snowDepth', 'stationName', 'countryOrRegion']

# set up data drift detector
monitor = DataDriftDetector.create_from_datasets(ws, 'drift-monitor', baseline, target,
                                                      compute_target='cpu-cluster',
                                                      frequency='Week',
                                                      feature_list=None,
                                                      drift_threshold=.6,
                                                      latency=24)

# get data drift detector by name
monitor = DataDriftDetector.get_by_name(ws, 'drift-monitor')

# update data drift detector
monitor = monitor.update(feature_list=features)

# run a backfill for January through May
backfill1 = monitor.backfill(datetime(2019, 1, 1), datetime(2019, 5, 1))

# run a backfill for May through today
backfill1 = monitor.backfill(datetime(2019, 5, 1), datetime.today())

# disable the pipeline schedule for the data drift detector
monitor = monitor.disable_schedule()

# enable the pipeline schedule for the data drift detector
monitor = monitor.enable_schedule()

ヒント

timeseries データセットとデータドリフト検出機能を設定する完全な例については、サンプルのノートブックを参照してください。

スタジオのホームページに移動します。
[データ] タブを選択します。
データセットモニターを選択します。
[+監視の作成] ボタンを選択し、[次へ] を選択してウィザードを続行します。

[モニターの作成] ウィザード

ターゲットデータセットを選択します。ターゲットデータセットは、データドリフトの分析対象となる、タイムライン列が指定された表形式のデータセットです。ターゲットデータセットは、ベースラインデータセットと共通の特徴を備え、かつ、新しいデータが追加される timeseries データセットである必要があります。ターゲットデータセット内の履歴データを分析することも、新しいデータを監視することもできます。
ベースラインデータセットを選択します。 時間の経過に沿ってターゲットデータセットと比較するベースラインとして使用される表形式のデータセットを選択します。ベースラインデータセットには、ターゲットデータセットと共通の特徴が含まれている必要があります。ターゲットデータセットのスライスを使用する時間範囲を選択するか、ベースラインとして使用する別のデータセットを指定します。

モニターの設定。以下は、スケジュールされたデータセットモニターパイプラインを作成する場合の設定です。

設定	説明	ヒント	変更可能
名前	データセットモニターの名前。		いいえ
特徴	時間の経過に沿ってデータドリフトが分析される特徴のリスト。	概念ドリフトが測定されるように、モデルで出力される特徴に設定します。時間の経過と共に自然にドリフトする特徴 (月、年、インデックスなど) は含めないでください。特徴の一覧を調整したら、既存のデータドリフトモニターをバックフィルできます。	はい
コンピューティングターゲット	データセットモニタージョブを実行する Azure Machine Learning コンピューティングターゲット。		はい
有効化	データセットモニターパイプラインのスケジュールを有効または無効にします	バックフィル設定を使用して履歴データを分析する場合は、スケジュールを無効にします。これは、データセットモニターの作成後に有効にできます。	はい
頻度	バックフィルを実行する場合にパイプラインジョブをスケジュールし、履歴データを分析するために使用される頻度。オプションには、毎日、毎週、毎月があります。	各ジョブは、頻度に従ってターゲットデータセットのデータが比較されます。日次: ターゲットデータセットの直近の丸 1 日をベースラインと比較します週次: ターゲットデータセットの直近の 1 週間 (月曜日から日曜日) をベースラインと比較します毎月:ターゲットデータセットの直近の 1 か月間をベースラインと比較します	いいえ
Latency	データがデータセットに到達するのにかかる時間 (時間単位)。たとえば、データが、データセットをカプセル化している SQL DB に到達するのに 3 日かかる場合は、待ち時間を 72 に設定します。	データセットモニターの作成後に変更することはできません	いいえ
メールアドレス	データドリフトのしきい値違反 (パーセンテージ単位) に基づいてアラートを送信するメールアドレス。	メールは Azure Monitor 経由で送信されます。	はい
Threshold	メールアラートが送信される、データドリフトのしきい値 (パーセンテージ単位)。	さらに、Application Insights リソースに関連付けられているワークスペース内の他のさまざまなメトリックについても、アラートやイベントを設定できます。	はい

ウィザードを完了すると、結果のデータセットモニターがリストに表示されます。それを選択して、このモニターの詳細ページに移動します。

モデルモニターを作成する (モデルモニターに移行する)

モデルモニターに移行するときに、モデルを Azure Machine Learning オンラインエンドポイントの運用環境にデプロイし、デプロイ時にデータ収集を有効にした場合、Azure Machine Learning は運用環境の推論データを収集し、Microsoft Azure Blob Storage に自動的に保存します。その後、Azure Machine Learning モデルの監視を使用して、この運用推論データを継続的に監視できます。また、モデルを直接選択してターゲットデータセット (モデルモニター内の運用推論データ) を作成できます。

モデルモニターに移行するときに、Azure Machine Learning オンラインエンドポイントの運用環境にモデルをデプロイしなかった場合、またはデータ収集を使用したくない場合は、カスタムシグナルとメトリックを使用してモデル監視を設定することもできます。

以下のセクションでは、モデルモニターに移行する方法について詳しく説明します。

自動的に収集された運用データを使用してモデルモニターを作成する (モデルモニターに移行する)

Azure Machine Learning オンラインエンドポイントでモデルを運用環境にデプロイし、デプロイ時にデータ収集を有効にした場合。

次のコードを使って、すぐに使用できるモデルモニタリングを設定できます。

from azure.identity import DefaultAzureCredential
from azure.ai.ml import MLClient
from azure.ai.ml.entities import (
    AlertNotification,
    MonitoringTarget,
    MonitorDefinition,
    MonitorSchedule,
    RecurrencePattern,
    RecurrenceTrigger,
    ServerlessSparkCompute
)

# get a handle to the workspace
ml_client = MLClient(
    DefaultAzureCredential(),
    subscription_id="subscription_id",
    resource_group_name="resource_group_name",
    workspace_name="workspace_name",
)

# create the compute
spark_compute = ServerlessSparkCompute(
    instance_type="standard_e4s_v3",
    runtime_version="3.3"
)

# specify your online endpoint deployment
monitoring_target = MonitoringTarget(
    ml_task="classification",
    endpoint_deployment_id="azureml:credit-default:main"
)


# create alert notification object
alert_notification = AlertNotification(
    emails=['abc@example.com', 'def@example.com']
)

# create the monitor definition
monitor_definition = MonitorDefinition(
    compute=spark_compute,
    monitoring_target=monitoring_target,
    alert_notification=alert_notification
)

# specify the schedule frequency
recurrence_trigger = RecurrenceTrigger(
    frequency="day",
    interval=1,
    schedule=RecurrencePattern(hours=3, minutes=15)
)

# create the monitor
model_monitor = MonitorSchedule(
    name="credit_default_monitor_basic",
    trigger=recurrence_trigger,
    create_monitor=monitor_definition
)

poller = ml_client.schedules.begin_create_or_update(model_monitor)
created_monitor = poller.result()

Azure Machine Learning のモデルモニタリングでは、 az ml schedule を使用してモニタリングジョブをスケジュールします。次の CLI コマンドと YAML 定義を使って、すぐに使用できるモデルモニタリングを作成できます。

az ml schedule create -f ./out-of-box-monitoring.yaml

次の YAML には、すぐに使用できるモデルモニタリングの定義が含まれています。

# out-of-box-monitoring.yaml
$schema:  http://azureml/sdk-2-0/Schedule.json
name: credit_default_model_monitoring
display_name: Credit default model monitoring
description: Credit default model monitoring setup with minimal configurations

trigger:
  # perform model monitoring activity daily at 3:15am
  type: recurrence
  frequency: day #can be minute, hour, day, week, month
  interval: 1 # #every day
  schedule: 
    hours: 3 # at 3am
    minutes: 15 # at 15 mins after 3am

create_monitor:

  compute: # specify a spark compute for monitoring job
    instance_type: standard_e4s_v3
    runtime_version: "3.3"

  monitoring_target: 
    ml_task: classification # model task type: [classification, regression, question_answering]
    endpoint_deployment_id: azureml:credit-default:main # azureml endpoint deployment id

  alert_notification: # emails to get alerts
    emails:
      - abc@example.com
      - def@example.com

カスタムデータ前処理コンポーネントを介してモデルモニターを作成する (モデルモニターに移行する)

運用データはあるがデプロイがない場合は、データを使用して継続的なモデルモニタリングを実行できます。これらのモデルを監視するには、次のことが可能である必要があります。

運用環境にデプロイされたモデルから運用環境の推論データを収集します。
運用環境の推論データを Azure Machine Learning データ資産として登録し、データの継続的な更新を保証します。
カスタムデータ前処理コンポーネントを提供し、Azure Machine Learning コンポーネントとして登録します。

データコレクターでデータが収集されない場合は、カスタムデータ前処理コンポーネントを指定する必要があります。このカスタムデータ前処理コンポーネントがないと、Azure Machine Learning モデルモニタリングシステムは、時間枠をサポートする表形式にデータを処理する方法を認識しません。

カスタム前処理コンポーネントには、次の入力シグネチャと出力シグネチャが必要です。

[入力または出力]	シグネチャ名	型	説明	例値
input	`data_window_start`	リテラル、文字列	ISO8601 形式のデータウィンドウ開始日時。	2023-05-01T04:31:57.012Z
input	`data_window_end`	リテラル、文字列	ISO8601 形式のデータウィンドウ終了日時。	2023-05-01T04:31:57.012Z
input	`input_data`	uri_folder	収集された運用推論データ。Azure Machine Learning データ資産として登録されます。	azureml:myproduction_inference_data:1
output	`preprocessed_data`	mltable	表形式データセット。参照データスキーマのサブセットと一致します。

カスタムデータ前処理コンポーネントの例については、「azuremml-examples GitHub リポジトリのcustom_preprocessing」を参照してください。

データドリフトの結果の概要

このセクションでは、Azure Studio の [データセット] / [データセットモニター] ページに表示されるデータセットの監視結果について説明します。このページでは、設定を更新し、特定の期間の既存のデータを分析することができます。

データドリフトの規模に関する最上位レベルの分析情報と、さらに調査すべき特徴の見所から始めます。

ドリフトの概要

メトリック	説明
データドリフトの大きさ	時間の経過と共に生じるベースラインとターゲットのデータセット間のドリフトのパーセンテージ。このパーセンテージは 0 から 100 までの範囲で示され、0 はデータセットが同一であることを表し、100 は Azure Machine Learning データドリフトモデルによって 2 つのデータセットが完全に識別可能であることを表します。この大きさを生成するために使用されている機械学習の手法が原因で、測定されたパーセンテージの数値にはノイズの混入が想定されます。
ドリフトが発生している主な特徴	データセット内の機能のうち最も多くドリフトが発生し、ドリフトの規模指標に最も関与しているものを示します。共変量シフトがあるため、基盤となる特徴の分布が特徴として比較的高い重要度になるように変更する必要は必ずしもありません。
Threshold	データドリフトの規模が設定されたしきい値を超えると、アラートがトリガーされます。モニター設定でしきい値を構成します。

ドリフトの規模の傾向

指定した期間内のデータセットとターゲットデータセットの違いを確認します。 100% に近いほど、2 つのデータセットの違いは大きくなります。

ドリフトの規模の傾向

特徴ごとのドリフトの規模

このセクションには、選択した特徴の分布の経時的変化に対する特徴レベルの分析情報と、その他の統計情報が含まれています。

ターゲットデータセットも時間の経過に沿ってプロファイリングされます。各特徴のベースライン分布間の統計的な距離は、ターゲットデータセットの時間の経過と比較されます。概念的には、これはデータドリフトの規模と似ています。ただし、この統計的な距離は、すべての特徴ではなく、個々の特徴に対するものです。最小値、最大値、平均値も取得できます。

Azure Machine Learning Studio でグラフ内のバーを選択すると、その日付の特徴レベルの詳細が表示されます。既定では、同じ特徴について、ベースラインデータセットの分布と最近のジョブの分布が表示されます。

特徴ごとのドリフトの規模

これらのメトリックは、Python SDK で、DataDriftDetector オブジェクトに get_metrics() メソッドを実行して取得することもできます。

特徴の詳細

最後に、下にスクロールして、個々の特徴の詳細を確認します。グラフの上にあるプルダウンを使用して特徴を選択し、詳細を確認するメトリックを選択します。

数値の特徴グラフと比較

グラフのメトリックは、特徴の種類によって異なります。

数値の特徴

メトリック	説明
ワッサースタイン距離	ベースライン分布をターゲット分布に変換するための最小限の作業量。
平均値	特徴量の平均値。
最小値	特徴量の最小値。
最大値	特徴量の最大値。

カテゴリ別の特徴

メトリック	説明
ユークリッド距離	カテゴリ列に対して計算されます。ユークリッド距離は 2 つのベクトルに対して計算され、2 つのデータセットからの同じカテゴリ列の経験的分布から生成されます。 0 は、経験的分布に差がないことを示します。 0 から外れるほど、この列のドリフトは大きくなります。傾向は、このメトリックの時系列プロットから観察でき、ドリフトが生じている特徴を明らかにするために役立ちます。
一意の値の数	特徴の一意の値 (カーディナリティ) の数。

メトリック

説明

ユークリッド距離

カテゴリ列に対して計算されます。ユークリッド距離は 2 つのベクトルに対して計算され、2 つのデータセットからの同じカテゴリ列の経験的分布から生成されます。 0 は、経験的分布に差がないことを示します。 0 から外れるほど、この列のドリフトは大きくなります。傾向は、このメトリックの時系列プロットから観察でき、ドリフトが生じている特徴を明らかにするために役立ちます。

一意の値の数

特徴の一意の値 (カーディナリティ) の数。

このグラフで、1 つの日付を選択して、表示された特徴のターゲットとこの日付の間の特徴の分布を比較します。数値の特徴の場合、これは 2 つの確率分布を示します。特徴が数値の場合、横棒グラフが表示されます。

ターゲットと比較する日付を選択する

メトリック、アラート、イベント

メトリックは、Machine Learning ワークスペースに関連付けられている Azure Application Insights リソースで照会できます。カスタムアラートルールの設定や、アクション (メール、SMS、プッシュ、音声、Azure 関数など) をトリガーするためのアクショングループの設定など、Application Insights のすべての機能にアクセスすることができます。詳細については、Application Insights の包括的ドキュメントを参照してください。

最初に、Azure portal に移動し、ワークスペースの [概要] ページを選択します。関連付けられている Application Insights リソースが右端に表示されます。

左側のペインの [監査] から [ログ (Analytics)] を選択します。

Application Insights の概要

データセットモニターのメトリックは、customMetrics として格納されます。データセットモニターの設定後、クエリを記述して実行すれば、それらを表示できます。

アラートルールを設定するためのメトリックを確認したら、新しいアラートルールを作成できます。

新しいアラートルール

既存のアクショングループを使用するか、または、新しいアクショングループを作成して、設定した条件が満たされたときに実行されるアクションを定義することができます。

新しいアクショングループ

トラブルシューティング

データドリフトモニターに関する制限事項と既知の問題

履歴データ分析時の時間範囲は、モニターの頻度設定の 31 間隔までに制限されます。
特徴一覧が指定されていない (すべての特徴を使用する) 場合、200 の特徴に制限されます。
コンピューティングサイズは、データを処理できる十分な大きさにする必要があります。
特定のモニターのジョブについて、開始日と終了日の範囲に該当するデータがデータセットに存在することを確認します。
データセットモニターは、50 行以上を含むデータセットでのみ機能します。

データセット内の列、つまり特徴は、次の表の条件に基づいてカテゴリまたは数値として分類されます。特徴がこれらの条件を満たしていない場合 (たとえば、string 型の列に一意の値が >100 個含まれる場合)、その特徴はデータドリフトアルゴリズムから削除されますが、プロファイリングは引き続き行われます。

特徴の種類	データ型	条件	制限事項
Categorical	string	特徴内の一意の値の数は、100 個未満であり、かつ行数の 5% 未満であること。	null 値は独自のカテゴリとして扱われます。
数値	int、float	特徴内の値は数値データ型で、カテゴリの特徴の条件を満たしていません。	値の数の >15% を超える null が含まれる場合、その特徴は削除されます。

データドリフトモニターを作成したが、Azure Machine Learning Studio の "データセットモニター" ページにデータが表示されない場合は、次を試してください。
1. ページの一番上で正しい日付範囲が選択されているかどうかを確認します。
2. [データセットモニター] タブで、実験リンクを選択し、ジョブ状態を確認します。このリンクはテーブルの右端にあります。
3. ジョブが正常に完了したら、生成されているメトリックの数や警告メッセージがあるかどうかをドライバーログで確認します。実験を選択したら、[出力 + ログ] タブでドライバーログを見つけます。
SDK の backfill() 関数で予期された出力が生成されない場合は、認証の問題が原因である可能性があります。この関数に渡す計算を作成するときに、Run.get_context().experiment.workspace.compute_targets を使用しないでください。代わりに、次のような ServicePrincipalAuthentication を使用して、その backfill() 関数に渡す計算を作成します。

Note

コードでサービスプリンシパルのパスワードをハードコーディングしないでください。代わりに、Python 環境、キーストア、またはシークレットにアクセスするその他の安全な方法から取得します。

 auth = ServicePrincipalAuthentication(
        tenant_id=tenant_id,
        service_principal_id=app_id,
        service_principal_password=client_secret
        )
 ws = Workspace.get("xxx", auth=auth, subscription_id="xxx", resource_group="xxx")
 compute = ws.compute_targets.get("xxx")

モデルデータコレクターからは、BLOB ストレージアカウントにデータが到着するまでに最大で 10 分かかることがあります。ただし、通常はそこまで時間はかかりません。スクリプトまたは Notebook で、次のセルが実行されるように、10 分間待機します。
```
import time
time.sleep(600)
```

次のステップ

Azure Machine Learning Studio または Python ノートブックに移動して、データセットモニターを設定する。
Azure Kubernetes Service にデプロイされたモデルでデータドリフトを設定する方法を確認する。
Azure Event Grid を使用してデータセットドリフトモニターを設定する。

次の方法で共有

データドリフト (プレビュー) は廃止され、モデルモニターに置き換えられる予定です

前提条件

前提条件 (モデルモニターに移行する)

データの誤差とは

データセットモニター

ベースラインデータセットとターゲットデータセット

モデルモニターに移行する

ターゲットデータセットを作成する

データセットモニターを作成する

モデルモニターを作成する (モデルモニターに移行する)

自動的に収集された運用データを使用してモデルモニターを作成する (モデルモニターに移行する)

カスタムデータ前処理コンポーネントを介してモデルモニターを作成する (モデルモニターに移行する)

データドリフトの結果の概要

ドリフトの規模の傾向

特徴ごとのドリフトの規模

特徴の詳細

メトリック、アラート、イベント

トラブルシューティング

次のステップ

フィードバック

その他のリソース

次の方法で共有

データ ドリフト (プレビュー) は廃止され、モデル モニターに置き換えられる予定です

前提条件

前提条件 (モデル モニターに移行する)

データの誤差とは

データセット モニター

ベースライン データセットとターゲット データセット

モデル モニターに移行する

ターゲット データセットを作成する

データセット モニターを作成する

モデル モニターを作成する (モデル モニターに移行する)

自動的に収集された運用データを使用してモデル モニターを作成する (モデル モニターに移行する)

カスタム データ前処理コンポーネントを介してモデル モニターを作成する (モデル モニターに移行する)

データ ドリフトの結果の概要

ドリフトの規模の傾向

特徴ごとのドリフトの規模

特徴の詳細

メトリック、アラート、イベント

トラブルシューティング

次のステップ

フィードバック

その他のリソース

データドリフト (プレビュー) は廃止され、モデルモニターに置き換えられる予定です

前提条件 (モデルモニターに移行する)

データセットモニター

ベースラインデータセットとターゲットデータセット

モデルモニターに移行する

ターゲットデータセットを作成する

データセットモニターを作成する

モデルモニターを作成する (モデルモニターに移行する)

自動的に収集された運用データを使用してモデルモニターを作成する (モデルモニターに移行する)

カスタムデータ前処理コンポーネントを介してモデルモニターを作成する (モデルモニターに移行する)

データドリフトの結果の概要