クラスターへのデータの割り当て

重要

Machine Learning Studio (クラシック) のサポートは、2024 年 8 月 31 日に終了します。 その日までに、Azure Machine Learning に切り替えすることをお勧めします。

2021 年 12 月 1 日以降、新しい Machine Learning Studio (クラシック) リソースは作成できません。 2024 年 8 月 31 日まで、既存の Machine Learning Studio (クラシック) リソースを引き続き使用できます。

ML Studio (クラシック) のドキュメントは廃止予定であり、今後更新されない可能性があります。

既存のトレーニング済みクラスタリング モデルを使用して、クラスターにデータを割り当てます

カテゴリ: スコア

注意

適用対象: Machine Learning Studio (クラシック)のみ

類似のドラッグ アンド ドロップ モジュールは Azure Machine Learning デザイナーで使用できます。

モジュールの概要

この記事では、Machine Learning Studio (クラシック) の [クラスターへのデータの割り当て] モジュールを使用して、K を意味するクラスタリングアルゴリズムを使用してトレーニングされたクラスターモデルを使用して予測を生成する方法について説明します。

このモジュールは、新しい各データ ポイントの割り当て候補を含むデータセットを返します。 また、クラスターの次元を視覚化するのに役立つ PCA (主要コンポーネント分析) グラフも作成されます。

警告

このモジュールは、"クラスターに割り当てる" (非推奨) モジュールに代わるもので、以前の実験をサポートする場合にのみ使用できます。

クラスターへのデータの割り当てを使用する方法

  1. Machine Learning Studio (クラシック) で、以前にトレーニングしたクラスターモデルを見つけます。 次のいずれかの方法を使用して、クラスタリング モデルを作成およびトレーニングできます。

    また、トレーニング済みの既存のクラスタリング モデルを、ワークスペースの [Saved Models]\(保存済みのモデル\) グループから追加することもできます。

  2. トレーニング済みのモデルを Assign Data to Clusters (クラスターへのデータの割り当て) の左側の入力ポートにアタッチします。

  3. 新しいデータセットを入力としてアタッチします。 このデータセットでは、ラベルは省略可能です。 一般に、クラスタリングは教師なし学習法であるため、事前にカテゴリが判明していることは期待されていません。

    ただし、入力列はクラスタリング モデルのトレーニングで使用された列と同じである必要があり、同じでないとエラーが発生します。

    ヒント

    クラスター予測から出力される列の数を減らすには、[データセット内の列の選択] を使用して、列のサブセットを選択します。

  4. 結果に、結果 (クラスター割り当て) を示す列とともに完全な入力データセットを含める場合は、[Check for Append or Uncheck for Result Only]\(追加をチェックまたは結果のみをチェック解除\) オプションを選択したままにします。

    このオプションの選択を解除すると、結果のみが返されます。 これは、Web サービスの一部として予測を作成する場合に便利です。

  5. 実験を実行します。

結果

" クラスターにデータを割り当てる " モジュールは、 結果データセット の出力で次の2種類の結果を返します。

  • モデル内のクラスターの分離を確認するには、モジュールの出力をクリックし、[視覚化] を選択します。

    このコマンドは、各クラスターの値のコレクションを2つのコンポーネント軸にマップするプリンシパルコンポーネント分析 (PCA) グラフを表示します。

    • 最初のコンポーネント軸は、モデル内の最も高い分散をキャプチャする一連の機能を組み合わせたものです。 これは、x 軸 (主要コンポーネント 1) にプロットされます。
    • 次のコンポーネント軸は、1つ目のコンポーネントと直交し、次に最も多くの情報をグラフに追加する、結合された一連の機能を表します。 これは、y 軸 (主要コンポーネント 2) にプロットされます。

    このグラフから、クラスター間の分離と、プリンシパルコンポーネントを表す軸に沿ってクラスターがどのように分散されるかを確認できます。

  • 入力データ内の各ケースの結果のテーブルを表示するには、 データセットへの変換 モジュールをアタッチし、結果を Studio (クラシック) で視覚化します。

    このデータセットには、各ケースの クラスター割り当て と、この特定のケースがクラスターの中心にどの程度近いかを示す距離メトリックが含まれています。

    [出力列の名前] 説明
    代入 データポイントが割り当てられたクラスターを示す0から始まるインデックス。
    DistancesToClusterCenter いいえ。 n この値は、各データポイントについて、データポイントから割り当てられたクラスターの中心までの距離、および他のクラスターへの距離を示します。

    距離の計算に使用されるメトリックは、K を意味するクラスターモデルを構成するときに決定されます。

想定される入力

名前 説明
トレーニングされたモデル ICluster インターフェイス トレーニング済みクラスタリング モデル
データセット データ テーブル 入力データ ソース

モジュールのパラメーター

名前 種類 Range 省略可能 Default 説明
追加または結果のみ 必須 TRUE 出力データセットに結果だけでなく入力データセットを含めるかどうか、または結果のみを表示するかどうかを指定します。
パラメーター スイープ モードの指定 スイープメソッド リスト: グリッド全体 |ランダムスイープ 必須 ランダム スイープ パラメーター空間のグリッド全体をスイープします。または、限定した数のサンプル実行を使用してスイープします

出力

名前 説明
結果のデータセット データ テーブル 割り当てのデータ列により追加された入力データセットまたは割り当て列のみ

例外

例外 説明
エラー 0003 1 つまたは複数の入力が null または空の場合、例外が発生します。

こちらもご覧ください

K-Means クラスタリング
スコア