クラスター モデルの検証 (基本的なデータ マイニング チュートリアル)

Microsoft クラスター アルゴリズムでは、類似の特性を持つクラスターにケースがグループ化されます。 このグループ化は、データの探索、データの異常の特定、および予測の作成に役立ちます。

Microsoft クラスター ビューアーには、クラスタリング マイニング モデルを調べるための次のタブがあります。

クラスター ダイアグラム

クラスターのプロファイル

クラスターの特性

クラスターの識別

ここでは、適切なビューアーを選択してその他のマイニング モデルを検証する方法を説明します。

[クラスター ダイアグラム] タブ

[クラスター ダイアグラム] タブには、マイニング モデル内のすべてのクラスターが表示されます。 クラスター間を結ぶ線は "緊密度" を表しており、緊密度が高いほど濃い線で表示されます。 各クラスター本体の色は、クラスター内の変数の頻度と状態を表します。

[クラスター ダイアグラム] タブでモデルを調査するには

  1. TM_Clustering モデルに切り替えるには、[マイニング モデル ビューアー] タブの上部にある [マイニング モデル] ボックスの一覧を使用します。

  2. [ビューアー] ボックスの一覧で、[Microsoft クラスター ビューアー] をクリックします。

  3. [シェーディング変数] ボックスで、[Bike Buyer] を選択します。

    既定の変数は [母集団] ですが、これをモデル内の任意の変数に変更すれば、どのクラスターのメンバーに目的の属性が割り当てられているかを調べることができます。

  4. [状態] ボックスで [1] を選択し、自転車を購入したケースを検証します。

    [密度] の凡例に、[シェーディング変数] と [状態] で選択した属性状態の組み合わせの密度が表示されます。 この例では、最も色の濃いクラスターに自転車の購入者が最も多く含まれることが示されます。

  5. 最も色の濃いクラスター上にマウス ポインターを置きます。

    ツールヒントに、属性が Bike Buyer = 1 であるケースの割合が表示されます。

  6. 密度が最も高いクラスターを選択して右クリックし、[クラスター名の変更] をクリックして、後で識別しやすいように「自転車購入者率高」と入力します。 [OK] をクリックします。

  7. 最も色の薄い (最も密度の低い) クラスターを見つけます。 クラスターを右クリックして [クラスター名の変更] をクリックし、「自転車購入者率低」と入力します。 [OK] をクリックします。

  8. [自転車購入者率高] クラスターをクリックし、その他のクラスターとのつながりを明確に表示するペインの領域にドラッグします。

    クラスターを選択すると、そのクラスターと別のクラスターをつなぐ線が強調表示され、このクラスターに対するすべての関係を簡単に確認できます。 クラスターが選択されていないときは、ダイアグラム内にあるすべてのクラスター間の相互関係の度合いを、線の濃さによって確認できます。 網掛けが薄いか存在しない場合は、クラスターがあまり似ていません。

  9. ネットワークの左側にあるスライダーを使用して、緊密度の低いリンクを非表示にし、緊密な関係にあるクラスターだけを表示します。 Adventure Works Cycles のマーケティング部門は、絞り込みメール配信に最適な方法を決定する際に、類似するクラスターをまとめることができます。

トップに戻る

[クラスターのプロファイル] タブ

[クラスターのプロファイル] タブには、TM_Clustering モデルの全体的なビューが表示されます。 [クラスターのプロファイル] タブには、モデル内の各クラスターに対応する列が含まれています。 一番左側の列には、少なくとも 1 つのクラスターに関連付けられているすべての属性が表示されます。 その他の部分には、それぞれのクラスターについて、各属性の状態の分布状況が表示されます。 離散変数の分布は色分けされたバーで示され、これらのバーの最大数は [ヒストグラム バー] で指定できます。 連続属性はダイヤモンド グラフで示されます。このグラフでは、各クラスターの平均と標準偏差を確認できます。

[クラスターのプロファイル] タブでモデルを調査するには

  1. [ヒストグラム] バーを [5] に設定します。

    このモデルでは、1 つの変数に対する状態の最大数が 5 になります。

  2. [マイニング凡例][属性のプロファイル] の表示を妨げている場合は、[マイニング凡例] を他の場所に移動します。

  3. [自転車購入者率高] 列を選択し、[母集団] 列の右にドラッグします。

  4. [自転車購入者率低] 列を選択し、[自転車購入者率高] 列の右にドラッグします。

  5. [自転車購入者率高] 列をクリックします。

    [変数] 列が、そのクラスターでの重要度順に並べ替えられます。 列をスクロールし、[自転車購入者率高] クラスターの特性を確認します。 たとえば、多くの場合、このクラスターに属する人は通勤距離が短い傾向にあります。

  6. [自転車購入者率高] 列の [Age] セルをダブルクリックします。

    [マイニング凡例] に詳細が表示され、顧客の年齢の範囲と平均年齢を確認できます。

  7. [自転車購入者率低] 列を右クリックし、[列の非表示] をクリックします。

トップに戻る

[クラスターの特性] タブ

[クラスターの特性] タブでは、各クラスターの特性を詳細に検証できます。 ([クラスターのプロファイル] タブのように) すべてのクラスターの特性を比較するのではなく、一度に 1 つのクラスターを検証することができます。 たとえば、[クラスター] ボックスの一覧から [自転車購入者率高] を選択した場合に、このクラスターの顧客の特性を確認できます。 [クラスターのプロファイル] ビューアーとは表示が異なりますが、結果は同じです。

注意注意

HoldoutSeed の初期値を設定していない場合は、モデルを処理するたびに結果が変わります。 詳細については、「HoldoutSeed 要素」を参照してください。

トップに戻る

[クラスターの識別] タブ

[クラスターの識別] タブでは、あるクラスターと別のクラスターを識別するための特性を確認できます。 [クラスター 1] の一覧と [クラスター 2] の一覧から 1 つずつクラスターを選択すると、それら 2 つのクラスターの相違が計算され、違いが最も大きい属性の一覧が表示されます。

[クラスターの識別] タブでモデルを調査するには

  1. [クラスター 1] ボックスで、[自転車購入者率高] を選択します。

  2. [クラスター 2] ボックスで、[自転車購入者率低] を選択します。

  3. [変数] をクリックしてアルファベット順に並べ替えます。

    [自転車購入者率低] と [自転車購入者率高] のクラスターの顧客の大きな違いには、年齢、車の所有、子供の数、地域などがあります。