クラスターモデルの検証 (基本的なデータマイニングチュートリアル)

[アーティクル]
05/07/2013

Microsoft クラスターアルゴリズムでは、類似の特性を持つクラスターにケースがグループ化されます。このグループ化は、データの探索、データの異常の特定、および予測の作成に役立ちます。

Microsoft クラスタービューアーには、クラスタリングマイニングモデルを調べるための次のタブがあります。

クラスターダイアグラム

クラスターのプロファイル

クラスターの特性

クラスターの識別

ここでは、適切なビューアーを選択してその他のマイニングモデルを検証する方法を説明します。

[クラスターダイアグラム] タブ

[クラスターダイアグラム] タブには、マイニングモデル内のすべてのクラスターが表示されます。クラスター間を結ぶ線は "緊密度" を表しており、緊密度が高いほど濃い線で表示されます。各クラスター本体の色は、クラスター内の変数の頻度と状態を表します。

[クラスターダイアグラム] タブでモデルを調査するには

TM_Clustering モデルに切り替えるには、[マイニングモデルビューアー] タブの上部にある [マイニングモデル] ボックスの一覧を使用します。
[ビューアー] ボックスの一覧で、[Microsoft クラスタービューアー] をクリックします。
[シェーディング変数] ボックスで、[Bike Buyer] を選択します。

既定の変数は [母集団] ですが、これをモデル内の任意の変数に変更すれば、どのクラスターのメンバーに目的の属性が割り当てられているかを調べることができます。
[状態] ボックスで [1] を選択し、自転車を購入したケースを検証します。

[密度] の凡例に、[シェーディング変数] と [状態] で選択した属性状態の組み合わせの密度が表示されます。この例では、最も色の濃いクラスターに自転車の購入者が最も多く含まれることが示されます。
最も色の濃いクラスター上にマウスポインターを置きます。

ツールヒントに、属性が Bike Buyer = 1 であるケースの割合が表示されます。
密度が最も高いクラスターを選択して右クリックし、[クラスター名の変更] をクリックして、後で識別しやすいように「自転車購入者率高」と入力します。 [OK] をクリックします。
最も色の薄い (最も密度の低い) クラスターを見つけます。クラスターを右クリックして [クラスター名の変更] をクリックし、「自転車購入者率低」と入力します。 [OK] をクリックします。
[自転車購入者率高] クラスターをクリックし、その他のクラスターとのつながりを明確に表示するペインの領域にドラッグします。

クラスターを選択すると、そのクラスターと別のクラスターをつなぐ線が強調表示され、このクラスターに対するすべての関係を簡単に確認できます。クラスターが選択されていないときは、ダイアグラム内にあるすべてのクラスター間の相互関係の度合いを、線の濃さによって確認できます。網掛けが薄いか存在しない場合は、クラスターがあまり似ていません。
ネットワークの左側にあるスライダーを使用して、緊密度の低いリンクを非表示にし、緊密な関係にあるクラスターだけを表示します。 Adventure Works Cycles のマーケティング部門は、絞り込みメール配信に最適な方法を決定する際に、類似するクラスターをまとめることができます。

トップに戻る

[クラスターのプロファイル] タブ

[クラスターのプロファイル] タブには、TM_Clustering モデルの全体的なビューが表示されます。 [クラスターのプロファイル] タブには、モデル内の各クラスターに対応する列が含まれています。一番左側の列には、少なくとも 1 つのクラスターに関連付けられているすべての属性が表示されます。その他の部分には、それぞれのクラスターについて、各属性の状態の分布状況が表示されます。離散変数の分布は色分けされたバーで示され、これらのバーの最大数は [ヒストグラムバー] で指定できます。連続属性はダイヤモンドグラフで示されます。このグラフでは、各クラスターの平均と標準偏差を確認できます。

[クラスターのプロファイル] タブでモデルを調査するには

[ヒストグラム] バーを [5] に設定します。

このモデルでは、1 つの変数に対する状態の最大数が 5 になります。
[マイニング凡例] が [属性のプロファイル] の表示を妨げている場合は、[マイニング凡例] を他の場所に移動します。
[自転車購入者率高] 列を選択し、[母集団] 列の右にドラッグします。
[自転車購入者率低] 列を選択し、[自転車購入者率高] 列の右にドラッグします。
[自転車購入者率高] 列をクリックします。

[変数] 列が、そのクラスターでの重要度順に並べ替えられます。列をスクロールし、[自転車購入者率高] クラスターの特性を確認します。たとえば、多くの場合、このクラスターに属する人は通勤距離が短い傾向にあります。
[自転車購入者率高] 列の [Age] セルをダブルクリックします。

[マイニング凡例] に詳細が表示され、顧客の年齢の範囲と平均年齢を確認できます。
[自転車購入者率低] 列を右クリックし、[列の非表示] をクリックします。

トップに戻る

[クラスターの特性] タブ

[クラスターの特性] タブでは、各クラスターの特性を詳細に検証できます。 ([クラスターのプロファイル] タブのように) すべてのクラスターの特性を比較するのではなく、一度に 1 つのクラスターを検証することができます。たとえば、[クラスター] ボックスの一覧から [自転車購入者率高] を選択した場合に、このクラスターの顧客の特性を確認できます。 [クラスターのプロファイル] ビューアーとは表示が異なりますが、結果は同じです。

注
HoldoutSeed の初期値を設定していない場合は、モデルを処理するたびに結果が変わります。詳細については、「HoldoutSeed 要素」を参照してください。

トップに戻る

[クラスターの識別] タブ

[クラスターの識別] タブでは、あるクラスターと別のクラスターを識別するための特性を確認できます。 [クラスター 1] の一覧と [クラスター 2] の一覧から 1 つずつクラスターを選択すると、それら 2 つのクラスターの相違が計算され、違いが最も大きい属性の一覧が表示されます。

[クラスターの識別] タブでモデルを調査するには

[クラスター 1] ボックスで、[自転車購入者率高] を選択します。
[クラスター 2] ボックスで、[自転車購入者率低] を選択します。
[変数] をクリックしてアルファベット順に並べ替えます。

[自転車購入者率低] と [自転車購入者率高] のクラスターの顧客の大きな違いには、年齢、車の所有、子供の数、地域などがあります。

このレッスンの次の作業

Naive Bayes モデルの検証 (基本的なデータマイニングチュートリアル)

このレッスンの前の作業

デシジョンツリーモデルの検証 (基本的なデータマイニングチュートリアル)

次の方法で共有

クラスターモデルの検証 (基本的なデータマイニングチュートリアル)

[クラスターダイアグラム] タブ

[クラスターダイアグラム] タブでモデルを調査するには

[クラスターのプロファイル] タブ

[クラスターのプロファイル] タブでモデルを調査するには

[クラスターの特性] タブ

[クラスターの識別] タブ

[クラスターの識別] タブでモデルを調査するには

このレッスンの次の作業

このレッスンの前の作業

関連項目

参照

概念

その他のリソース

次の方法で共有

クラスター モデルの検証 (基本的なデータ マイニング チュートリアル)

[クラスター ダイアグラム] タブ

[クラスター ダイアグラム] タブでモデルを調査するには

[クラスターのプロファイル] タブ

[クラスターのプロファイル] タブでモデルを調査するには

[クラスターの特性] タブ

[クラスターの識別] タブ

[クラスターの識別] タブでモデルを調査するには

このレッスンの次の作業

このレッスンの前の作業

関連項目

参照

概念

その他のリソース

クラスターモデルの検証 (基本的なデータマイニングチュートリアル)

[クラスターダイアグラム] タブ

[クラスターダイアグラム] タブでモデルを調査するには