Naive Bayes モデルのマイニングモデルコンテンツ (Analysis Services - データマイニング)

[アーティクル]
07/30/2013

このトピックでは、Microsoft Naive Bayes アルゴリズムを使用するモデルに固有のマイニングモデルコンテンツについて説明します。すべてのモデルの種類に共通の統計および構造を解釈する方法の説明、およびマイニングモデルコンテンツに関連する用語の一般的な定義については、「マイニングモデルコンテンツ (Analysis Services - データマイニング)」を参照してください。

Naive Bayes モデルの構造について

Naive Bayes モデルには、モデルとそのメタデータを表す 1 つの親ノードがあり、その親ノードの下に、選択した予測可能な属性を表す任意の数の独立したツリーがあります。属性のツリーに加え、各モデルに 1 つ、トレーニングケースのセットに関する説明的な統計情報を提供するマージナル統計ノード (NODE_TYPE = 26) が含まれます。詳細については、「マージナル統計ノードの情報」を参照してください。

予測可能な属性および値ごとに、モデルでは、さまざまな入力列が特定の予測可能な属性の結果にどのように影響したかを示す情報を含むツリーが出力されます。各ツリーには、予測可能な属性とその値 (NODE_TYPE = 9) が含まれ、さらに入力属性を表す一連のノード (NODE_TYPE = 10) が含まれます。一般に入力属性には複数の値が含まれるため、各入力属性 (NODE_TYPE = 10) には、属性の特定の状態にそれぞれ対応する複数の子ノード (NODE_TYPE = 11) を含めることができます。

注
Naive Bayes モデルでは、連続するデータ型が許可されないため、入力列のすべての値が不連続値または分離された値として処理されます。値を分離する方法は指定できます。詳細については、「マイニングモデルでの列の分離の変更」を参照してください。

naive bayes のモデルコンテンツの構造

Naive Bayes モデルのモデルコンテンツ

ここでは、マイニングモデルコンテンツの列のうち、Naive Bayes モデルに関連する列についてのみ詳細と例を紹介します。

ここに記載されていないスキーマ行セットの汎用の列 (MODEL_CATALOG や MODEL_NAME など) の詳細や、マイニングモデルの用語の説明については、「マイニングモデルコンテンツ (Analysis Services - データマイニング)」を参照してください。

MODEL_CATALOG
モデルが格納されているデータベースの名前。
MODEL_NAME
モデルの名前。
ATTRIBUTE_NAME
このノードに対応する属性の名前。

モデルルート 予測可能な属性の名前。

マージナル統計 適用なし。

**予測可能な属性**   予測可能な属性の名前。

**入力属性**   入力属性の名前。

**入力属性の状態**    入力属性の名前のみ。 状態を取得するには、MSOLAP\_NODE\_SHORT\_CAPTION を使用します。

NODE_NAME
ノードの名前。

この列には NODE_UNIQUE_NAME と同じ値が格納されます。

ノードの名前付け規則の詳細については、「ノードの名前と ID の使用」を参照してください。
NODE_UNIQUE_NAME
ノードの一意の名前。一意の名前は、ノード間のリレーションシップに関する情報を示す規則に従って割り当てられます。ノードの名前付け規則の詳細については、「ノードの名前と ID の使用」を参照してください。

NODE_TYPE
Naive Bayes モデルでは、次のノードの種類が出力されます。

ノードの種類の ID	説明
26 (マージナル統計ノード)	モデルのトレーニングケースのセット全体を表す統計が含まれます。
9 (予測可能な属性)	予測可能な属性の名前が含まれます。
10 (入力属性)	入力属性列の名前、および属性の値を含む子ノードが含まれます。
11 (入力属性の状態)	特定の出力属性と対になったすべての入力属性の値または分離された値が含まれます。

NODE_CAPTION
ノードに関連付けられたラベルまたはキャプション。このプロパティは、主に表示を目的としています。

モデルルート 空白。

マージナル統計 空白。

**予測可能な属性**   予測可能な属性の名前。

**入力属性**   予測可能な属性と現在の入力属性の名前。 例 :

Bike Buyer -\> Age

**入力属性の状態**   予測可能な属性と現在の入力属性の名前、および入力値。 例 :

Bike Buyer -\> Age = Missing

CHILDREN_CARDINALITY
ノードが持つ子の数。

モデルルート モデル内の予測可能な属性の数に 1 (マージナル統計ノードの分) を加算した数。

マージナル統計 定義上、子はありません。

予測可能な属性 現在の予測可能な属性に関連付けられた入力属性の数。

**入力属性**   現在の入力属性の不連続値または分離された値の数。

**入力属性の状態**   常に 0 です。

PARENT_UNIQUE_NAME
親ノードの一意の名前。親ノードと子ノードの関連付けの詳細については、「ノードの名前と ID の使用」を参照してください。
NODE_DESCRIPTION
ノードのキャプションと同じです。
NODE_RULE
ノードのキャプションの XML 表現。
MARGINAL_RULE
ノードルールと同じです。
NODE_PROBABILITY
このノードに関連付けられている確率。

モデルルート 常に 0 です。

マージナル統計 常に 0 です。

予測可能な属性 常に 1 です。

**入力属性**   常に 1 です。

**入力属性の状態**   現在の値の確率を表す小数値。 親入力属性ノードの下にあるすべての入力属性の状態の値を合計すると 1 になります。

MARGINAL_PROBABILITY
ノードの確率と同じです。
NODE_DISTRIBUTION
ノードの確率ヒストグラムが含まれているテーブル。詳細については、「NODE_DISTRIBUTION テーブル」を参照してください。
NODE_SUPPORT
このノードをサポートするケースの数。

モデルルート トレーニングデータ内のすべてのケースの数。

マージナル統計 常に 0 です。

予測可能な属性 トレーニングデータ内のすべてのケースの数。

**入力属性**   トレーニング データ内のすべてのケースの数。

**入力属性の状態**   トレーニング データ内のケースのうち、この特定の値のみを含むケースの数。

MSOLAP_MODEL_COLUMN
表示目的で使用されるラベル。通常、ATTRIBUTE_NAME と同じです。
MSOLAP_NODE_SCORE
モデル内の属性または値の重要度を表します。

モデルルート 常に 0 です。

マージナル統計 常に 0 です。

予測可能な属性 常に 0 です。

**入力属性**   現在の予測可能な属性との関連における現在の入力属性の興味深さのスコア。

**入力属性の状態**   常に 0 です。

MSOLAP_NODE_SHORT_CAPTION
列の名前または値を表すテキスト文字列。

モデルルート 空白。

マージナル統計 空白。

予測可能な属性 予測可能な属性の名前。

**入力属性**   入力属性の名前。

**入力属性の状態**   入力属性の値または分離された値。

ノードの名前と ID の使用

Naive Bayes モデルのノードの名前付けでは、モデル内の情報間のリレーションシップをわかりやすくするために、ノードの種類に関する追加情報が提供されます。次の表に、さまざまなノードの種類に割り当てられる ID の規則を示します。

ノードの種類	ノード ID の規則
モデルルート (1)	常に 0 です。
マージナル統計ノード (26)	任意の ID 値。
予測可能な属性 (9)	10000000 で始まる 16 進数。例 :100000001、10000000b
入力属性 (10)	2 つの部分で構成される 16 進数。最初の部分は常に 20000000 であり、2 番目の部分は関連する予測可能な属性の 16 進数の識別子で始まります。例 :20000000b00000000 この場合、関連する予測可能な属性は 10000000b です。
入力属性の状態 (11)	3 つの部分で構成される 16 進数。最初の部分は常に 30000000 であり、2 番目の部分は関連する予測可能な属性の 16 進数の識別子で始まります。3 番目の部分は値の識別子を表します。例 :30000000b00000000200000000 この場合、関連する予測可能な属性は 10000000b です。

これらの ID を使用すると、入力属性と状態を予測可能な属性に関連付けることができます。たとえば、次のクエリでは、TM_NaiveBayes というモデルについて、入力属性と予測可能な属性の考えられる組み合わせを表すノードの名前とキャプションが返されます。

SELECT NODE_NAME, NODE_CAPTION
FROM TM_NaiveBayes.CONTENT
WHERE NODE_TYPE = 10

期待される結果 :

NODE_NAME	NODE_CAPTION
20000000000000001	Bike Buyer -> Commute Distance
20000000000000002	Bike Buyer -> English Education
20000000000000003	Bike Buyer -> English Occupation
20000000000000009	Bike Buyer -> Marital Status
2000000000000000a	Bike Buyer -> Number Children At Home
2000000000000000b	Bike Buyer -> Region
2000000000000000c	Bike Buyer -> Total Children

また、親ノードの ID を使用して子ノードを取得できます。次のクエリでは、Marital Status 属性の値を含むノードを、各ノードの確率と共に取得します。

SELECT NODE_NAME, NODE_CAPTION, NODE_PROBABILITY
FROM TM_NaiveBayes.CONTENT
WHERE NODE_TYPE = 11
AND [PARENT_UNIQUE_NAME] = '20000000000000009'

注
PARENT_UNIQUE_NAME という列の名前は、同名の予約済みキーワードと区別するために角かっこで囲む必要があります。

期待される結果 :

NODE_NAME	NODE_CAPTION	NODE_PROBABILITY
3000000000000000900000000	Bike Buyer -> Marital Status = Missing	0
3000000000000000900000001	Bike Buyer -> Marital Status = S	0.457504004
3000000000000000900000002	Bike Buyer -> Marital Status = M	0.542495996

NODE_DISTRIBUTION テーブル

入れ子になったテーブル列である NODE_DISTRIBUTION には、通常、ノード内の値の分布に関する統計が含まれます。 Naive Bayes モデルでは、このテーブルは次のノードに対してのみ作成されます。

ノードの種類	入れ子になったテーブルの内容
モデルルート (1)	空白。
マージナル統計ノード (24)	トレーニングデータのセット全体についてのすべての予測可能な属性および入力属性の概要情報が含まれます。
予測可能な属性 (9)	空白。
入力属性 (10)	空白。
入力属性の状態 (11)	予測可能な値と入力属性値のこの特定の組み合わせについてのトレーニングデータ内の値の分布を表す統計が含まれます。

ノード ID またはノードのキャプションを使用すると、より詳細な情報を取得できます。たとえば、次のクエリでは、値 'Marital Status = S' に関連付けられた入力属性ノードのみについて、NODE_DISTRIBUTION テーブルから特定の列を取得します。

SELECT FLATTENED NODE_CAPTION,
(SELECT ATTRIBUTE_NAME, ATTRIBUTE_VALUE, [SUPPORT], [PROBABILITY], VALUETYPE
FROM NODE_DISTRIBUTION) as t
FROM TM_NaiveBayes.content
WHERE NODE_TYPE = 11
AND NODE_CAPTION = 'Bike Buyer -> Marital Status = S'

期待される結果 :

NODE_CAPTION	t.ATTRIBUTE_NAME	t.ATTRIBUTE_VALUE	t.SUPPORT	t.PROBABILITY	t.VALUETYPE
Bike Buyer -> Marital Status = S	Bike Buyer	欠落	0	0	1
Bike Buyer -> Marital Status = S	Bike Buyer	0	3783	0.472934117	4
Bike Buyer -> Marital Status = S	Bike Buyer	1	4216	0.527065883	4

これらの結果の SUPPORT 列の値は、指定した結婚歴に当てはまる顧客のうち、自転車を購入した顧客の数を示します。 PROBABILITY 列には、このノードのみについて計算された各属性値の確率が格納されます。 NODE_DISTRIBUTION テーブルで使用される用語の一般的な定義については、「マイニングモデルコンテンツ (Analysis Services - データマイニング)」を参照してください。

マージナル統計ノードの情報

Naive Bayes モデルでは、マージナル統計ノードの入れ子になったテーブルに、トレーニングデータのセット全体の値の分布が含まれます。たとえば、次の表は、TM_NaiveBayes モデルの入れ子になった NODE_DISTRIBUTION テーブルに含まれる統計の一部を示しています。

ATTRIBUTE_NAME	ATTRIBUTE_VALUE	SUPPORT	PROBABILITY	VALUETYPE
Bike Buyer	欠落	0	0	1
Bike Buyer	0	8869	0.507263784	4
Bike Buyer	1	8615	0.492736216	4
Marital Status	欠落	0	0	1
Marital Status	S	7999	0.457504004	4
Marital Status	M	9485	0.542495996	4
Total Children	欠落	0	0	1
Total Children	0	4865	0.278254404	4
Total Children	3	2093	0.119709449	4
Total Children	1	3406	0.19480668	4

マージナル統計ノードには常に予測可能な属性とその取り得る値の説明が含まれるため、Bike Buyer 列が含まれます。表中のその他の列はすべて入力属性を表し、モデルで使用された値と共に表示されています。値は不足値、不連続値、または分離された値のみになります。

Naive Bayes モデルでは、連続属性を含めることはできないため、数値データはすべて不連続値 (VALUE_TYPE = 4) または分離された値 (VALUE_TYPE = 5) として表されます。

トレーニングデータには存在しなかった有効な値を表すために、すべての入力属性と出力属性に Missing 値 (VALUE_TYPE = 1) が追加されます。 "missing" という文字列と既定の Missing 値を区別するように注意する必要があります。詳細については、「不足値 (Analysis Services - データマイニング)」を参照してください。

次の方法で共有

Naive Bayes モデルのマイニングモデルコンテンツ (Analysis Services - データマイニング)

Naive Bayes モデルの構造について

Naive Bayes モデルのモデルコンテンツ

ノードの名前と ID の使用

NODE_DISTRIBUTION テーブル

マージナル統計ノードの情報

関連項目

概念

その他のリソース

次の方法で共有

Naive Bayes モデルのマイニング モデル コンテンツ (Analysis Services - データ マイニング)

Naive Bayes モデルの構造について

Naive Bayes モデルのモデル コンテンツ

ノードの名前と ID の使用

NODE_DISTRIBUTION テーブル

マージナル統計ノードの情報

関連項目

概念

その他のリソース

Naive Bayes モデルのマイニングモデルコンテンツ (Analysis Services - データマイニング)

Naive Bayes モデルのモデルコンテンツ