Mingingmodellinhalt von Clusteringmodellen (Analysis Services - Data Mining)

In diesem Thema wird der Miningmodellinhalt beschrieben, der Modellen eigen ist, die den Microsoft Clustering-Algorithmus verwenden. Eine allgemeine Erklärung der Miningmodellinhalte aller Modelltypen finden Sie unter Miningmodellinhalt (Analysis Services - Data Mining).

Grundlegendes zur Struktur von Clusteringmodellen

Ein Clusteringmodell besitzt eine einfache Struktur. Jedes Modell verfügt über einen einzigen übergeordneten Knoten, der das Modell und seine Metadaten darstellt, und jeder übergeordnete Knoten enthält eine einfache Liste der Cluster (NODE_TYPE = 5). Dieser Aufbau wird in der folgenden Abbildung dargestellt.

Struktur des Modellinhalts für Clustering

Jeder untergeordnete Knoten stellt ein einzelnes Cluster dar und enthält detaillierte Statistiken zu den Attributen der in diesem Cluster enthaltenen Fälle. Hierzu zählen die Anzahl der zum Cluster gehörigen Fälle und die Verteilung der Werte, durch die sich das betreffende Cluster von anderen Clustern unterscheidet.

HinweisHinweis

Sie müssen nicht alle Knoten durchsuchen, um die Anzahl der Cluster zu ermitteln und deren Beschreibung zu erhalten. Im übergeordneten Knoten des Modells wird auch die Anzahl und eine Auflistung der Knoten verzeichnet.

Der übergeordnete Knoten enthält nützliche statistische Daten, die die tatsächliche Verteilung aller Trainingsfälle beschreiben. Diese statistischen Daten befinden sich in der geschachtelten Tabellenspalte NODE_DISTRIBUTION. Beispielsweise enthält die folgende Tabelle einige Zeilen der Tabelle NODE_DISTRIBUTION, die die Verteilung der demografischen Kundendaten aus dem Clusteringmodell TM_Clustering beschreibt, das Sie im Lernprogramm zu Data Mining-Grundlagen erstellen:

ATTRIBUTE_NAME

ATTRIBUTE_VALUE

SUPPORT

PROBABILITY

VARIANCE

VALUE_TYPE

Alter

Missing

0

0

0

1 (Missing)

Alter

44.9016152716593

12939

1

125.663453102554

3 (Continuous)

Geschlecht

Missing

0

0

0

1 (Missing)

Geschlecht

W

6350

0.490764355823479

0

4 (Discrete)

Geschlecht

M

6589

0.509235644176521

0

4 (Discrete)

Aus diesen Ergebnissen geht hervor, dass 12.939 Fälle zur Erstellung des Modells verwendet wurden, dass das Verhältnis zwischen männlichen und weiblichen Kunden etwa 50:50 war und dass das durchschnittliche Alter 44 Jahre betrug. Die beschreibenden Statistikdaten unterscheiden sich, je nachdem, ob das berechnete Attribut einen kontinuierlichen numerischen Datentyp oder einen diskreten Werttyp aufweist, wie beispielsweise Geschlecht. Die statistischen Measures Mittelwert und Varianz werden für kontinuierliche Datentypen berechnet, während Wahrscheinlichkeit und Unterstützung für diskrete Datentypen berechnet werden.

HinweisHinweis

Die Varianz repräsentiert die Gesamtvarianz des Clusters. Wenn der Varianzwert klein ist, bedeutet dies, dass die meisten Werte der Spalte relativ nah am Mittelwert liegen. Um die Standardabweichung zu erhalten, berechnen Sie die Quadratwurzel der Varianz.

Beachten Sie, dass jedes Attribut den Werttyp Missing enthält, der anzeigt, in wie vielen Fällen kein Wert für das Attribut gegeben war. Fehlende Daten können signifikant sein und die Berechnungen je nach Datentyp auf verschiedene Weise beeinflussen. Weitere Informationen hierzu finden Sie unter Fehlende Werte (Analysis Services - Data Mining).

Modellinhalt eines Clusteringmodells

In diesem Abschnitt werden nur diejenigen Spalten des Miningmodellinhalts detaillierter und anhand von Beispielen erläutert, die für Clusteringmodelle relevant sind.

Informationen zu den allgemeinen Spalten im Schemarowset, z. B. MODEL_CATALOG und MODEL_NAME, finden Sie unter Miningmodellinhalt (Analysis Services - Data Mining).

  • MODEL_CATALOG
    Name der Datenbank, in der das Modell gespeichert wird

  • MODEL_NAME
    Name des Modells

  • ATTRIBUTE_NAME
    Ist in Clusteringmodellen immer leer, da es in diesem Modell kein vorhersagbares Attribut gibt.

  • NODE_NAME
    Entspricht immer NODE_UNIQUE_NAME.

  • NODE_UNIQUE_NAME
    Ein innerhalb des Modells eindeutiger Bezeichner für den Knoten. Dieser Wert kann nicht geändert werden.

  • NODE_TYPE
    Ein Clusteringmodell gibt die folgenden Knotentypen aus:

    Knoten-ID und Name

    Beschreibung

    1 (Model)

    Stammknoten des Modells

    5 (Cluster)

    Enthält die Anzahl der im Cluster enthaltenen Fälle, die Merkmale der im Cluster enthaltenen Fälle und Statistiken, welche die Werte des Clusters beschreiben.

  • NODE_CAPTION
    Ein beschreibender Name, der angezeigt wird. Wenn Sie ein Modell erstellen, wird der Wert von NODE_UNIQUE_NAME automatisch als Beschriftung verwendet. Sie können den Wert von NODE_CAPTION jedoch im Programmcode oder im Viewer ändern, um den Anzeigenamen des Clusters zu aktualisieren.

    HinweisHinweis

    Wenn Sie das Modell erneut verarbeiten, werden alle Namensänderungen durch die neuen Werte überschrieben. Die Namen können nicht im Modell gespeichert werden, und Sie können Änderungen in der Clustermitgliedschaft nicht über verschiedene Versionen eines Modells hinweg verfolgen.

  • CHILDREN_CARDINALITY
    Eine Schätzung der Anzahl untergeordneter Elemente des Knotens.

    Übergeordneter Knoten   Gibt die Anzahl von Clustern im Modell an.

    Clusterknoten   Stets 0.

  • PARENT_UNIQUE_NAME
    Der eindeutige Name des dem Knoten übergeordneten Knotens.

    Übergeordneter Knoten   Stets NULL.

    Clusterknoten   In der Regel 000.

  • NODE_DESCRIPTION
    Eine Beschreibung des Knotens.

    Übergeordneter Knoten   Stets (Alle).

    Clusterknoten   Eine durch Trennzeichen getrennte Liste der primären Attribute, durch die sich das Cluster von anderen Clustern unterscheidet.

  • NODE_RULE
    Wird für Clusteringmodelle nicht verwendet.

  • MARGINAL_RULE
    Wird für Clusteringmodelle nicht verwendet.

  • NODE_PROBABILITY
    Die diesem Knoten zugeordnete Wahrscheinlichkeit. Übergeordneter Knoten   Stets 1.

    Clusterknoten   Die Wahrscheinlichkeit repräsentiert die zusammengesetzte Wahrscheinlichkeit der Attribute, wobei einige Anpassungen vorgenommen werden, die von dem zur Erstellung des Clusteringmodells verwendeten Algorithmus abhängen.

  • MARGINAL_PROBABILITY
    Die Wahrscheinlichkeit, mit der dieser Knoten vom übergeordneten Knoten aus erreicht wird. In einem Clusteringmodell entspricht die marginale Wahrscheinlichkeit immer der Knotenwahrscheinlichkeit.

  • NODE_DISTRIBUTION
    Eine Tabelle, die das Wahrscheinlichkeitshistogramm des Knotens enthält

    Übergeordneter Knoten   Siehe die Einführung zu diesem Thema.

    Clusterknoten   Stellt die Verteilung der Attribute und Werte für die Fälle dar, die zu diesem Cluster gehören.

  • NODE_SUPPORT
    Die Anzahl der Fälle, die diesen Knoten unterstützen. Übergeordneter Knoten   Gibt die Anzahl der Trainingsfälle für das gesamte Modell an.

    Clusterknoten   Gibt die Größe des Clusters als Anzahl von Fällen an.

    Hinweis   Wenn das Modell die K-Means-Clusteringmethode verwendet, kann jeder Fall nur zu einem Cluster gehören. Verwendet das Modell dagegen die EM-Clusteringmethode, kann jeder Fall zu verschiedenen Clustern gehören, und jedem Fall wird für jedes Cluster, zu dem er gehört, ein gewichteter Abstand zugewiesen. Daher ist bei EM-Modellen die Summe der Unterstützungswerte für ein einzelnes Cluster größer als der Unterstützungswert für das Gesamtmodell.

  • MSOLAP_MODEL_COLUMN
    Wird für Clusteringmodelle nicht verwendet.

  • MSOLAP_NODE_SCORE
    Zeigt die dem Knoten zugeordnete Bewertung an.

    Übergeordneter Knoten   Der BIC (Bayesian Information Criterion)-Wert des Clusteringmodells.

    Clusterknoten   Stets 0.

  • MSOLAP_NODE_SHORT_CAPTION
    Eine zu Anzeigezwecken verwendete Beschriftung. Diese Beschriftung kann nicht geändert werden.

    Übergeordneter Knoten    Der Typ des Modells: Clusteringmodell.

    Clusterknoten   Der Name des Clusters. Beispiel: Cluster 1.

Hinweise

Analysis Services stellt mehrere Methoden zum Erstellen eines Clusteringmodells bereit. Wenn Sie nicht wissen, mithilfe welcher Methode das Modell, mit dem Sie arbeiten, erstellt wurde, können Sie die Modellmetadaten entweder programmgesteuert über einen ADOMD-Client oder über AMO oder durch Abfragen des Data Mining-Schemarowsets abrufen. Weitere Informationen hierzu finden Sie unter Vorgehensweise: Abfragen der verwendeten Parameter, mit denen ein Miningmodell erstellt wird.

HinweisHinweis

Struktur und Inhalt des Modells werden weder durch die verwendete Clusteringmethode noch die Parameter beeinflusst.