Miningstrukturen (Analysis Services - Data Mining)

In der Miningstruktur werden die Daten definiert, aus denen Miningmodelle erstellt werden. Es wird die Quelldatensicht, die Anzahl und der Typ von Spalten sowie eine optionale Partitionierung in Trainings- und Testsätze angegeben. Eine einzelne Miningstruktur kann mehrere Miningmodelle unterstützen, die die gleiche Domäne verwenden. In der folgenden Abbildung ist die Beziehung der Data Mining-Struktur zur Datenquelle und zu den dazugehörigen Data Mining-Modellen dargestellt.

Datenverarbeitung: Quelle-zu-Struktur-zu-Modell

Die Miningstruktur in der Abbildung basiert auf einer Datenquelle, die mehrere Tabellen oder Sichten enthält, die über das Feld CustomerID verknüpft sind. Eine Tabelle enthält Informationen zu Kunden, wie geografische Region, Alter, Einkommen und Geschlecht, während die dazugehörige geschachtelte Tabelle mehrere Zeilen mit Zusatzinformationen zu den einzelnen Kunden enthält, z. B. vom Kunden gekaufte Produkte. Die Abbildung zeigt, dass mehrere Modelle für eine Miningstruktur erstellt werden können und dass die Modelle unterschiedliche Spalten der Struktur verwenden können.

Modell 1   Verwendet CustomerID, Einkommen, Alter, Region und filtert die Daten nach der Region.

Modell 2   Verwendet CustomerID, Einkommen, Alter, Region und filtert die Daten nach dem Alter.

Modell 3   Verwendet CustomerID, Alter, Geschlecht und die geschachtelte Tabelle ohne Filter.

Da die Modelle unterschiedliche Spalten als Eingabe verwenden und zwei Modelle die im Modell verwendeten Daten mithilfe von Filtern zusätzlich beschränken, können die Modelle stark unterschiedliche Ergebnisse aufweisen, obwohl sie auf denselben Daten basieren. Beachten Sie, dass die Spalte CustomerID in allen Modellen erforderlich ist, da es sich um die einzige Spalte handelt, die als Fallschlüssel verwendet werden kann.

In diesem Abschnitt wird die grundlegende Architektur von Data Mining-Strukturen erläutert. Weitere Informationen zum Erstellen, Verwalten, Ändern und Anzeigen von Data Mining-Strukturen finden Sie unter Verwalten von Data Mining-Strukturen und -Modellen.

Definieren von Miningstrukturen

Zum Einrichten einer Data Mining-Struktur müssen folgende Schritte ausgeführt werden:

  • Definieren einer Datenquelle

  • Auswählen von Strukturspalten und Definieren eines Schlüssels

  • Partitionieren von Quelldaten in einen Trainingssatz und einen optionalen Testsatz

  • Verarbeiten der Struktur

Datenquellen für Miningstrukturen

Beim Definieren einer Miningstruktur können Sie Spalten verwenden, die einer vorhandenen Datenquellensicht verfügbar sind. Mithilfe einer Datenquellensicht können Sie mehrere Datenquellen miteinander verbinden und diese in der erstellten Struktur oder im Miningmodell als eine einzelne Datenquelle verwenden. Die ursprünglichen Datenquellen für Clientanwendungen nicht sichtbar.

Weitere Informationen zu Datenquellensichten finden Sie unter Datenquellensichten (Analysis Services - Mehrdimensionale Daten).

Wenn Sie mehrere Miningmodelle aus der gleichen Miningstruktur erstellen, können in den Modellen unterschiedliche Spalten aus der Struktur in unterschiedlicher Weise verwendet werden. Sie können z. B. eine einzelne Struktur erstellen und dann auf deren Grundlage separate Entscheidungsstruktur- und Clusteringmodelle erstellen, wobei in jedem Modell unterschiedliche Spalten verwendet und verschiedene Attribute vorhergesagt werden.

Die Data Mining-Struktur speichert nur die Bindungen zu den Quelldaten. Sie können eine Data Mining-Struktur auch erstellen, ohne diese an eine bestimmte Datenquelle zu binden, indem Sie die DMX-Anweisung CREATE MINING STRUCTURE (DMX) verwenden.

Miningstrukturspalten

Die Grundbausteine der Miningstruktur sind die Miningstrukturspalten, die die in der Datenquelle enthaltenen Daten beschreiben. Diese Spalten enthalten Informationen, z. B. über den Datentyp, den Inhaltstyp und die Verteilung der Daten. In der Miningstruktur sind keine Informationen über die Verwendung der Spalten für bestimmte Miningmodelle enthalten, und auch keine Informationen über den Algorithmustyp, der zum Erstellen eines Modells verwendet wird. Diese Informationen werden im Miningmodell selbst definiert.

Eine Miningstruktur kann auch geschachtelte Tabellen enthalten. Eine geschachtelte Tabelle stellt eine 1:n-Beziehung zwischen der Entität eines Falls und der damit verknüpften Attribute dar. Bei Informationen beispielsweise, die beschreiben, dass sich ein Kunde in einer Tabelle und die Einkäufe des Kunden in einer anderen Tabelle befinden, können Sie geschachtelte Tabellen verwenden, um die Informationen in einem einzelnen Fall zu kombinieren. Der Kundenbezeichner ist die Entität, und die Einkäufe sind die verknüpften Attribute. Weitere Informationen zum Verwenden von geschachtelten Tabellen finden Sie unter Geschachtelte Tabellen (Analysis Services - Data Mining).

Um in Business Intelligence Development Studio ein Data Mining-Modell zu erstellen, müssen Sie zunächst eine Data Mining-Struktur erstellen. Der Data Mining-Assistent führt Sie durch die Erstellung einer Data Mining-Struktur, die Datenauswahl und das Hinzufügen eines Miningmodells.

Wenn Sie mithilfe der Data Mining-Erweiterungen (DMX) ein Miningmodell erstellen, können Sie das Modell und die darin enthaltenen Spalten angeben. DMX erstellt dann automatisch die erforderliche Data Mining-Struktur. Weitere Informationen finden Sie unter CREATE MINING MODEL (DMX).

Weitere Informationen finden Sie unter Miningstrukturspalten.

Trainings- und Testdaten

Wenn Sie die Daten für die Miningstruktur definieren, können Sie auch angeben, dass einige Daten für Trainings- und andere für Testzwecke verwendet werden sollen. Daher ist es nicht mehr erforderlich, die Daten vor der Erstellung einer Data Mining-Struktur zu partitionieren. Sie können angeben, dass ein bestimmter Prozentsatz der Daten für Testzwecke zurückgehalten und der Rest zum Training verwendet werden soll, oder Sie können eine bestimmte Anzahl von Fällen als Testdataset angeben. Die Partitionsinformationen werden mit der Miningstruktur zwischengespeichert. Daher kann der gleiche Testsatz mit allen Modellen verwendet werden, die auf dieser Struktur basieren.

Weitere Informationen finden Sie unter Partitionieren von Daten in Trainings- und Testsätze (Analysis Services - Data Mining).

Aktivieren von Drillthrough

Sie können der Miningstruktur Spalten hinzufügen, auch wenn Sie nicht beabsichtigen, die betreffenden Spalten in einem bestimmten Miningmodell zu verwenden. Wenn Sie keine Verwendung für eine Spalte angeben, wird die Spalte bei der Analyse und Vorhersage ignoriert. Sie kann jedoch trotzdem in Abfragen verwendet werden, wenn Sie Drillthrough für das Miningmodell aktivieren. Wenn Sie über die erforderlichen Berechtigungen verfügen, können Sie z. B. einen Drillthrough von einem bestimmten Ergebnis in einem Miningmodell ausführen, um detaillierte Informationen zu den Fällen in diesem Knoten abzurufen. Sie können sogar auf Strukturspalten zugreifen, die im Modell nicht verwendet wurden.

Weitere Informationen finden Sie unter Verwenden von Drillthrough für Miningmodelle und Miningstrukturen (Analysis Services - Data Mining).

Verarbeiten von Miningstrukturen

Eine Miningstruktur ist bis zu ihrer Verarbeitung lediglich ein Metadatencontainer. Beim Verarbeiten einer Miningstruktur erstellt Analysis Services einen Cache, in dem statistische Informationen zu den Daten, Informationen zur Diskretisierung kontinuierlicher Attribute sowie weitere Informationen gespeichert werden, die später von Modellen verwendet werden. Das Miningmodell selbst speichert keine Daten, sondern verweist auf die Informationen im Cache. Wenn Sie ein Miningmodell verarbeiten, muss der Strukturcache verfügbar sein. Falls die Struktur nicht verfügbar ist, muss sie neu verarbeitet werden, bevor das Modell erstellt werden kann.

Wenn keine Daten zwischengespeichert werden sollen, können Sie die CacheMode-Eigenschaft der Miningstruktur in ClearAfterProcessing ändern. Der Cache wird dann gelöscht, nachdem alle Modelle verarbeitet wurden. Wenn Sie die CacheMode-Eigenschaft auf ClearAfterProcessing setzen, wird der Drillthrough des Miningmodells deaktiviert.

Solange die im Cache gespeicherten Daten verfügbar sind, muss die Miningstruktur nicht erneut verarbeitet werden, wenn Sie dieser ein neues Miningmodell hinzufügen. Sie können nur das Modell verarbeiten. Weitere Informationen finden Sie unter Verarbeiten von Data Mining-Objekten.

Anzeigen von Miningstrukturen

Sie können keine Viewer verwenden, um die Daten in einer Miningstruktur zu durchsuchen. In Business Intelligence Development Studio können Sie allerdings die Registerkarte Miningstruktur im Data Mining-Designer verwenden, um die Strukturspalten und deren Definitionen anzuzeigen. Weitere Informationen finden Sie unter Data Mining-Designer.

Wenn Sie die Daten in der Miningstruktur überprüfen möchten, können Sie mithilfe der Data Mining-Erweiterungen (DMX) Abfragen erstellen. So gibt zum Beispiel die Anweisung SELECT * FROM <structure>.CASES alle Daten in der Miningstruktur zurück. Zum Abrufen dieser Informationen muss die Miningstruktur verarbeitet und die Ergebnisse der Verarbeitung müssen zwischengespeichert worden sein.

Die Anweisung SELECT * FROM <model>.CASES gibt die gleichen Spalten zurück, aber nur für die Fälle in dem betreffenden Modell. Weitere Informationen finden Sie unter SELECT FROM <structure>.CASES und SELECT FROM <model>.CASES (DMX).

Verwenden von Data Mining-Modellen mit Miningstrukturen

Ein Data Mining-Modell wendet einen Miningmodellalgorithmus für die Daten an, welcher durch eine Miningstruktur dargestellt wird. Ein Miningmodell ist ein Objekt, das einer bestimmten Miningstruktur angehört. Es erbt alle Werte der durch die Miningstruktur definierten Eigenschaften. Das Modell kann alle Spalten oder eine Teilmenge der Spalten der Miningstruktur enthalten. Sie können einer Struktur mehrere Kopien einer Strukturspalte hinzufügen. Außerdem können Sie einem Modell mehrere Kopien einer Strukturspalte hinzufügen und dann den einzelnen Strukturspalten im Modell verschiedene Namen, so genannte Aliase, zuweisen. Weitere Informationen zum Zuweisen von Aliasen zu Strukturspalten finden Sie unter Gewusst wie: Erstellen eines Alias für eine Modellspalte und Festlegen von Eigenschaften in einem Miningmodell.

Weitere Informationen zur Architektur von Data Mining-Modellen finden Sie unter Miningmodelle (Analysis Services - Data Mining).