Verwenden von Integration Services mit Data Mining
Data Mining wird oft als das Extrahieren gültiger, authentischer und aussagefähiger Informationen aus großen Datenbanken beschrieben. Data Mining ist demnach ein Prozess, bei dem Muster und Trends in den vorhandenen Daten ausfindig gemacht werden. Microsoft SQL ServerAnalysis Services stellt leistungsstarke Data Mining-Funktionen und -Tools zum Extrahieren und Analysieren dieser Muster bereit. Integration Services bietet eine Reihe von Komponenten, die beim Verwalten und Abfragen dieser Data Mining-Modelle hilfreich sind.
Weitere Informationen zu diesen Data Mining-Features in SQL ServerAnalysis Services finden Sie unter Übersicht (Analysis Services - Data Mining) und Data Mining-Projekte (Analysis Services - Data Mining).
Hinweis |
---|
Einige der in diesem Thema beschriebenen Integration Services-Komponenten sind nur in der Enterprise oder Developer Edition von SQL Server verfügbar. |
Verbindungs-Manager
Bei einem Verbindungs-Manager handelt es sich um eine logische Darstellung einer Verbindung mit einer Datenquelle. Sie können den Verbindungs-Manager von Analysis Services zum Herstellen einer Verbindung mit einer Analysis Services-Datenbank verwenden, in der Mining-Strukturen und -Modelle gespeichert werden. Alle in diesem Thema beschriebenen Tasks und Datenflusskomponenten erfordern einen Verbindungs-Manager von Analysis Services.
Analysis Services-Verbindungs-Manager
Mit einem Analysis Services-Verbindungs-Manager kann ein Paket eine Verbindung mit einem Server herstellen, auf dem eine Analysis Services-Datenbank ausgeführt wird, oder mit einem Analysis Services-Projekt, das den Zugriff auf Mining-Strukturen und -Modellen ermöglicht. Das Herstellen einer Verbindung mit einem Analysis Services-Projekt ist nur beim Entwickeln von Paketen in Business Intelligence Development Studio möglich. Zur Laufzeit stellen Pakete eine Verbindung mit dem Server und der Datenbank her, für den bzw. für die Sie Analysis Services bereitgestellt haben.
Weitere Informationen finden Sie unter Analysis Services-Verbindungs-Manager.
Tasks
Bei Tasks handelt es sich um Ablaufsteuerungselemente, mit denen Arbeitseinheiten definiert werden, die in einem Paket ausgeführt werden. Sie können die folgenden Tasks zum Erstellen oder Ändern von Data Mining-Strukturen oder -Modellen sowie zum Verarbeiten oder Abfragen eines Modells verwenden.
DDL ausführen (Analysis Services-Task)
Mit dem Analysis Services-Task DLL ausführen werden DDL-Abfragen (Data Definition Language, Datendefinitionssprache) ausgeführt, die Mining-Strukturen oder -Modelle erstellen, löschen oder ändern können. Die DDL-Anweisungen werden in Analysis Services als Scripting Language (ASSL) dargestellt und in einen XMLA-Befehl (XML for Analysis) eingebunden.
Weitere Informationen zu diesem Task finden Sie unter DDL ausführen (Analysis Services-Task). Weitere Informationen zum Erstellen und Ändern von Analysis Services-Objekten mithilfe von XMLA finden Sie unter Erstellen und Ändern von Objekten (XMLA).
Analysis Services-Verarbeitungstask
Mit dem Analysis Services-Verarbeitungstask wird die Verarbeitung von Analysis Services-Objekten, wie Mining-Modelle, automatisiert.
Weitere Informationen zu diesem Task finden Sie unter Analysis Services-Verarbeitungstask. Weitere Informationen zum Verarbeiten von Analysis Services-Objekten finden Sie unter Verarbeiten von Analysis Services-Objekten.
Data Mining-Abfragetask
Mit dem Data Mining-Abfragetask werden Vorhersageabfragen basierend auf in Analysis Services erstellten Data Mining-Modellen ausgeführt. Die Vorhersageabfrage erstellt eine neue Vorhersage für neue Daten mithilfe des Mining-Models und speichert die Ausgabe in eine Tabelle oder in Tabellen.
Weitere Informationen zu diesem Task finden Sie unter Data Mining-Abfragetask. Weitere Informationen zum Abfragen eines Data Mining-Modells mithilfe von DMX finden Sie unter Erstellen von DMX-Vorhersageabfragen.
Datenflusstransformationen
Bei Transformationen handelt es sich um die Komponenten im Datenfluss eines Pakets, mit denen Daten aggregiert, zusammengeführt, verteilt und geändert werden.
Transformation für Data Mining-Abfragen
Die Transformation für Data Mining-Abfragen führt Vorhersageabfragen für Data Mining-Modelle aus. Diese Transformation enthält einen Abfrage-Generator zum Erstellen von DMX-Abfragen (Data Mining Extensions). Mit dem Abfrage-Generator können Sie mithilfe der DMX-Sprache benutzerdefinierte Anweisungen erstellen, um Transformationseingabedaten mit einem vorhandenen Miningmodell zu vergleichen. Im Gegensatz zu Data Mining-Abfragetasks, die ihre Ausgabe direkt in eine Tabelle oder in Tabellen speichern, stellt die Data Mining-Abfragetransformation ihre Ausgabe zur Verfügung, um für Komponenten im Datenfluss des Pakets einen Downstream auszuführen.
Weitere Informationen zu dieser Transformation finden Sie unter Transformation für Data Mining-Abfragen. Weitere Informationen zum Abfragen eines Data Mining-Modells mithilfe von DMX finden Sie unter Erstellen von DMX-Vorhersageabfragen.
Datenflussziele
Die Ziele sind die Datenflusskomponenten, die die Daten von einem Datenfluss in verschiedene Arten von Datenquellen laden, oder ein Dataset im Arbeitsspeicher erstellen.
Ziel des Data Mining-Modelltrainings
Das Ziel des Data Mining-Modelltrainings trainiert Data Mining-Modelle, indem die Daten, die vom Ziel empfangen werden, über Data Mining-Modellalgorithmen übergeben werden. Während des Trainingsprozesses, berechnet der Algorithmus die Muster und Beziehungen zwischen den Elementen in den Daten. Nachdem Sie ein neues Miningmodell trainiert haben, können Sie das Modell zum Ausführen von Vorhersageabfragen verwenden.
Weitere Informationen finden Sie unter Ziel des Data Mining-Modelltrainings.
Andere Integration Services-Komponenten für Data Mining
Integration Services weist viele andere Komponenten auf, die möglicherweise als Teil der Data Mining-Lösung hilfreich sind.
Um Data Mining-Modelle mit einer Teilmenge der Daten zu trainieren oder zu testen, können Sie Folgendes verwenden:
**Transformation für Zeilenstichprobe. **Kopiert nur eine Teilmenge der Zeilen, die auf einer von Ihnen angegebenen Anzahl basieren. Weitere Informationen finden Sie unter Transformation für Zeilenstichproben.
**Transformation für Prozentwertstichprobe. **Kopiert nur eine Teilmenge der Zeilen auf einen Prozentsatz, die auf einer von Ihnen angegebenen Anzahl basieren. Weitere Informationen finden Sie unter Transformation für Prozentwert-Stichproben.
Zum Reinigen der Daten durch Entfernen der Duplikate und durch Standardisierung der Daten können Sie Folgendes verwenden:
**Transformation für Sortierung. **Entfernt doppelte Zeilen beim Sortieren der Daten. Weitere Informationen finden Sie unter Transformation zum Sortieren.
**Transformation für Fuzzygruppierung. **Gruppiert Zeilen, die mehr auf einer Gleichheit basieren als auf einer genauen Übereinstimmung. Weitere Informationen finden Sie unter Transformation für Fuzzygruppierung und Vorgehensweise: Identifizieren ähnlicher Datenzeilen mithilfe der Transformation für Fuzzygruppierung.
**Transformation für Fuzzysuche. **Sucht nach einer Übereinstimmung in der Verweistabelle, die mehr auf einer Gleichheit basiert als auf einer genauen Übereinstimmung. Weitere Informationen finden Sie unter Transformation für Fuzzysuche.
Zum Ausführen von Text Mining können Sie Folgendes verwenden:
**Transformation für Ausdrucksextrahierung. **Erstellt eine Tabelle dieser entdeckten Ausdrücke in der Quelle nach dem Filtern der standardmäßigen und benutzerdefinierten Füllwörter. Weitere Informationen finden Sie unter Transformation für Ausdrucksextrahierung.
**Transformation für Ausdruckssuche. **Vergleicht Ausdrücke in der Eingabe mit Ausdrücken in einer Referenztabelle. Weitere Informationen finden Sie unter Transformation für Ausdruckssuche.
|