Überprüfen von Data Mining-Modellen (Analysis Services - Data Mining)
Die Überprüfung ist der Prozess des Bewertens, welche Leistung die Miningmodelle mit echten Daten erzielen. Es ist wichtig, dass Sie Ihre Miningmodelle überprüfen, indem Sie ihre Qualität und Merkmale studieren, bevor Sie sie in einer Produktionsumgebung bereitstellen.
Es gibt mehrere Ansätze zum Bewerten der Qualität und der Eigenschaften eines Data Mining-Modells. Der erste Ansatz beinhaltet die Verwendung verschiedener Measures für die statistische Gültigkeit, um zu bestimmen, ob Probleme mit den Daten oder dem Modell vorliegen. Zweitens können Sie die Daten in Trainings- und Testsätze aufteilen, um die Genauigkeit von Vorhersagen zu testen. Schließlich können Sie betriebswirtschaftliche Experten bitten, die Ergebnisse des Data Mining-Modells zu überprüfen und zu bestimmen, ob die erkannten Muster für das gewollte Geschäftsszenario bedeutungsvoll sind. Alle diese Methoden sind in der Data Mining-Methodologie nützlich und werden beim Erstellen, Testen und Optimieren von Modellen zur Lösung eines bestimmten Problems iterativ eingesetzt.
In diesem Abschnitt werden einige grundlegende Konzepte im Zusammenhang mit der Modellqualität und die Strategien zur Modellvalidierung vorgestellt, die in Microsoft SQL Server 2008 Analysis Services zur Verfügung stehen. Eine Übersicht dazu, wie Modellüberprüfungen in den größeren Data Mining-Prozess eingebunden werden können, finden Sie unter Data Mining-Projekte (Analysis Services – Data Mining).
Kriterien für das Messen von Data Mining-Modellen
Die meisten Methoden zur Überprüfung eines Data Mining-Modells beantworten Geschäftsfragen nicht direkt, sondern stellen die Metriken zur Verfügung, die als Grundlage einer Geschäfts- oder Entwicklungsentscheidung dienen werden können. Es gibt keine umfassende Regel, aus der Sie ableiten können, wann ein Modell ausreichend ist oder wann ausreichend Daten vorliegen.
Data Mining-Measures lassen sich im Allgemeinen den Kategorien Genauigkeit, Zuverlässigkeit und Nützlichkeit zuteilen.
Genauigkeit, Zuverlässigkeit und Nützlichkeit
Die Genauigkeit ist ein Maß, das besagt, wie gut das Modell ein Ergebnis mit den Attributen der Daten korreliert, die bereitgestellt wurden. Es gibt verschiedenen Measures für die Genauigkeit, die jedoch alle von den verwendeten Daten abhängig sind. In der Praxis können Werte fehlen oder ungenau sein, oder die Daten können durch mehrere Prozesse verändert worden sein. Insbesondere in der Untersuchungs- und Entwicklungsphase kann es sein, dass eine bestimmte Menge an Fehlern in den Daten akzeptiert wird, insbesondere wenn Daten mit relativ einheitlichen Merkmalen vorliegen. Beispielsweise kann ein Modell, mit dem der Umsatz einer bestimmten Niederlassung anhand der vergangenen Umsätze vorhergesagt wird, auch dann stark korreliert und sehr genau sein, wenn die betreffende Niederlassung durchgängig eine falsche Buchhaltungsmethode verwendet hat. Deshalb müssen Genauigkeitsmaße durch Bewertungen der Zuverlässigkeit ausgeglichen werden.
Durch die Zuverlässigkeit wird bewertet, wie sich ein Data Mining-Modell bei Anwendung auf unterschiedliche Datasets verhält. Ein Data Mining-Modell íst zuverlässig, wenn es unabhängig von den bereitgestellten Testdaten die gleichen Typen von Vorhersagen erzeugt oder die gleichen Arten von Mustern findet. Beispielsweise würde sich das Modell, das für die Niederlassung erzeugt wurde, der die falsche Buchhaltungsmethode verwendete, nicht gut auf andere Niederlassungen verallgemeinern lassen, und daher wäre es nicht zuverlässig.
Die Nützlichkeit schließt verschiedene Metriken ein, aus denen hervorgeht, ob das Modell nützliche Informationen liefert. Beispielsweise kann ein Data Mining-Modell, das den Standort einer Niederlassung mit dem Umsatz korreliert, sowohl genau als auch zuverlässig, aber nicht nützlich sein, weil sich dieses Ergebnis nicht dadurch verallgemeinern lässt, dass dem gleichen Standort weitere Niederlassungen hinzugefügt werden. Darüber hinaus beantwortet es die grundlegende Geschäftsfrage nicht, warum an bestimmten Standorten höhere Umsätze erzielt werden. Es kann sich auch herausstellen, dass ein anscheinend erfolgreiches Modell in Wirklichkeit bedeutungslos ist, weil es auf Kreuzkorrelationen der Daten basiert.
Microsoft Data Mining-Framework
CRISP-DM ist eine bekannte Methode, die detailliert die zur Definition, Entwicklung und Implementierung eines Data Mining-Projekts auszuführenden Schritte beschreibt. Allerdings ist CRISP-DM ein theoretischer Rahmen, der keine konkreten Anweisungen zur Festlegung des Projektumfangs und Terminplans bereitstellt. Um den besonderen Anforderungen von Benutzern aus dem betriebswirtschaftlichen Bereich besser zu entsprechen, die am Data Mining interessiert sind, aber nicht wissen, wo sie mit der Planung beginnen sollen, und um besser auf die Bedürfnisse von Entwicklern einzugehen, die zwar Erfahrungen in der .NET-Anwendungsentwicklung haben, für die das Data Mining aber Neuland ist, hat Microsoft eine Methode zur Implementierung eines Data Mining-Projekts entwickelt, die ein umfassendes Bewertungssystem beinhaltet.
Weitere Informationen finden Sie auf der Seite Microsoft Data Mining Resources.
Ansätze zur Miningmodellüberprüfung in SQL Server Analysis Services
SQL Server 2008 unterstützt mehrere Ansätze zur Validierung von Data Mining-Lösungen, die alle Phasen der Data Mining-Entwicklungsmethoden unterstützen.
Partitionieren der Daten in Trainings- und Testsätze
Das Partitionieren von Daten in Trainings- und Testsätze ist eine bewährte Technik, Daten auf eine Evaluierung vorzubereiten. Ein Teil der Daten aus dem Trainingsdatensatz werden für Tests reserviert, und die übrigen Daten werden zu Trainingszwecken verwendet. Nachdem das Modell vollständig ist, wird es verwendet, um Vorhersagen für den Testsatz zu erstellen. Weil die Daten im Testsatz zufällig aus den gleichen Daten ausgewählt wurden, die zu Trainingszwecken verwendet werden, werden die aus den Tests abgeleiteten Genauigkeitsmaße wahrscheinlich weniger von Diskrepanzen innerhalb der Daten beeinflusst und spiegeln daher die Merkmale des Modells besser wider.
Weitere Informationen finden Sie unter Partitionieren von Daten in Trainings- und Testsätze (Analysis Services - Data Mining).
Übergreifende Überprüfung von Miningmodellen
Mithilfe der übergreifenden Überprüfung können Sie eine Miningstruktur in Querschnitte partitionieren und mehrere Modelle für die Querschnitte erstellen, um die Gültigkeit des gesamten Datasets zu testen. Analysis Services erzeugt dann detaillierte Genauigkeitsmetriken für jede Partition. Mithilfe dieser Daten können Sie die Qualität eines einzelnen Modells verbessern oder das Modell finden, das sich für einen bestimmten Satz von Daten am besten eignet.
Weitere Informationen finden Sie unter Übergreifende Überprüfung (Analysis Services - Data Mining).
Diagramme der Data Mining-Modellgenauigkeit
Microsoft SQL Server Analysis Services stellt Werkzeuge zur Verfügung, mit denen Sie die Vorhersagegenauigkeit grafisch darstellen, das Modell mit neuen oder vorhandenen Daten testen oder mehrere Modelle in Diagrammen und Berichten vergleichen können.
Ein Prognosegütediagramm ist eine Methode zur visuellen Darstellung der Verbesserung, die verglichen mit dem Anstellen bloßer Vermutungen aus dem Einsatz eines Data Mining-Modells resultiert. Sie können auch Gewinndiagramme, in denen finanzielle Gewinne oder Kosten mit dem Miningmodell verknüpft werden, und Punktdiagramme für Regressionsmodelle erstellen. Eine Klassifikationsmatrix ist eine Methode, zutreffende und falsche Vermutungen in eine Tabelle einzufügen und zu sortieren, sodass Sie mühelos messen können, wie genau das Modell den Zielwert vorhersagt.
Weitere Informationen finden Sie unter Tools zum Auswerten der Modellgenauigkeit (Analysis Services - Data Mining)
Sie können Modelle auch filtern, um unterschiedliche Kombinationen derselben Quelldaten auf verschiedene Weise zu trainieren und zu testen. Weitere Informationen finden Sie unter Messen der Genauigkeit von Miningmodellen (Analysis Services Data Mining).
Durchsuchen und Abfragen von Modellinhalt und Fällen
Analysis Services stellt einen Satz von Data Mining-Viewer zum Durchsuchen und Erforschen des Modells bereit. Sie können auch Inhaltsabfragen erstellen, die ausführliche Informationen zum Modell bereitstellen und es Ihnen erleichtern, unerwartete Probleme in der Vorgehensweise oder den Daten zu erkennen. Wenn Sie mithilfe der Data-Mining-Erweiterungen (Data Mining Extensions, DMX) Inhaltsabfragen erstellen, können Sie statistische Daten zu den vom Miningmodell erkannten Mustern erhalten oder Fälle abrufen, die bestimmte vom Modell erkannte Muster unterstützen. Durch die Verwendung von Drillthrough können Sie Details der zugrundeliegenden Miningstruktur darstellen, um Detaildaten zu suchen oder zu präsentieren, die nicht in das Modell aufgenommen wurden, oder um in den Daten gefundene Muster zu bearbeiten.
Weitere Informationen zum Abfragen des Modellinhalts finden Sie unter Abfragen von Data Mining-Modellen (Analysis Services - Data Mining).
Weitere Informationen zu Inhaltstypen finden Sie unter Anzeigen eines Data Mining-Modells.
Weitere Informationen zum Interpretieren des Modellinhalts für bestimmte Algorithmen finden Sie unter Data Mining-Algorithmen (Analysis Services - Data Mining).