Microsoft Logistic Regression-Algorithmus
Der Microsoft Logistic Regression-Algorithmus ist eine Variation des Microsoft Neural Network-Algorithmus, bei dem der HIDDEN_NODE_RATIO-Parameter auf 0 festgelegt ist. Bei dieser Einstellung wird ein neuronales Netzwerkmodell erstellt, in dem keine verborgene Ebene enthalten ist; daher ist diese Einstellung ein Äquivalent für die logistische Regression.
Angenommen, die vorhersagbare Spalte enthält nur zwei Status, und Sie möchten dennoch eine Regressionsanalyse durchführen, indem Sie Eingabespalten mit der Wahrscheinlichkeit, dass die vorhersagbare Spalte einen bestimmten Status haben wird, in Beziehung setzen. Im folgenden Diagramm werden die resultierenden Ergebnisse dargestellt, wenn Sie die Werte 1 und 0 den Status der vorhersagbaren Spalte zuweisen, die Wahrscheinlichkeit berechnen, dass die Spalte einen bestimmten Status haben wird, und eine lineare Regression für eine Eingabevariable durchführen.
Die X-Achse enthält die Werte einer Eingabespalte. Die Y-Achse enthält die Wahrscheinlichkeiten, dass die vorhersagbare Spalte den einen oder anderen Status haben wird. Das Problem dabei ist, dass die lineare Regression die Spalte nicht auf einen Wert zwischen 0 und 1 einschränkt, obwohl dies die maximalen und minimalen Werte der Spalte sind. Um dieses Problem zu lösen, kann die logistische Regression ausgeführt werden. Anstatt eine gerade Linie zu erstellen, erstellt die logistische Regressionsanalyse eine Kurve in Form eines "S", die die maximalen und minimalen Einschränkungen enthält. Das folgende Diagramm stellt z. B. die resultierenden Ergebnisse dar, wenn Sie eine logistische Regression für die im vorigen Beispiel verwendeten Daten durchführen.
Beachten Sie, dass die Kurve nicht über den Wert 1 bzw. nicht unter den Wert 0 geht. Sie können die logistische Regression verwenden, um zu beschreiben, welche Eingabespalten zur Statusbestimmung der vorhersagbaren Spalte wichtig sind.
Verwendung des Algorithmus
Verwenden Sie den Microsoft-Viewer für neuronale Netzwerke, um ein lineares Regressionsminingmodell zu durchsuchen.
Ein logistisches Regressionsmodell muss eine Schlüsselspalte, mindestens eine Eingabespalte und mindestens eine vorhersagbare Spalte enthalten.
Der Microsoft Logistic Regression-Algorithmus unterstützt bestimmte Inhaltstypen für Eingabespalten und für vorhersagbare Spalten sowie Modellierungsflags, die in der folgenden Tabelle aufgelistet sind.
Inhaltstypen für Eingabespalten |
Continuous, Cyclical, Discrete, Discretized, Key, Table und Ordered |
Inhaltstypen für vorhersagbare Spalten |
Continuous, Cyclical, Discrete, Discretized und Ordered |
Modellierungsflags |
MODEL_EXISTENCE_ONLY und NOT NULL |
Alle Microsoft-Algorithmen unterstützen gemeinsam eine Reihe von Funktionen. Allerdings unterstützt der Microsoft Logistic Regression-Algorithmus zusätzliche Funktionen, die in der folgenden Tabelle aufgelistet sind.
|
Eine Liste der Funktionen, die von allen Microsoft-Algorithmen gemeinsam verwendet werden, finden Sie unter Data Mining-Algorithmen. Weitere Informationen zum Verwenden dieser Funktionen finden Sie unter Data Mining-Erweiterungen (DMX) - Funktionsreferenz.
Modelle, die den Microsoft Logistic Regression-Algorithmus verwenden, unterstützen keinen Drillthrough bzw. keine Data Mining-Dimensionen, da die Struktur der Knoten im Miningmodell nicht unbedingt den zugrunde liegenden Daten direkt entsprechen.
Der Microsoft Logistic Regression-Algorithmus unterstützt mehrere Parameter, die Auswirkungen auf die Leistung und die Genauigkeit des resultierenden Miningmodells haben. In der folgenden Tabelle werden die einzelnen Parameter beschrieben.
Parameter | Beschreibung |
---|---|
HOLDOUT_PERCENTAGE |
Gibt den Prozentsatz von Trainingsfällen an, die zum Berechnen des Fehlers für auszunehmende Daten verwendet werden. HOLDOUT_PERCENTAGE dient als Teil des Beendigungskriteriums beim Trainieren des Miningmodells. Die Standardeinstellung ist 30. |
HOLDOUT_SEED |
Gibt eine Zahl an, die als Ausgangswert für den Pseudozufallszahlen-Generator zum zufälligen Generieren von auszunehmenden Daten verwendet wird. Wenn HOLDOUT_SEED auf 0 festgelegt ist, generiert der Algorithmus den Ausgangswert basierend auf dem Modellnamen; so wird sichergestellt, dass der Inhalt bei erneuter Verarbeitung des Modells gleich bleibt. Die Standardeinstellung ist 0. |
MAXIMUM_INPUT_ATTRIBUTES |
Definiert die Anzahl von Eingabeattributen, die der Algorithmus verarbeiten kann, bevor die Featureauswahl aufgerufen wird. Legen Sie diesen Wert auf 0 fest, um die Featureauswahl zu deaktivieren. Die Standardeinstellung ist 255. |
MAXIMUM_OUTPUT_ATTRIBUTES |
Definiert die Anzahl von Ausgabeattributen, die der Algorithmus verarbeiten kann, bevor die Featureauswahl aufgerufen wird. Legen Sie diesen Wert auf 0 fest, um die Featureauswahl zu deaktivieren. Die Standardeinstellung ist 255. |
MAXIMUM_STATES |
Gibt die maximale Anzahl der vom Algorithmus unterstützten Attributstatus an. Wenn die Anzahl der Status eines Attributs größer als die maximale Anzahl der Status ist, verwendet der Algorithmus die gebräuchlichsten Status und ignoriert die restlichen Status. Die Standardeinstellung ist 100. |
SAMPLE_SIZE |
Gibt die Anzahl von Fällen an, die zum Trainieren des Modells verwendet werden. Der Algorithmusanbieter verwendet entweder diese Anzahl oder den Prozentsatz aller Fälle, die nicht – wie im HOLDOUT_PERCENTAGE-Parameter angegeben – im auszunehmenden Prozentsatz enthalten sind, je nachdem, welcher Wert kleiner ist. Mit anderen Worten, wenn HOLDOUT_PERCENTAGE auf 30 festgelegt ist, verwendet der Algorithmus entweder den Wert dieses Parameters oder einen Wert, der bis zu 70 % gleich der Gesamtanzahl der Fälle ist, je nachdem, welcher Wert kleiner ist. Die Standardeinstellung ist 10000. |
Siehe auch
Konzepte
Data Mining-Algorithmen
Featureauswahl beim Data Mining
Verwenden der Data Mining-Tools
Anzeigen eines Miningmodells mit dem Microsoft Viewer für neuronale Netzwerke