microsoftml.mutualinformation_select: Featureauswahl basierend auf Transinformation
Verwendung
microsoftml.mutualinformation_select(cols: [list, str], label: str,
num_features_to_keep: int = 1000, num_bins: int = 256, **kargs)
BESCHREIBUNG
Wählt in allen angegebenen Spalten die obersten k Features aus, geordnet nach ihrer Transinformation mit der Bezeichnungsspalte.
Details
Die Transinformation der beiden zufälligen Variablen X
und Y
ist ein Maß für die gegenseitige Abhängigkeit der Variablen. Formal kann die Transinformation folgendermaßen geschrieben werden:
I(X;Y) = E[log(p(x,y)) - log(p(x)) - log(p(y))]
wobei der Erwartungswert über die gemeinsame Verteilung von X
und Y
genommen wird. Dabei ist p(x,y)
die gemeinsame Wahrscheinlichkeitsdichtefunktion von X
, und Y
, p(x)
und p(y)
sind die Randwahrscheinlichkeitsdichtefunktionen von X
bzw. Y
. Im Allgemeinen bedeutet mehr Transinformation zwischen der abhängigen Variablen (oder Bezeichnung) und einer unabhängigen Variablen (oder einem Feature), dass die Bezeichnung eine höhere gegenseitige Abhängigkeit gegenüber diesem Feature aufweist.
Der Featureauswahlmodus für Transinformation wählt die Features basierend auf der Transinformation aus. Er behält die wichtigsten num_features_to_keep
Features mit der höchsten Transinformation mit der Bezeichnung bei.
Argumente
cols
Gibt eine Zeichenfolge oder Liste mit den Namen der auszuwählenden Variablen an.
label
Gibt den Namen der Bezeichnung an.
num_features_to_keep
Wenn die Anzahl der beizubehaltenden Features mit n
angegeben wird, wählt die Transformation die n
Features aus, die die höchste Transinformation mit der abhängigen Variable haben. Der Standardwert lautet „1000“.
num_bins
Maximale Anzahl von Intervallen für numerische Werte. Zweierpotenzen werden empfohlen. Der Standardwert ist 256.
kargs
Zusätzliche Argumente, die an die Compute-Engine gesendet werden.
Gibt zurück
Ein Objekt, das die Transformation definiert.