microsoftml.mutualinformation_select: selezione delle caratteristiche in base alla mutua informazioni
Utilizzo
microsoftml.mutualinformation_select(cols: [list, str], label: str,
num_features_to_keep: int = 1000, num_bins: int = 256, **kargs)
Descrizione
Selezionare le caratteristiche top k in tutte le colonne specificate ordinate in base alla relativa informazioni mutua con la colonna etichetta.
Dettagli
L'informazione mutua di due variabili casuali X
e Y
è una misura della dipendenza reciproca tra le variabili. Formalmente, l'informazione mutua può essere scritta come:
I(X;Y) = E[log(p(x,y)) - log(p(x)) - log(p(y))]
dove l'aspettativa deriva dalla distribuzione congiunta di X
e Y
.
p(x,y)
è la funzione di densità di probabilità congiunta di X
e Y
; p(x)
e p(y)
sono rispettivamente le funzioni di densità di probabilità marginale di X
e Y
. In generale, un'informazione mutua più elevata tra la variabile dipendente (o etichetta) e una variabile indipendente (o caratteristica) significa che l'etichetta ha una dipendenza mutua superiore rispetto alla caratteristica.
La modalità di selezione della caratteristica di informazione mutua seleziona le caratteristiche in base all'informazione mutua. Mantiene le principali caratteristiche num_features_to_keep
con l'informazione mutua più elevata e con etichetta.
Argomenti
cols
Specifica la stringa di caratteri o l'elenco dei nomi delle variabili da selezionare.
label
Specifica il nome dell'etichetta.
num_features_to_keep
Se il numero di caratteristiche da mantenere deve essere n
, la trasformazione seleziona le caratteristiche n
con l'informazione mutua più elevata tra quelle con la variabile dipendente. Il valore predefinito è 1000.
num_bins
Numero massimo di bin per i valori numerici. Sono consigliati multipli di 2. Il valore predefinito è 256.
kargs
Argomenti aggiuntivi inviati al motore di calcolo.
Restituisce
Un oggetto che definisce la trasformazione.