microsoftml.mutualinformation_select: selezione delle caratteristiche in base alla mutua informazioni

Utilizzo

microsoftml.mutualinformation_select(cols: [list, str], label: str,
    num_features_to_keep: int = 1000, num_bins: int = 256, **kargs)

Descrizione

Selezionare le caratteristiche top k in tutte le colonne specificate ordinate in base alla relativa informazioni mutua con la colonna etichetta.

Dettagli

L'informazione mutua di due variabili casuali X e Y è una misura della dipendenza reciproca tra le variabili. Formalmente, l'informazione mutua può essere scritta come:

I(X;Y) = E[log(p(x,y)) - log(p(x)) - log(p(y))]

dove l'aspettativa deriva dalla distribuzione congiunta di X e Y. p(x,y) è la funzione di densità di probabilità congiunta di X e Y; p(x) e p(y) sono rispettivamente le funzioni di densità di probabilità marginale di X e Y. In generale, un'informazione mutua più elevata tra la variabile dipendente (o etichetta) e una variabile indipendente (o caratteristica) significa che l'etichetta ha una dipendenza mutua superiore rispetto alla caratteristica.

La modalità di selezione della caratteristica di informazione mutua seleziona le caratteristiche in base all'informazione mutua. Mantiene le principali caratteristiche num_features_to_keep con l'informazione mutua più elevata e con etichetta.

Argomenti

cols

Specifica la stringa di caratteri o l'elenco dei nomi delle variabili da selezionare.

label

Specifica il nome dell'etichetta.

num_features_to_keep

Se il numero di caratteristiche da mantenere deve essere n, la trasformazione seleziona le caratteristiche n con l'informazione mutua più elevata tra quelle con la variabile dipendente. Il valore predefinito è 1000.

num_bins

Numero massimo di bin per i valori numerici. Sono consigliati multipli di 2. Il valore predefinito è 256.

kargs

Argomenti aggiuntivi inviati al motore di calcolo.

Restituisce

Un oggetto che definisce la trasformazione.

Vedi anche

count_select

Riferimenti

Wikipedia: Informazione mutua