microsoftml.mutualinformation_select: 相互情報に基づく特徴の選択
使用法
microsoftml.mutualinformation_select(cols: [list, str], label: str,
num_features_to_keep: int = 1000, num_bins: int = 256, **kargs)
説明
ラベル列との間の相互情報量によって並べ替えられたすべての指定された列から、上位 k 個の特徴を選択します。
説明
2 つのランダムな変数 X
と Y
の相互情報量は、変数間の相互の依存関係の尺度です。 正式には、相互情報量は次のように記述できます。
I(X;Y) = E[log(p(x,y)) - log(p(x)) - log(p(y))]
ただし、予測は X
と Y
の結合分布上で行われます。 ここで、p(x,y)
は X
と Y
の結合確率密度関数、p(x)
と p(y)
はそれぞれ、X
と Y
の周辺確率密度関数です。 一般に、従属変数 (またはラベル) と独立変数 (または特徴) の間の相互情報量が大きい場合は、ラベルとその特徴の相互依存関係が強いことを意味します。
相互情報量特徴選択モードでは、相互情報量に基づいて特徴が選択されます。 ラベルとの間で最大の相互情報量を持つ上位 num_features_to_keep
個の特徴が保持されます。
引数
cols
選択する変数の文字列または名前一覧を指定します。
label
ラベル名を指定します。
num_features_to_keep
保持する特徴の数が n
に指定されている場合、変換では、従属変数との間で最も高い相互情報量を持つ n
個の特徴が選択されます。 既定値は 1000 です。
num_bins
数値のビンの最大数。 2 の累乗をお勧めします。 既定値は 256 です。
kargs
コンピューティング エンジンに送信される追加の引数。
戻り値
変換を定義するオブジェクト。