microsoftml.mutualinformation_select: 상호 정보에 따라 기능 선택

사용

microsoftml.mutualinformation_select(cols: [list, str], label: str,
    num_features_to_keep: int = 1000, num_bins: int = 256, **kargs)

Description

레이블 열을 사용하여 해당 상호 정보로 정렬된 지정된 모든 열에서 상위 k 기능을 선택합니다.

세부 정보

임의의 두 변수 XY의 상호 정보는 변수 간의 상호 종속성 측정값입니다. 공식적으로 상호 정보는 다음과 같이 작성될 수 있습니다.

I(X;Y) = E[log(p(x,y)) - log(p(x)) - log(p(y))]

여기서 XY의 공동 배포에 대한 기대가 나옵니다. p(x,y)XY의 공동 확률 밀도 함수이고, p(x)p(y)는 각각 XY의 한계 확률 밀도 함수입니다. 일반적으로 종속 변수(또는 레이블)와 독립 변수(또는 기능) 간의 상호 정보가 클수록 레이블이 해당 기능에 대해 더 높은 상호 종속성을 갖게 됩니다.

상호 정보 기능 선택 모드는 상호 정보에 따라 기능을 선택합니다. 레이블과의 상호 정보가 가장 큰 상위 num_features_to_keep개 기능을 유지합니다.

인수

cols

선택할 변수 이름의 목록 또는 문자열을 지정합니다.

label

레이블의 이름을 지정합니다.

num_features_to_keep

유지할 기능의 수가 n으로 지정된 경우 변환은 종속 변수와의 상호 정보가 가장 큰 n개 기능을 선택합니다. 기본값은 1000입니다.

num_bins

숫자 값의 최대 bin 개수. 2의 거듭제곱을 권장합니다. 기본값은 256입니다.

kargs

컴퓨팅 엔진으로 전송된 추가 인수입니다.

반환

변환을 정의하는 개체입니다.

추가 정보

count_select

참고 자료

Wikipedia: 상호 정보