microsoftml.n_gram: n-gram을 사용하여 텍스트를 기능으로 변환

사용

microsoftml.n_gram(ngram_length: numbers.Real = 1,
    skip_length: numbers.Real = 0, all_lengths: bool = True,
    max_num_terms: list = [10000000], weighting: str = 'Tf')

Description

텍스트에서 ngram을 추출하고 사전을 사용하여 벡터로 변환합니다.

인수

ngram_length

N-Gram 길이(설정)입니다.

skip_length

N-Gram을 생성할 때 건너뛸 최대 토큰 수(설정)입니다.

all_lengths

NgramLength까지의 모든 ngram 길이를 포함할지 아니면 NgramLength만 포함할지 여부(설정)

max_num_terms

사전에 저장할 최대 ngram 개수(설정)

가중치

가중치 기준(설정)

추가 정보

n_gram_hash, featurize_text