microsoftml.n_gram_hash: konvertiert Text mithilfe von N-Grammen mit Hashes in Features
Verwendung
microsoftml.n_gram_hash(hash_bits: numbers.Real = 16,
ngram_length: numbers.Real = 1, skip_length: numbers.Real = 0,
all_lengths: bool = True, seed: numbers.Real = 314489979,
ordered: bool = True, invert_hash: numbers.Real = 0)
BESCHREIBUNG
Extrahiert N-Gramme aus Text und konvertiert sie mithilfe eines Hashingverfahrens in einen Vektor.
Argumente
hash_bits
Anzahl der Bits, in die einen Hashwert aufgenommen werden soll. Muss im Bereich 1 bis 30 liegen. (Einstellungen).
ngram_length
Länge des N-Gramms (Einstellungen).
skip_length
Maximale Anzahl von Token, die beim Erstellen eines N-Gramms übersprungen werden sollen (Einstellungen).
all_lengths
Gibt an, ob alle N-Grammlängen bis NgramLength oder nur NgramLength eingeschlossen werden sollen (Einstellungen).
seed
Ausgangswert für Hashing (Einstellungen).
geordnete
Gibt an, ob die Position jeder Quellspalte im Hash enthalten sein soll (wenn mehrere Quellspalten vorhanden sind). (Einstellungen).
invert_hash
Begrenzen Sie die Anzahl der Schlüssel, die zum Generieren des Slotnamens verwendet werden, auf diese Anzahl. 0 bedeutet kein Invertieren des Hashings, -1 bedeutet ohne Limit. (Einstellungen).