MicrosoftLanguageTokenizer interface

Rozdělí text pomocí pravidel specifických pro jazyk.

Extends

Vlastnosti

isSearchTokenizer

Hodnota označující způsob použití tokenizátoru. Nastavte na true, pokud se použije jako tokenizátor vyhledávání, na hodnotu false, pokud se použije jako tokenizátor indexování. Výchozí hodnota je false.

language

Jazyk, který se má použít. Výchozí hodnota je angličtina.

maxTokenLength

Maximální délka tokenu. Tokeny delší než maximální délka se rozdělí. Maximální délka tokenu, který lze použít, je 300 znaků. Tokeny delší než 300 znaků se nejprve rozdělí na tokeny o délce 300 znaků a pak se každý z těchto tokenů rozdělí na základě nastavené maximální délky tokenu. Výchozí hodnota je 255.

odatatype

Polymorfní diskriminátor, který určuje různé typy, které mohou být tímto objektem

Zděděné vlastnosti

name

Název tokenizátoru. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků.

Podrobnosti vlastnosti

isSearchTokenizer

Hodnota označující způsob použití tokenizátoru. Nastavte na true, pokud se použije jako tokenizátor vyhledávání, na hodnotu false, pokud se použije jako tokenizátor indexování. Výchozí hodnota je false.

isSearchTokenizer?: boolean

Hodnota vlastnosti

boolean

language

Jazyk, který se má použít. Výchozí hodnota je angličtina.

language?: MicrosoftTokenizerLanguage

Hodnota vlastnosti

maxTokenLength

Maximální délka tokenu. Tokeny delší než maximální délka se rozdělí. Maximální délka tokenu, který lze použít, je 300 znaků. Tokeny delší než 300 znaků se nejprve rozdělí na tokeny o délce 300 znaků a pak se každý z těchto tokenů rozdělí na základě nastavené maximální délky tokenu. Výchozí hodnota je 255.

maxTokenLength?: number

Hodnota vlastnosti

number

odatatype

Polymorfní diskriminátor, který určuje různé typy, které mohou být tímto objektem

odatatype: "#Microsoft.Azure.Search.MicrosoftLanguageTokenizer"

Hodnota vlastnosti

"#Microsoft.Azure.Search.MicrosoftLanguageTokenizer"

Podrobnosti zděděných vlastností

name

Název tokenizátoru. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků.

name: string

Hodnota vlastnosti

string

Zděděno zBaseLexicalTokenizer.name