LuceneStandardTokenizer interface
Rozdělí text podle pravidel segmentace textu v kódování Unicode. Tento tokenizátor se implementuje pomocí Apache Lucene.
Vlastnosti
max |
Maximální délka tokenu. Výchozí hodnota je 255. Tokeny delší než maximální délka se rozdělí. Maximální délka tokenu, který lze použít, je 300 znaků. Výchozí hodnota: 255. |
name | Název tokenizátoru. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků. |
odatatype | Polymorfní diskriminátor |
Podrobnosti vlastnosti
maxTokenLength
Maximální délka tokenu. Výchozí hodnota je 255. Tokeny delší než maximální délka se rozdělí. Maximální délka tokenu, který lze použít, je 300 znaků. Výchozí hodnota: 255.
maxTokenLength?: number
Hodnota vlastnosti
number
name
Název tokenizátoru. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků.
name: string
Hodnota vlastnosti
string
odatatype
Polymorfní diskriminátor
odatatype: "#Microsoft.Azure.Search.StandardTokenizer" | "#Microsoft.Azure.Search.StandardTokenizerV2"
Hodnota vlastnosti
"#Microsoft.Azure.Search.StandardTokenizer" | "#Microsoft.Azure.Search.StandardTokenizerV2"