PatternTokenizer interface

Tokenizer, který používá porovnávání vzorů regex k vytvoření jedinečných tokenů. Tento tokenizátor se implementuje pomocí Apache Lucene.

Vlastnosti

flags

Příznaky regulárních výrazů. Mezi možné hodnoty patří: "CANON_EQ", "CASE_INSENSITIVE", "COMMENTS", "DOTALL", "LITERAL", "MULTILINE", "UNICODE_CASE", "UNIX_LINES"

group

Ordinál založený na nule odpovídající skupiny ve vzoru regulárního výrazu, který se má extrahovat do tokenů. Použijte -1, pokud chcete použít celý vzor k rozdělení vstupu na tokeny bez ohledu na odpovídající skupiny. Výchozí hodnota je -1. Výchozí hodnota: -1.

name

Název tokenizátoru. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků.

odatatype

Polymorfní diskriminace

pattern

Vzor regulárního výrazu, který odpovídá oddělovačům tokenů. Výchozí je výraz, který odpovídá jednomu nebo více prázdným znakům. Výchozí hodnota: \W+.

Podrobnosti vlastnosti

flags

Příznaky regulárních výrazů. Mezi možné hodnoty patří: "CANON_EQ", "CASE_INSENSITIVE", "COMMENTS", "DOTALL", "LITERAL", "MULTILINE", "UNICODE_CASE", "UNIX_LINES"

flags?: ("CANON_EQ" | "CASE_INSENSITIVE" | "COMMENTS" | "DOTALL" | "LITERAL" | "MULTILINE" | "UNICODE_CASE" | "UNIX_LINES")[]

Hodnota vlastnosti

("CANON_EQ" | "CASE_INSENSITIVE" | "COMMENTS" | "DOTALL" | "LITERAL" | "MULTILINE" | "UNICODE_CASE" | "UNIX_LINES")[]

group

Ordinál založený na nule odpovídající skupiny ve vzoru regulárního výrazu, který se má extrahovat do tokenů. Použijte -1, pokud chcete použít celý vzor k rozdělení vstupu na tokeny bez ohledu na odpovídající skupiny. Výchozí hodnota je -1. Výchozí hodnota: -1.

group?: number

Hodnota vlastnosti

number

name

Název tokenizátoru. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků.

name: string

Hodnota vlastnosti

string

odatatype

Polymorfní diskriminace

odatatype: "#Microsoft.Azure.Search.PatternTokenizer"

Hodnota vlastnosti

"#Microsoft.Azure.Search.PatternTokenizer"

pattern

Vzor regulárního výrazu, který odpovídá oddělovačům tokenů. Výchozí je výraz, který odpovídá jednomu nebo více prázdným znakům. Výchozí hodnota: \W+.

pattern?: string

Hodnota vlastnosti

string