Classic
|
Grammatikbaserad tokeniserare som är lämplig för bearbetning av de flesta europeiska dokument. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html
|
EdgeNGram
|
Tokeniserar indata från en kant till n-gram av de angivna storlekarna. Se https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html
|
Keyword
|
Genererar hela indata som en enda token. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html
|
Letter
|
Delar upp text med icke-bokstäver. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html
|
Lowercase
|
Delar upp text med icke-bokstäver och konverterar dem till gemener. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html
|
MicrosoftLanguageStemmingTokenizer
|
Delar upp text med hjälp av språkspecifika regler och reducerar ord till deras basformulär.
|
MicrosoftLanguageTokenizer
|
Delar upp text med hjälp av språkspecifika regler.
|
NGram
|
Tokeniserar indata i n-gram av de angivna storlekarna. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html
|
PathHierarchy
|
Tokeniserare för sökvägsliknande hierarkier. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html
|
Pattern
|
Tokeniserare som använder regex-mönstermatchning för att skapa distinkta token. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html
|
Standard
|
Standard Lucene analyzer; Består av standardtokeniseraren, gemener och stoppfilter. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html
|
UaxUrlEmail
|
Tokeniserar URL:ar och e-postmeddelanden som en token. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html
|
Whitespace
|
Delar upp text i tomt utrymme. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html
|