Indexes - Analyze

Referência

Serviço:: Search Service

Versão da API:: 2024-07-01

Mostra como um analisador divide o texto em tokens.

POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2024-07-01

Parâmetros de URI

Nome	Em	Obrigatório	Tipo	Description
endpoint	path	True	string	A URL do ponto de extremidade do serviço de pesquisa.
indexName	path	True	string	O nome do índice para o qual testar um analisador.
api-version	query	True	string	Versão da API do cliente.

Cabeçalho da solicitação

Nome	Obrigatório	Tipo	Description
x-ms-client-request-id		string uuid	A ID de acompanhamento enviada com a solicitação para ajudar na depuração.

Corpo da solicitação

Nome	Obrigatório	Tipo	Description
text	True	string	O texto a ser dividido em tokens.
analyzer		LexicalAnalyzerName	O nome do analisador a ser usado para quebrar o texto fornecido. Se esse parâmetro não for especificado, você deverá especificar um tokenizador. Os parâmetros do tokenizer e do analisador são mutuamente exclusivos.
charFilters		CharFilterName[]	Uma lista opcional de filtros de caracteres a serem usados ao quebrar o texto especificado. Esse parâmetro só pode ser definido ao usar o parâmetro tokenizer.
tokenFilters		TokenFilterName[]	Uma lista opcional de filtros de token a serem usados ao quebrar o texto fornecido. Esse parâmetro só pode ser definido ao usar o parâmetro tokenizer.
tokenizer		LexicalTokenizerName	O nome do tokenizador a ser usado para quebrar o texto fornecido. Se esse parâmetro não for especificado, você deverá especificar um analisador. Os parâmetros do tokenizer e do analisador são mutuamente exclusivos.

Respostas

Nome	Tipo	Description
200 OK	AnalyzeResult
Other Status Codes	ErrorResponse	Resposta de erro.

Exemplos

SearchServiceIndexAnalyze

Solicitação de exemplo

HTTP

POST https://myservice.search.windows.net/indexes('hotels')/search.analyze?api-version=2024-07-01

{
  "text": "Text to analyze",
  "analyzer": "standard.lucene"
}

Resposta de exemplo

Código de status:: 200

{
  "tokens": [
    {
      "token": "text",
      "startOffset": 0,
      "endOffset": 4,
      "position": 0
    },
    {
      "token": "to",
      "startOffset": 5,
      "endOffset": 7,
      "position": 1
    },
    {
      "token": "analyze",
      "startOffset": 8,
      "endOffset": 15,
      "position": 2
    }
  ]
}

Definições

Nome	Description
AnalyzedTokenInfo	Informações sobre um token retornado por um analisador.
AnalyzeRequest	Especifica alguns componentes de texto e análise usados para dividir esse texto em tokens.
AnalyzeResult	O resultado do teste de um analisador no texto.
CharFilterName	Define os nomes de todos os filtros de caracteres compatíveis com o mecanismo de pesquisa.
ErrorAdditionalInfo	As informações adicionais do erro de gerenciamento de recursos.
ErrorDetail	O detalhe do erro.
ErrorResponse	Resposta de erro
LexicalAnalyzerName	Define os nomes de todos os analisadores de texto compatíveis com o mecanismo de pesquisa.
LexicalTokenizerName	Define os nomes de todos os tokenizers compatíveis com o mecanismo de pesquisa.
TokenFilterName	Define os nomes de todos os filtros de token compatíveis com o mecanismo de pesquisa.

AnalyzedTokenInfo

Informações sobre um token retornado por um analisador.

Nome	Tipo	Description
endOffset	integer	O índice do último caractere do token no texto de entrada.
position	integer	A posição do token no texto de entrada em relação a outros tokens. O primeiro token no texto de entrada tem a posição 0, o próximo tem a posição 1 e assim por diante. Dependendo do analisador usado, alguns tokens poderão ter a mesma posição, por exemplo, se forem sinônimos uns dos outros.
startOffset	integer	O índice do primeiro caractere do token no texto de entrada.
token	string	O token retornado pelo analisador.

AnalyzeRequest

Especifica alguns componentes de texto e análise usados para dividir esse texto em tokens.

Nome	Tipo	Description
analyzer	LexicalAnalyzerName	O nome do analisador a ser usado para quebrar o texto fornecido. Se esse parâmetro não for especificado, você deverá especificar um tokenizador. Os parâmetros do tokenizer e do analisador são mutuamente exclusivos.
charFilters	CharFilterName[]	Uma lista opcional de filtros de caracteres a serem usados ao quebrar o texto especificado. Esse parâmetro só pode ser definido ao usar o parâmetro tokenizer.
text	string	O texto a ser dividido em tokens.
tokenFilters	TokenFilterName[]	Uma lista opcional de filtros de token a serem usados ao quebrar o texto fornecido. Esse parâmetro só pode ser definido ao usar o parâmetro tokenizer.
tokenizer	LexicalTokenizerName	O nome do tokenizador a ser usado para quebrar o texto fornecido. Se esse parâmetro não for especificado, você deverá especificar um analisador. Os parâmetros do tokenizer e do analisador são mutuamente exclusivos.

AnalyzeResult

O resultado do teste de um analisador no texto.

Nome	Tipo	Description
tokens	AnalyzedTokenInfo[]	A lista de tokens retornados pelo analisador especificado na solicitação.

CharFilterName

Define os nomes de todos os filtros de caracteres compatíveis com o mecanismo de pesquisa.

Nome	Tipo	Description
html_strip	string	Um filtro de caractere que tenta remover constructos HTML. Consulte https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html

ErrorAdditionalInfo

As informações adicionais do erro de gerenciamento de recursos.

Nome	Tipo	Description
info	object	As informações adicionais.
type	string	O tipo de informação adicional.

ErrorDetail

O detalhe do erro.

Nome	Tipo	Description
additionalInfo	ErrorAdditionalInfo[]	As informações adicionais do erro.
code	string	O código de erro.
details	ErrorDetail[]	Os detalhes do erro.
message	string	A mensagem de erro.
target	string	O destino do erro.

ErrorResponse

Resposta de erro

Nome	Tipo	Description
error	ErrorDetail	O objeto de erro.

LexicalAnalyzerName

Define os nomes de todos os analisadores de texto compatíveis com o mecanismo de pesquisa.

Nome	Tipo	Description
ar.lucene	string	Analisador Lucene para árabe.
ar.microsoft	string	Analisador da Microsoft para árabe.
bg.lucene	string	Analisador Lucene para búlgaro.
bg.microsoft	string	Analisador da Microsoft para búlgaro.
bn.microsoft	string	Analisador da Microsoft para Bangla.
ca.lucene	string	Analisador lucene para catalão.
ca.microsoft	string	Analisador da Microsoft para Catalão.
cs.lucene	string	Analisador lucene para tcheco.
cs.microsoft	string	Analisador da Microsoft para tcheco.
da.lucene	string	Analisador Lucene para dinamarquês.
da.microsoft	string	Analisador da Microsoft para dinamarquês.
de.lucene	string	Analisador Lucene para alemão.
de.microsoft	string	Analisador da Microsoft para alemão.
el.lucene	string	Analisador Lucene para grego.
el.microsoft	string	Analisador da Microsoft para grego.
en.lucene	string	Analisador Lucene para inglês.
en.microsoft	string	Analisador da Microsoft para inglês.
es.lucene	string	Analisador Lucene para espanhol.
es.microsoft	string	Analisador da Microsoft para espanhol.
et.microsoft	string	Analisador da Microsoft para estoniano.
eu.lucene	string	Analisador Lucene para Basco.
fa.lucene	string	Analisador Lucene para persa.
fi.lucene	string	Analisador Lucene para finlandês.
fi.microsoft	string	Analisador da Microsoft para finlandês.
fr.lucene	string	Analisador Lucene para francês.
fr.microsoft	string	Analisador da Microsoft para francês.
ga.lucene	string	Analisador Lucene para irlandês.
gl.lucene	string	Analisador Lucene para galego.
gu.microsoft	string	Analisador da Microsoft para Gujarati.
he.microsoft	string	Analisador da Microsoft para Hebraico.
hi.lucene	string	Analisador lucene para hindi.
hi.microsoft	string	Analisador da Microsoft para hindi.
hr.microsoft	string	Analisador da Microsoft para croata.
hu.lucene	string	Analisador Lucene para húngaro.
hu.microsoft	string	Analisador da Microsoft para húngaro.
hy.lucene	string	Analisador Lucene para armênio.
id.lucene	string	Analisador lucene para indonésio.
id.microsoft	string	Analisador da Microsoft para Indonésia (Bahasa).
is.microsoft	string	Analisador da Microsoft para islandês.
it.lucene	string	Analisador Lucene para italiano.
it.microsoft	string	Analisador da Microsoft para italiano.
ja.lucene	string	Analisador Lucene para japonês.
ja.microsoft	string	Analisador da Microsoft para japonês.
keyword	string	Trata todo o conteúdo de um campo como um único token. Isso é útil para dados como cep, IDs e alguns nomes de produto. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html
kn.microsoft	string	Analisador da Microsoft para Kannada.
ko.lucene	string	Analisador Lucene para coreano.
ko.microsoft	string	Analisador da Microsoft para coreano.
lt.microsoft	string	Analisador da Microsoft para lituano.
lv.lucene	string	Analisador Lucene para letão.
lv.microsoft	string	Analisador da Microsoft para letão.
ml.microsoft	string	Analisador da Microsoft para Malayalam.
mr.microsoft	string	Analisador da Microsoft para Marathi.
ms.microsoft	string	Analisador da Microsoft para malaio (latino).
nb.microsoft	string	Analisador da Microsoft para norueguês (Bokmål).
nl.lucene	string	Analisador Lucene para holandês.
nl.microsoft	string	Analisador da Microsoft para holandês.
no.lucene	string	Analisador Lucene para norueguês.
pa.microsoft	string	Analisador da Microsoft para Punjabi.
pattern	string	Separa o texto com flexibilidade em termos por meio de um padrão de expressão regular. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html
pl.lucene	string	Analisador Lucene para polonês.
pl.microsoft	string	Analisador da Microsoft para polonês.
pt-BR.lucene	string	Analisador lucene para português (Brasil).
pt-BR.microsoft	string	Analisador da Microsoft para português (Brasil).
pt-PT.lucene	string	Analisador lucene para português (Portugal).
pt-PT.microsoft	string	Analisador da Microsoft para português (Portugal).
ro.lucene	string	Analisador lucene para romeno.
ro.microsoft	string	Analisador da Microsoft para romeno.
ru.lucene	string	Analisador Lucene para russo.
ru.microsoft	string	Analisador da Microsoft para russo.
simple	string	Divide o texto em letras não letras e converte-os em letras minúsculas. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html
sk.microsoft	string	Analisador da Microsoft para Eslovaco.
sl.microsoft	string	Analisador da Microsoft para esloveno.
sr-cyrillic.microsoft	string	Analisador da Microsoft para sérvio (cirílico).
sr-latin.microsoft	string	Analisador da Microsoft para sérvio (latino).
standard.lucene	string	Analisador lucene padrão.
standardasciifolding.lucene	string	Analisador Lucene doBrável ASCII Padrão. Consulte https://video2.skills-academy.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers
stop	string	Divide o texto em letras não letras; Aplica os filtros de token de letras minúsculas e palavras irrelevantes. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html
sv.lucene	string	Analisador Lucene para sueco.
sv.microsoft	string	Analisador da Microsoft para sueco.
ta.microsoft	string	Analisador da Microsoft para Tamil.
te.microsoft	string	Analisador da Microsoft para Telugu.
th.lucene	string	Analisador Lucene para tailandês.
th.microsoft	string	Analisador da Microsoft para tailandês.
tr.lucene	string	Analisador Lucene para turco.
tr.microsoft	string	Analisador da Microsoft para turco.
uk.microsoft	string	Analisador da Microsoft para ucraniano.
ur.microsoft	string	Analisador da Microsoft para Urdu.
vi.microsoft	string	Analisador da Microsoft para vietnamita.
whitespace	string	Um analisador que usa o tokenizador de espaço em branco. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html
zh-Hans.lucene	string	Analisador lucene para chinês (simplificado).
zh-Hans.microsoft	string	Analisador da Microsoft para chinês (simplificado).
zh-Hant.lucene	string	Analisador lucene para chinês (tradicional).
zh-Hant.microsoft	string	Analisador da Microsoft para chinês (tradicional).

LexicalTokenizerName

Define os nomes de todos os tokenizers compatíveis com o mecanismo de pesquisa.

Nome	Tipo	Description
classic	string	Tokenizador baseado em gramática adequado para processar a maioria dos documentos em idioma europeu. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html
edgeNGram	string	Tokeniza a entrada de uma borda em n-gramas dos tamanhos fornecidos. Consulte https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html
keyword_v2	string	Emite toda a entrada como um único token. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html
letter	string	Divide o texto em letras não letras. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html
lowercase	string	Divide o texto em letras não letras e converte-os em letras minúsculas. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html
microsoft_language_stemming_tokenizer	string	Divide o texto usando regras específicas do idioma e reduz as palavras aos formulários base.
microsoft_language_tokenizer	string	Divide o texto usando regras específicas do idioma.
nGram	string	Tokeniza a entrada em n-gramas dos tamanhos fornecidos. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html
path_hierarchy_v2	string	Tokenizer para hierarquias semelhantes a caminho. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html
pattern	string	Tokenizer que usa a correspondência de padrões regex para construir tokens distintos. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html
standard_v2	string	Analisador Lucene Padrão; Composto pelo tokenizador padrão, filtro em letras minúsculas e filtro de parada. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html
uax_url_email	string	Tokeniza urls e emails como um token. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html
whitespace	string	Divide o texto no espaço em branco. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html

TokenFilterName

Define os nomes de todos os filtros de token compatíveis com o mecanismo de pesquisa.

Nome	Tipo	Description
apostrophe	string	Tira todos os caracteres após um apóstrofo (incluindo o apóstrofo em si). Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html
arabic_normalization	string	Um filtro de token que aplica o normalizador árabe para normalizar a orthografia. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html
asciifolding	string	Converte caracteres Unicode alfabéticos, numéricos e simbólicos que não estão nos primeiros 127 caracteres ASCII (o bloco Unicode "Latino Básico") em seus equivalentes ASCII, se esses equivalentes existirem. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html
cjk_bigram	string	Forma bigrams de termos CJK gerados a partir do tokenizador padrão. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html
cjk_width	string	Normaliza as diferenças de largura do CJK. Dobra as variantes ASCII de largura total nas variantes equivalentes de latim básico e katakana de meia largura no Kana equivalente. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html
classic	string	Remove possessivos em inglês e de acrônimos. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html
common_grams	string	Construa bigrams para termos frequentes durante a indexação. Termos únicos ainda são indexados também, com bigrams sobrepostos. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html
edgeNGram_v2	string	Gera n-gramas dos tamanhos fornecidos a partir da frente ou da parte traseira de um token de entrada. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html
elision	string	Remove elisões. Por exemplo, "l'avion" (o plano) será convertido em "avion" (plano). Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html
german_normalization	string	Normaliza os caracteres alemães de acordo com a heurística do algoritmo de bola de neve alemão2. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html
hindi_normalization	string	Normaliza o texto em hindi para remover algumas diferenças nas variações ortográficas. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html
indic_normalization	string	Normaliza a representação Unicode do texto em idiomas indianos. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html
keyword_repeat	string	Emite cada token de entrada duas vezes, uma como palavra-chave e uma vez como palavra-chave. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html
kstem	string	Um filtro kstem de alto desempenho para inglês. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html
length	string	Remove palavras muito longas ou muito curtas. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html
limit	string	Limita o número de tokens durante a indexação. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html
lowercase	string	Normaliza o texto do token para maiúsculas e minúsculas. Consulte https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html
nGram_v2	string	Gera n-gramas dos tamanhos determinados. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html
persian_normalization	string	Aplica a normalização para persa. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html
phonetic	string	Crie tokens para correspondências fonéticas. Consulte https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html
porter_stem	string	Usa o algoritmo porter para transformar o fluxo de token. Consulte http://tartarus.org/~martin/PorterStemmer
reverse	string	Inverte a cadeia de caracteres de token. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html
scandinavian_folding	string	Dobra os caracteres escandinavos åÅäæÄÆ->a e öÖøØ->o. Também discrimina o uso de vogais duplas aa, ae, ao, oe e oo, deixando apenas a primeira. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html
scandinavian_normalization	string	Normaliza o uso dos caracteres escandinavos intercambiáveis. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html
shingle	string	Cria combinações de tokens como um único token. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html
snowball	string	Um filtro que resulta em palavras usando um lematizador gerado por Bola de Neve. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html
sorani_normalization	string	Normaliza a representação Unicode do texto Sorani. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html
stemmer	string	Filtro de lematização específico da linguagem. Consulte https://video2.skills-academy.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters
stopwords	string	Remove palavras irrelevantes de um fluxo de token. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html
trim	string	Corta o espaço em branco à esquerda e à direita dos tokens. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html
truncate	string	Trunca os termos para um comprimento específico. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html
unique	string	Filtra tokens com o mesmo texto do token anterior. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html
uppercase	string	Normaliza o texto do token para maiúsculas e minúsculas. Consulte https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html
word_delimiter	string	Divide palavras em sub palavras e executa transformações opcionais em grupos de sub palavras.

Compartilhar via