Indexes - Analyze
Mostra como um analisador divide o texto em tokens.
POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2024-07-01
Parâmetros de URI
Nome | Em | Obrigatório | Tipo | Description |
---|---|---|---|---|
endpoint
|
path | True |
string |
A URL do ponto de extremidade do serviço de pesquisa. |
index
|
path | True |
string |
O nome do índice para o qual testar um analisador. |
api-version
|
query | True |
string |
Versão da API do cliente. |
Cabeçalho da solicitação
Nome | Obrigatório | Tipo | Description |
---|---|---|---|
x-ms-client-request-id |
string uuid |
A ID de acompanhamento enviada com a solicitação para ajudar na depuração. |
Corpo da solicitação
Nome | Obrigatório | Tipo | Description |
---|---|---|---|
text | True |
string |
O texto a ser dividido em tokens. |
analyzer |
O nome do analisador a ser usado para quebrar o texto fornecido. Se esse parâmetro não for especificado, você deverá especificar um tokenizador. Os parâmetros do tokenizer e do analisador são mutuamente exclusivos. |
||
charFilters |
Uma lista opcional de filtros de caracteres a serem usados ao quebrar o texto especificado. Esse parâmetro só pode ser definido ao usar o parâmetro tokenizer. |
||
tokenFilters |
Uma lista opcional de filtros de token a serem usados ao quebrar o texto fornecido. Esse parâmetro só pode ser definido ao usar o parâmetro tokenizer. |
||
tokenizer |
O nome do tokenizador a ser usado para quebrar o texto fornecido. Se esse parâmetro não for especificado, você deverá especificar um analisador. Os parâmetros do tokenizer e do analisador são mutuamente exclusivos. |
Respostas
Nome | Tipo | Description |
---|---|---|
200 OK | ||
Other Status Codes |
Resposta de erro. |
Exemplos
SearchServiceIndexAnalyze
Solicitação de exemplo
POST https://myservice.search.windows.net/indexes('hotels')/search.analyze?api-version=2024-07-01
{
"text": "Text to analyze",
"analyzer": "standard.lucene"
}
Resposta de exemplo
{
"tokens": [
{
"token": "text",
"startOffset": 0,
"endOffset": 4,
"position": 0
},
{
"token": "to",
"startOffset": 5,
"endOffset": 7,
"position": 1
},
{
"token": "analyze",
"startOffset": 8,
"endOffset": 15,
"position": 2
}
]
}
Definições
Nome | Description |
---|---|
Analyzed |
Informações sobre um token retornado por um analisador. |
Analyze |
Especifica alguns componentes de texto e análise usados para dividir esse texto em tokens. |
Analyze |
O resultado do teste de um analisador no texto. |
Char |
Define os nomes de todos os filtros de caracteres compatíveis com o mecanismo de pesquisa. |
Error |
As informações adicionais do erro de gerenciamento de recursos. |
Error |
O detalhe do erro. |
Error |
Resposta de erro |
Lexical |
Define os nomes de todos os analisadores de texto compatíveis com o mecanismo de pesquisa. |
Lexical |
Define os nomes de todos os tokenizers compatíveis com o mecanismo de pesquisa. |
Token |
Define os nomes de todos os filtros de token compatíveis com o mecanismo de pesquisa. |
AnalyzedTokenInfo
Informações sobre um token retornado por um analisador.
Nome | Tipo | Description |
---|---|---|
endOffset |
integer |
O índice do último caractere do token no texto de entrada. |
position |
integer |
A posição do token no texto de entrada em relação a outros tokens. O primeiro token no texto de entrada tem a posição 0, o próximo tem a posição 1 e assim por diante. Dependendo do analisador usado, alguns tokens poderão ter a mesma posição, por exemplo, se forem sinônimos uns dos outros. |
startOffset |
integer |
O índice do primeiro caractere do token no texto de entrada. |
token |
string |
O token retornado pelo analisador. |
AnalyzeRequest
Especifica alguns componentes de texto e análise usados para dividir esse texto em tokens.
Nome | Tipo | Description |
---|---|---|
analyzer |
O nome do analisador a ser usado para quebrar o texto fornecido. Se esse parâmetro não for especificado, você deverá especificar um tokenizador. Os parâmetros do tokenizer e do analisador são mutuamente exclusivos. |
|
charFilters |
Uma lista opcional de filtros de caracteres a serem usados ao quebrar o texto especificado. Esse parâmetro só pode ser definido ao usar o parâmetro tokenizer. |
|
text |
string |
O texto a ser dividido em tokens. |
tokenFilters |
Uma lista opcional de filtros de token a serem usados ao quebrar o texto fornecido. Esse parâmetro só pode ser definido ao usar o parâmetro tokenizer. |
|
tokenizer |
O nome do tokenizador a ser usado para quebrar o texto fornecido. Se esse parâmetro não for especificado, você deverá especificar um analisador. Os parâmetros do tokenizer e do analisador são mutuamente exclusivos. |
AnalyzeResult
O resultado do teste de um analisador no texto.
Nome | Tipo | Description |
---|---|---|
tokens |
A lista de tokens retornados pelo analisador especificado na solicitação. |
CharFilterName
Define os nomes de todos os filtros de caracteres compatíveis com o mecanismo de pesquisa.
Nome | Tipo | Description |
---|---|---|
html_strip |
string |
Um filtro de caractere que tenta remover constructos HTML. Consulte https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html |
ErrorAdditionalInfo
As informações adicionais do erro de gerenciamento de recursos.
Nome | Tipo | Description |
---|---|---|
info |
object |
As informações adicionais. |
type |
string |
O tipo de informação adicional. |
ErrorDetail
O detalhe do erro.
Nome | Tipo | Description |
---|---|---|
additionalInfo |
As informações adicionais do erro. |
|
code |
string |
O código de erro. |
details |
Os detalhes do erro. |
|
message |
string |
A mensagem de erro. |
target |
string |
O destino do erro. |
ErrorResponse
Resposta de erro
Nome | Tipo | Description |
---|---|---|
error |
O objeto de erro. |
LexicalAnalyzerName
Define os nomes de todos os analisadores de texto compatíveis com o mecanismo de pesquisa.
Nome | Tipo | Description |
---|---|---|
ar.lucene |
string |
Analisador Lucene para árabe. |
ar.microsoft |
string |
Analisador da Microsoft para árabe. |
bg.lucene |
string |
Analisador Lucene para búlgaro. |
bg.microsoft |
string |
Analisador da Microsoft para búlgaro. |
bn.microsoft |
string |
Analisador da Microsoft para Bangla. |
ca.lucene |
string |
Analisador lucene para catalão. |
ca.microsoft |
string |
Analisador da Microsoft para Catalão. |
cs.lucene |
string |
Analisador lucene para tcheco. |
cs.microsoft |
string |
Analisador da Microsoft para tcheco. |
da.lucene |
string |
Analisador Lucene para dinamarquês. |
da.microsoft |
string |
Analisador da Microsoft para dinamarquês. |
de.lucene |
string |
Analisador Lucene para alemão. |
de.microsoft |
string |
Analisador da Microsoft para alemão. |
el.lucene |
string |
Analisador Lucene para grego. |
el.microsoft |
string |
Analisador da Microsoft para grego. |
en.lucene |
string |
Analisador Lucene para inglês. |
en.microsoft |
string |
Analisador da Microsoft para inglês. |
es.lucene |
string |
Analisador Lucene para espanhol. |
es.microsoft |
string |
Analisador da Microsoft para espanhol. |
et.microsoft |
string |
Analisador da Microsoft para estoniano. |
eu.lucene |
string |
Analisador Lucene para Basco. |
fa.lucene |
string |
Analisador Lucene para persa. |
fi.lucene |
string |
Analisador Lucene para finlandês. |
fi.microsoft |
string |
Analisador da Microsoft para finlandês. |
fr.lucene |
string |
Analisador Lucene para francês. |
fr.microsoft |
string |
Analisador da Microsoft para francês. |
ga.lucene |
string |
Analisador Lucene para irlandês. |
gl.lucene |
string |
Analisador Lucene para galego. |
gu.microsoft |
string |
Analisador da Microsoft para Gujarati. |
he.microsoft |
string |
Analisador da Microsoft para Hebraico. |
hi.lucene |
string |
Analisador lucene para hindi. |
hi.microsoft |
string |
Analisador da Microsoft para hindi. |
hr.microsoft |
string |
Analisador da Microsoft para croata. |
hu.lucene |
string |
Analisador Lucene para húngaro. |
hu.microsoft |
string |
Analisador da Microsoft para húngaro. |
hy.lucene |
string |
Analisador Lucene para armênio. |
id.lucene |
string |
Analisador lucene para indonésio. |
id.microsoft |
string |
Analisador da Microsoft para Indonésia (Bahasa). |
is.microsoft |
string |
Analisador da Microsoft para islandês. |
it.lucene |
string |
Analisador Lucene para italiano. |
it.microsoft |
string |
Analisador da Microsoft para italiano. |
ja.lucene |
string |
Analisador Lucene para japonês. |
ja.microsoft |
string |
Analisador da Microsoft para japonês. |
keyword |
string |
Trata todo o conteúdo de um campo como um único token. Isso é útil para dados como cep, IDs e alguns nomes de produto. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html |
kn.microsoft |
string |
Analisador da Microsoft para Kannada. |
ko.lucene |
string |
Analisador Lucene para coreano. |
ko.microsoft |
string |
Analisador da Microsoft para coreano. |
lt.microsoft |
string |
Analisador da Microsoft para lituano. |
lv.lucene |
string |
Analisador Lucene para letão. |
lv.microsoft |
string |
Analisador da Microsoft para letão. |
ml.microsoft |
string |
Analisador da Microsoft para Malayalam. |
mr.microsoft |
string |
Analisador da Microsoft para Marathi. |
ms.microsoft |
string |
Analisador da Microsoft para malaio (latino). |
nb.microsoft |
string |
Analisador da Microsoft para norueguês (Bokmål). |
nl.lucene |
string |
Analisador Lucene para holandês. |
nl.microsoft |
string |
Analisador da Microsoft para holandês. |
no.lucene |
string |
Analisador Lucene para norueguês. |
pa.microsoft |
string |
Analisador da Microsoft para Punjabi. |
pattern |
string |
Separa o texto com flexibilidade em termos por meio de um padrão de expressão regular. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html |
pl.lucene |
string |
Analisador Lucene para polonês. |
pl.microsoft |
string |
Analisador da Microsoft para polonês. |
pt-BR.lucene |
string |
Analisador lucene para português (Brasil). |
pt-BR.microsoft |
string |
Analisador da Microsoft para português (Brasil). |
pt-PT.lucene |
string |
Analisador lucene para português (Portugal). |
pt-PT.microsoft |
string |
Analisador da Microsoft para português (Portugal). |
ro.lucene |
string |
Analisador lucene para romeno. |
ro.microsoft |
string |
Analisador da Microsoft para romeno. |
ru.lucene |
string |
Analisador Lucene para russo. |
ru.microsoft |
string |
Analisador da Microsoft para russo. |
simple |
string |
Divide o texto em letras não letras e converte-os em letras minúsculas. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html |
sk.microsoft |
string |
Analisador da Microsoft para Eslovaco. |
sl.microsoft |
string |
Analisador da Microsoft para esloveno. |
sr-cyrillic.microsoft |
string |
Analisador da Microsoft para sérvio (cirílico). |
sr-latin.microsoft |
string |
Analisador da Microsoft para sérvio (latino). |
standard.lucene |
string |
Analisador lucene padrão. |
standardasciifolding.lucene |
string |
Analisador Lucene doBrável ASCII Padrão. Consulte https://video2.skills-academy.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers |
stop |
string |
Divide o texto em letras não letras; Aplica os filtros de token de letras minúsculas e palavras irrelevantes. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html |
sv.lucene |
string |
Analisador Lucene para sueco. |
sv.microsoft |
string |
Analisador da Microsoft para sueco. |
ta.microsoft |
string |
Analisador da Microsoft para Tamil. |
te.microsoft |
string |
Analisador da Microsoft para Telugu. |
th.lucene |
string |
Analisador Lucene para tailandês. |
th.microsoft |
string |
Analisador da Microsoft para tailandês. |
tr.lucene |
string |
Analisador Lucene para turco. |
tr.microsoft |
string |
Analisador da Microsoft para turco. |
uk.microsoft |
string |
Analisador da Microsoft para ucraniano. |
ur.microsoft |
string |
Analisador da Microsoft para Urdu. |
vi.microsoft |
string |
Analisador da Microsoft para vietnamita. |
whitespace |
string |
Um analisador que usa o tokenizador de espaço em branco. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html |
zh-Hans.lucene |
string |
Analisador lucene para chinês (simplificado). |
zh-Hans.microsoft |
string |
Analisador da Microsoft para chinês (simplificado). |
zh-Hant.lucene |
string |
Analisador lucene para chinês (tradicional). |
zh-Hant.microsoft |
string |
Analisador da Microsoft para chinês (tradicional). |
LexicalTokenizerName
Define os nomes de todos os tokenizers compatíveis com o mecanismo de pesquisa.
Nome | Tipo | Description |
---|---|---|
classic |
string |
Tokenizador baseado em gramática adequado para processar a maioria dos documentos em idioma europeu. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html |
edgeNGram |
string |
Tokeniza a entrada de uma borda em n-gramas dos tamanhos fornecidos. Consulte https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html |
keyword_v2 |
string |
Emite toda a entrada como um único token. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html |
letter |
string |
Divide o texto em letras não letras. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html |
lowercase |
string |
Divide o texto em letras não letras e converte-os em letras minúsculas. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html |
microsoft_language_stemming_tokenizer |
string |
Divide o texto usando regras específicas do idioma e reduz as palavras aos formulários base. |
microsoft_language_tokenizer |
string |
Divide o texto usando regras específicas do idioma. |
nGram |
string |
Tokeniza a entrada em n-gramas dos tamanhos fornecidos. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html |
path_hierarchy_v2 |
string |
Tokenizer para hierarquias semelhantes a caminho. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html |
pattern |
string |
Tokenizer que usa a correspondência de padrões regex para construir tokens distintos. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html |
standard_v2 |
string |
Analisador Lucene Padrão; Composto pelo tokenizador padrão, filtro em letras minúsculas e filtro de parada. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html |
uax_url_email |
string |
Tokeniza urls e emails como um token. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html |
whitespace |
string |
Divide o texto no espaço em branco. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html |
TokenFilterName
Define os nomes de todos os filtros de token compatíveis com o mecanismo de pesquisa.