Indexes - Get
Извлекает определение индекса.
GET {endpoint}/indexes('{indexName}')?api-version=2023-11-01
Параметры URI
Имя | В | Обязательно | Тип | Описание |
---|---|---|---|---|
endpoint
|
path | True |
string |
URL-адрес конечной точки службы поиска. |
index
|
path | True |
string |
Имя извлекаемого индекса. |
api-version
|
query | True |
string |
Версия API клиента. |
Заголовок запроса
Имя | Обязательно | Тип | Описание |
---|---|---|---|
x-ms-client-request-id |
string uuid |
Идентификатор отслеживания, отправленный с запросом на помощь в отладке. |
Ответы
Имя | Тип | Описание |
---|---|---|
200 OK | ||
Other Status Codes |
Ответ об ошибке. |
Примеры
SearchServiceGetIndex
Образец запроса
GET https://myservice.search.windows.net/indexes('hotels')?api-version=2023-11-01
Пример ответа
{
"name": "hotels",
"fields": [
{
"name": "hotelId",
"type": "Edm.String",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": true,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "baseRate",
"type": "Edm.Double",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "description",
"type": "Edm.String",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "descriptionEmbedding",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": 1536,
"vectorSearchProfile": "myHnswProfile",
"synonymMaps": []
},
{
"name": "description_fr",
"type": "Edm.String",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": "fr.lucene",
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "hotelName",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "category",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "tags",
"type": "Collection(Edm.String)",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": false,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": "tagsAnalyzer",
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "parkingIncluded",
"type": "Edm.Boolean",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "smokingAllowed",
"type": "Edm.Boolean",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "lastRenovationDate",
"type": "Edm.DateTimeOffset",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "rating",
"type": "Edm.Int32",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "location",
"type": "Edm.GeographyPoint",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
}
],
"scoringProfiles": [
{
"name": "geo",
"functionAggregation": "sum",
"text": {
"weights": {
"hotelName": 5
}
},
"functions": [
{
"type": "distance",
"boost": 5,
"fieldName": "location",
"interpolation": "logarithmic",
"distance": {
"referencePointParameter": "currentLocation",
"boostingDistance": 10
}
}
]
}
],
"defaultScoringProfile": "geo",
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"hotelName"
]
}
],
"analyzers": [
{
"name": "tagsAnalyzer",
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"charFilters": [
"html_strip"
],
"tokenizer": "standard_v2"
}
],
"tokenizers": [],
"tokenFilters": [],
"charFilters": [],
"corsOptions": {
"allowedOrigins": [
"tempuri.org"
],
"maxAgeInSeconds": 60
},
"encryptionKey": {
"keyVaultKeyName": "myKeyName",
"keyVaultKeyVersion": "myKeyVersion",
"keyVaultUri": "https://myKeyVault.vault.azure.net",
"accessCredentials": {
"applicationId": "00000000-0000-0000-0000-000000000000",
"applicationSecret": null
}
},
"semantic": {
"configurations": [
{
"name": "semanticHotels",
"prioritizedFields": {
"titleField": {
"fieldName": "hotelName"
},
"prioritizedContentFields": [
{
"fieldName": "description"
},
{
"fieldName": "description_fr"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "tags"
},
{
"fieldName": "category"
}
]
}
}
]
},
"vectorSearch": {
"algorithms": [
{
"name": "myHnsw",
"kind": "hnsw",
"hnswParameters": {
"metric": "cosine",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "myExhaustive",
"kind": "exhaustiveKnn",
"exhaustiveKnnParameters": {
"metric": "cosine"
}
}
],
"profiles": [
{
"name": "myHnswProfile",
"algorithm": "myHnsw"
},
{
"name": "myAlgorithm",
"algorithm": "myExhaustive"
}
]
}
}
Определения
Имя | Описание |
---|---|
Ascii |
Преобразует буквенные, числовые и символические символы Юникода, которые не входят в первые 127 символов ASCII (блок Юникода "Базовый латиница"), в их эквиваленты ASCII, если такие эквиваленты существуют. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Azure |
Учетные данные зарегистрированного приложения, созданного для службы поиска, которые используются для доступа с проверкой подлинности к ключам шифрования, хранящимся в Azure Key Vault. |
BM25Similarity |
Ранжирующая функция на основе алгоритма сходства Okapi BM25. BM25 — это алгоритм, подобный TF-IDF, который включает нормализацию длины (управляется параметром b), а также насыщение термином частоты (управляется параметром k1). |
Char |
Определяет имена всех фильтров символов, поддерживаемых поисковой системой. |
Cjk |
Формирует биграмы терминов CJK, созданные из стандартного создателя маркеров. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Cjk |
Скрипты, которые могут игнорироваться CjkBigramTokenFilter. |
Classic |
Устаревший алгоритм сходства, который использует реализацию Lucene TFIDFSimilarity TF-IDF. Этот вариант TF-IDF вводит нормализацию статической длины документов, а также координирующих факторов, которые наказывают документы, которые лишь частично соответствуют поисковым запросам. |
Classic |
Грамматический токенизатор, который подходит для обработки большинства документов на европейском языке. Этот создатель маркеров реализуется с помощью Apache Lucene. |
Common |
Создает биграммы для часто встречающихся терминов при индексировании. Отдельные термины также индексируются с наложением биграмм. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Cors |
Определяет параметры для управления общим доступом к ресурсам независимо от источника (CORS) для индекса. |
Custom |
Позволяет управлять процессом преобразования текста в индексируемые и доступные для поиска маркеры. Это определяемая пользователем конфигурация, состоящая из одного предопределенного создателя маркеров и одного или нескольких фильтров. Создатель маркеров отвечает за разбиение текста на маркеры и фильтры для изменения маркеров, созданных создателем маркеров. |
Dictionary |
Разбивает составные слова, распространенные во многих германских языках. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Distance |
Определяет функцию, которая повышает оценку на основе расстояния от географического расположения. |
Distance |
Предоставляет значения параметров для функции оценки расстояний. |
Edge |
Создает n граммов заданного размера, начиная с передней или задней части входного маркера. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Edge |
Указывает, на какой стороне входных данных должен быть создан n-грамм. |
Edge |
Создает n граммов заданного размера, начиная с передней или задней части входного маркера. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Edge |
Маркеризует входные данные из края в n-граммы заданного размера. Этот создатель маркеров реализуется с помощью Apache Lucene. |
Elision |
Удаляет элизии. Например, "l'avion" (плоскость) будет преобразована в "avion" (плоскость). Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Exhaustive |
Содержит параметры, относящиеся к исчерпывающим алгоритмам KNN. |
Exhaustive |
Содержит параметры конфигурации, характерные для исчерпывающего алгоритма KNN, используемого во время выполнения запросов, который будет выполнять поиск методом подбора по всему векторному индексу. |
Freshness |
Определяет функцию, которая повышает оценку на основе значения поля даты и времени. |
Freshness |
Предоставляет значения параметров для функции оценки актуальности. |
Hnsw |
Содержит параметры, относящиеся к алгоритму HNSW. |
Hnsw |
Содержит параметры конфигурации, относящиеся к алгоритму ближайших соседей HNSW, используемому во время индексирования и выполнения запросов. Алгоритм HNSW предлагает компромисс между скоростью и точностью поиска. |
Keep |
Фильтр маркеров, который хранит только маркеры с текстом, содержащимся в указанном списке слов. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Keyword |
Помечает термины как ключевые слова. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Keyword |
Выдает все входные данные в виде одного маркера. Этот создатель маркеров реализуется с помощью Apache Lucene. |
Keyword |
Выдает все входные данные в виде одного маркера. Этот создатель маркеров реализуется с помощью Apache Lucene. |
Length |
Удаляет слишком длинные или слишком короткие слова. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Lexical |
Определяет имена всех анализаторов текста, поддерживаемых поисковой системой. |
Lexical |
Определяет имена всех создателей маркеров, поддерживаемых поисковой системой. |
Limit |
Ограничивает количество маркеров при индексировании. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Lucene |
Стандартный анализатор Apache Lucene; Состоит из стандартного создателя маркеров, фильтра в нижнем регистре и фильтра stop. |
Lucene |
Разбивает текст по правилам сегментации текста в формате Юникод. Этот создатель маркеров реализуется с помощью Apache Lucene. |
Lucene |
Разбивает текст по правилам сегментации текста в формате Юникод. Этот создатель маркеров реализуется с помощью Apache Lucene. |
Magnitude |
Определяет функцию, которая повышает оценку на основе величины числового поля. |
Magnitude |
Предоставляет значения параметров для функции оценки величины. |
Mapping |
Фильтр символов, который применяет сопоставления, определенные с помощью параметра сопоставления. Сопоставление является каскадным (самое длинное сопоставление шаблона в заданной точке имеет приоритет). Замена может быть пустой строкой. Этот фильтр символов реализуется с помощью Apache Lucene. |
Microsoft |
Разделяет текст с помощью правил, зависящих от языка, и сводит слова к их базовым формам. |
Microsoft |
Разбивает текст на основе правил определенного языка. |
Microsoft |
Списки языки, поддерживаемые создателем маркеров языка Майкрософт. |
Microsoft |
Списки языки, поддерживаемые создателем маркеров языка Майкрософт. |
NGram |
Создает N-граммы заданного размера. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
NGram |
Создает N-граммы заданного размера. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
NGram |
Размечает входные данные на N-граммы заданного размера. Этот создатель маркеров реализуется с помощью Apache Lucene. |
Path |
Создатель маркеров для иерархий в виде пути. Этот создатель маркеров реализуется с помощью Apache Lucene. |
Pattern |
Гибко разделяет текст на термины с помощью шаблона регулярного выражения. Этот анализатор реализуется с помощью Apache Lucene. |
Pattern |
Использует регулярные выражения Java для создания нескольких маркеров — по одному для каждой группы захвата в одном или нескольких шаблонах. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Pattern |
Фильтр символов, заменяющий символы во входной строке. Он использует регулярное выражение, чтобы определить последовательности знаков, которые нужно сохранить, и шаблон замены, чтобы определить знаки для замены. Например, с учетом входного текста "aa bb aa bb", шаблона "(aa)\s+(bb)" и замены "$1#$2", результатом будет "aa#bb aa#bb". Этот фильтр символов реализуется с помощью Apache Lucene. |
Pattern |
Фильтр символов, заменяющий символы во входной строке. Он использует регулярное выражение, чтобы определить последовательности знаков, которые нужно сохранить, и шаблон замены, чтобы определить знаки для замены. Например, учитывая входной текст "aa bb aa bb", шаблон "(aa)\s+(bb)" и замену "$1#$2", результатом будет "aa#bb aa#bb". Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Pattern |
Создатель маркеров, использующий сопоставление шаблонов регулярных выражений для создания уникальных маркеров. Этот создатель маркеров реализуется с помощью Apache Lucene. |
Phonetic |
Определяет тип фонетического кодировщика для использования с PhoneticTokenFilter. |
Phonetic |
Создает маркеры для фонетических совпадений. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Prioritized |
Описывает поля заголовка, содержимого и ключевых слов, которые будут использоваться для семантического ранжирования, субтитров, выделений и ответов. |
Regex |
Определяет флаги, которые можно объединить для управления использованием регулярных выражений в анализаторе шаблонов и создателе маркеров шаблонов. |
Scoring |
Определяет агрегатную функцию, используемую для объединения результатов всех функций оценки в профиле оценки. |
Scoring |
Определяет функцию, используемую для интерполяции повышения оценки в диапазоне документов. |
Scoring |
Определяет параметры индекса поиска, влияющие на оценку в поисковых запросах. |
Search |
Описывает условие ошибки для API. |
Search |
Представляет поле в определении индекса, описывающее имя, тип данных и поведение поиска поля. |
Search |
Определяет тип данных поля в индексе поиска. |
Search |
Представляет определение индекса поиска, которое описывает поля и поведение поиска индекса. |
Search |
Ключ шифрования, управляемый клиентом, в Azure Key Vault. Ключи, которые вы создаете и которыми управляете, можно использовать для шифрования и расшифровки неактивных данных в службе поиска, таких как индексы и сопоставления синонимов. |
Semantic |
Определяет конкретную конфигурацию для использования в контексте семантических возможностей. |
Semantic |
Поле, используемое как часть семантической конфигурации. |
Semantic |
Определяет параметры для индекса поиска, которые влияют на семантические возможности. |
Shingle |
Создает сочетания маркеров в виде одного маркера. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Snowball |
Фильтр, который объединяет слова с помощью парадигматического модуля, созданного Snowball. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Snowball |
Язык, используемый для фильтра маркеров Snowball. |
Stemmer |
Предоставляет возможность переопределять другие фильтры с помощью пользовательского парадигматического поиска на основе словаря. Все термины, связанные со словарем, будут помечены как ключевые слова, чтобы они не были объединяться парадигматических модулей по цепочке. Необходимо поместить перед всеми стемминговыми фильтрами. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Stemmer |
Фильтр стволов для конкретного языка. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Stemmer |
Язык, используемый для фильтра маркеров парадигматического модуля. |
Stop |
Делит текст на небуквенный; Применяет фильтры токенов в нижнем регистре и маркеров стоп-слов. Этот анализатор реализуется с помощью Apache Lucene. |
Stopwords |
Определяет предопределенный список стоп-слов для конкретного языка. |
Stopwords |
Удаляет стоп-слова из потока маркеров. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Suggester |
Определяет, как API suggest должен применяться к группе полей в индексе. |
Suggester |
Значение , указывающее возможности средства подбора. |
Synonym |
Соответствует синонимам из одного или нескольких слов в потоке маркеров. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Tag |
Определяет функцию, которая повышает оценки документов со строковыми значениями, соответствующими заданному списку тегов. |
Tag |
Предоставляет значения параметров для функции оценки тегов. |
Text |
Определяет весовые коэффициенты для полей индекса, для которых совпадения должны повысить оценку в поисковых запросах. |
Token |
Представляет классы символов, с которыми может работать фильтр маркеров. |
Token |
Определяет имена всех фильтров маркеров, поддерживаемых поисковой системой. |
Truncate |
Усекает термины до определенной длины. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Uax |
Размечает URL-адреса и сообщения электронной почты как один маркер. Этот создатель маркеров реализуется с помощью Apache Lucene. |
Unique |
Отфильтровывает маркеры с тем же текстом, что и в предыдущем маркере. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Vector |
Содержит параметры конфигурации, связанные с поиском векторов. |
Vector |
Алгоритм, используемый для индексирования и выполнения запросов. |
Vector |
Метрика подобия, используемая для векторных сравнений. |
Vector |
Определяет сочетание конфигураций для использования с векторным поиском. |
Word |
Разделяет слова на подслова и выполняет необязательные преобразования в группах подслов. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
AsciiFoldingTokenFilter
Преобразует буквенные, числовые и символические символы Юникода, которые не входят в первые 127 символов ASCII (блок Юникода "Базовый латиница"), в их эквиваленты ASCII, если такие эквиваленты существуют. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
name |
string |
Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
|
preserveOriginal |
boolean |
False |
Значение, указывающее, будет ли сохранен исходный токен. Значение по умолчанию — false. |
AzureActiveDirectoryApplicationCredentials
Учетные данные зарегистрированного приложения, созданного для службы поиска, которые используются для доступа с проверкой подлинности к ключам шифрования, хранящимся в Azure Key Vault.
Имя | Тип | Описание |
---|---|---|
applicationId |
string |
Идентификатор приложения AAD, которому были предоставлены необходимые разрешения на доступ к Key Vault Azure, который будет использоваться при шифровании неактивных данных. Идентификатор приложения не следует путать с идентификатором объекта для приложения AAD. |
applicationSecret |
string |
Ключ проверки подлинности указанного приложения AAD. |
BM25Similarity
Ранжирующая функция на основе алгоритма сходства Okapi BM25. BM25 — это алгоритм, подобный TF-IDF, который включает нормализацию длины (управляется параметром b), а также насыщение термином частоты (управляется параметром k1).
Имя | Тип | Описание |
---|---|---|
@odata.type |
string:
#Microsoft. |
|
b |
number |
Это свойство определяет, как длина документа влияет на оценку релевантности. По умолчанию используется значение 0,75. Значение 0,0 означает, что нормализация длины не применяется, а значение 1,0 означает, что оценка полностью нормализована по длине документа. |
k1 |
number |
Это свойство управляет функцией масштабирования между частотой каждого соответствующего термина и конечной оценкой релевантности пары "документ-запрос". По умолчанию используется значение 1.2. Значение 0,0 означает, что оценка не масштабируется с увеличением частоты термина. |
CharFilterName
Определяет имена всех фильтров символов, поддерживаемых поисковой системой.
Имя | Тип | Описание |
---|---|---|
html_strip |
string |
Фильтр символов, который пытается удалить конструкции HTML. См. раздел https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html |
CjkBigramTokenFilter
Формирует биграмы терминов CJK, созданные из стандартного создателя маркеров. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
ignoreScripts |
Скрипты, которые следует игнорировать. |
||
name |
string |
Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
|
outputUnigrams |
boolean |
False |
Значение типа , указывающее, следует ли выводить как юниграммы, так и биграмы (если значение true) или просто bigrams (если false). Значение по умолчанию — false. |
CjkBigramTokenFilterScripts
Скрипты, которые могут игнорироваться CjkBigramTokenFilter.
Имя | Тип | Описание |
---|---|---|
han |
string |
Игнорируйте ханский скрипт при формировании биграмов терминов CJK. |
hangul |
string |
Игнорируйте скрипт Hangul при формировании биграмов терминов CJK. |
hiragana |
string |
Игнорируйте скрипт хираганы при формировании биграмов терминов CJK. |
katakana |
string |
Игнорируйте скрипт Катаканы при формировании биграмов терминов CJK. |
ClassicSimilarity
Устаревший алгоритм сходства, который использует реализацию Lucene TFIDFSimilarity TF-IDF. Этот вариант TF-IDF вводит нормализацию статической длины документов, а также координирующих факторов, которые наказывают документы, которые лишь частично соответствуют поисковым запросам.
Имя | Тип | Описание |
---|---|---|
@odata.type |
string:
#Microsoft. |
ClassicTokenizer
Грамматический токенизатор, который подходит для обработки большинства документов на европейском языке. Этот создатель маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип создателя маркеров. |
|
maxTokenLength |
integer |
255 |
Максимальная длина маркера. Значение по умолчанию — 255. Маркеры, размер которых превышает максимальную длину, разделяются. Максимальная длина маркера, которую можно использовать, составляет 300 символов. |
name |
string |
Имя создателя маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
CommonGramTokenFilter
Создает биграммы для часто встречающихся терминов при индексировании. Отдельные термины также индексируются с наложением биграмм. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
commonWords |
string[] |
Набор общих слов. |
|
ignoreCase |
boolean |
False |
Значение , указывающее, будет ли совпадение с общими словами без учета регистра. Значение по умолчанию — false. |
name |
string |
Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
|
queryMode |
boolean |
False |
Значение типа , указывающее, находится ли фильтр маркеров в режиме запроса. В режиме запроса фильтр маркеров создает bigrams, а затем удаляет распространенные слова и отдельные термины, за которыми следует общее слово. Значение по умолчанию — false. |
CorsOptions
Определяет параметры для управления общим доступом к ресурсам независимо от источника (CORS) для индекса.
Имя | Тип | Описание |
---|---|---|
allowedOrigins |
string[] |
Список источников, из которых коду JavaScript будет предоставлен доступ к индексу. Может содержать список узлов в формате {protocol}://{полное доменное имя}[:{port#}], или один |
maxAgeInSeconds |
integer |
Продолжительность, в течение которой браузеры должны кэшировать предварительные ответы CORS. Значение по умолчанию — 5 минут. |
CustomAnalyzer
Позволяет управлять процессом преобразования текста в индексируемые и доступные для поиска маркеры. Это определяемая пользователем конфигурация, состоящая из одного предопределенного создателя маркеров и одного или нескольких фильтров. Создатель маркеров отвечает за разбиение текста на маркеры и фильтры для изменения маркеров, созданных создателем маркеров.
Имя | Тип | Описание |
---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип анализатора. |
charFilters |
Список символьных фильтров, используемых для подготовки входного текста перед его обработкой создателем маркеров. Например, фильтр может заменить определенные знаки или символы. Фильтры выполняются в том порядке, в котором они перечислены. |
|
name |
string |
Имя анализатора. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
tokenFilters |
Список фильтров маркеров, используемых для фильтрации или изменения маркеров, созданных создателем маркеров. Например, вы можете указать специальный фильтр, который преобразует все символы в нижний регистр. Фильтры выполняются в том порядке, в котором они перечислены. |
|
tokenizer |
Имя создателя маркеров, используемое для разделения непрерывного текста на последовательность маркеров, например разбиение предложения на слова. |
DictionaryDecompounderTokenFilter
Разбивает составные слова, распространенные во многих германских языках. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
maxSubwordSize |
integer |
15 |
Максимальный размер подсловия. Выводятся только подслови, которые короче этого. Значение по умолчанию — 15. Максимум — 300. |
minSubwordSize |
integer |
2 |
Минимальный размер подсловия. Выводятся только подсовки, длиннее этого значения. По умолчанию используется значение 2. Максимум — 300. |
minWordSize |
integer |
5 |
Минимальный размер слова. Обрабатываются только слова дольше, чем это. Значение по умолчанию — 5. Максимум — 300. |
name |
string |
Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
|
onlyLongestMatch |
boolean |
False |
Значение типа , указывающее, следует ли добавлять в выходные данные только самое длинное соответствующее подсловие. Значение по умолчанию — false. |
wordList |
string[] |
Список слов для сопоставления. |
DistanceScoringFunction
Определяет функцию, которая повышает оценку на основе расстояния от географического расположения.
Имя | Тип | Описание |
---|---|---|
boost |
number |
Множитель для необработанной оценки. Должно быть положительным числом, не равным 1,0. |
distance |
Значения параметров для функции оценки расстояния. |
|
fieldName |
string |
Имя поля, используемого в качестве входных данных для функции оценки. |
interpolation |
Значение, указывающее, как будет интерполировано повышение по оценкам документа; по умолчанию — "Linear". |
|
type |
string:
distance |
Указывает тип используемой функции. Допустимые значения: magnitude, freshness, distance и tag. Тип функции должен быть в нижнем регистре. |
DistanceScoringParameters
Предоставляет значения параметров для функции оценки расстояний.
Имя | Тип | Описание |
---|---|---|
boostingDistance |
number |
Расстояние в километрах от эталонного расположения, где заканчивается диапазон повышения. |
referencePointParameter |
string |
Имя параметра, передаваемого в поисковых запросах для указания расположения ссылки. |
EdgeNGramTokenFilter
Создает n граммов заданного размера, начиная с передней или задней части входного маркера. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
maxGram |
integer |
2 |
Максимальная длина n-грамма. По умолчанию используется значение 2. |
minGram |
integer |
1 |
Минимальная n-граммовая длина. Значение по умолчанию: 1. Значение должно быть меньше значения maxGram. |
name |
string |
Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
|
side | front |
Указывает, на какой стороне входных данных должна быть создана n-грамма. Значение по умолчанию — front. |
EdgeNGramTokenFilterSide
Указывает, на какой стороне входных данных должен быть создан n-грамм.
Имя | Тип | Описание |
---|---|---|
back |
string |
Указывает, что n-грамм должен быть создан из задней части входных данных. |
front |
string |
Указывает, что n-грамм должен быть создан из передней части входных данных. |
EdgeNGramTokenFilterV2
Создает n граммов заданного размера, начиная с передней или задней части входного маркера. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
maxGram |
integer |
2 |
Максимальная длина n-грамма. По умолчанию используется значение 2. Максимум — 300. |
minGram |
integer |
1 |
Минимальная n-граммовая длина. Значение по умолчанию: 1. Максимум — 300. Значение должно быть меньше значения maxGram. |
name |
string |
Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
|
side | front |
Указывает, на какой стороне входных данных должна быть создана n-грамма. Значение по умолчанию — front. |
EdgeNGramTokenizer
Маркеризует входные данные из края в n-граммы заданного размера. Этот создатель маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип создателя маркеров. |
|
maxGram |
integer |
2 |
Максимальная n-граммовая длина. По умолчанию используется значение 2. Максимум — 300. |
minGram |
integer |
1 |
Минимальная n-граммовая длина. Значение по умолчанию: 1. Максимум — 300. Должно быть меньше значения maxGram. |
name |
string |
Имя создателя маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
|
tokenChars |
Классы символов для сохранения в маркерах. |
ElisionTokenFilter
Удаляет элизии. Например, "l'avion" (плоскость) будет преобразована в "avion" (плоскость). Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Описание |
---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
articles |
string[] |
Набор удаляемых статей. |
name |
string |
Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
ExhaustiveKnnParameters
Содержит параметры, относящиеся к исчерпывающим алгоритмам KNN.
Имя | Тип | Описание |
---|---|---|
metric |
Метрика подобия, используемая для векторных сравнений. |
ExhaustiveKnnVectorSearchAlgorithmConfiguration
Содержит параметры конфигурации, характерные для исчерпывающего алгоритма KNN, используемого во время выполнения запросов, который будет выполнять поиск методом подбора по всему векторному индексу.
Имя | Тип | Описание |
---|---|---|
exhaustiveKnnParameters |
Содержит параметры, относящиеся к исчерпывающим алгоритмам KNN. |
|
kind |
string:
exhaustive |
Имя типа алгоритма, настроенного для использования с векторным поиском. |
name |
string |
Имя, связываемые с этой конкретной конфигурацией. |
FreshnessScoringFunction
Определяет функцию, которая повышает оценку на основе значения поля даты и времени.
Имя | Тип | Описание |
---|---|---|
boost |
number |
Множитель для необработанной оценки. Должно быть положительным числом, не равным 1,0. |
fieldName |
string |
Имя поля, используемого в качестве входных данных для функции оценки. |
freshness |
Значения параметров для функции оценки актуальности. |
|
interpolation |
Значение, указывающее, как будет интерполировано повышение по оценкам документа; по умолчанию — "Linear". |
|
type |
string:
freshness |
Указывает тип используемой функции. Допустимые значения: magnitude, freshness, distance и tag. Тип функции должен быть в нижнем регистре. |
FreshnessScoringParameters
Предоставляет значения параметров для функции оценки актуальности.
Имя | Тип | Описание |
---|---|---|
boostingDuration |
string |
Срок действия, по истечении которого повышение будет прекращено для определенного документа. |
HnswParameters
Содержит параметры, относящиеся к алгоритму HNSW.
Имя | Тип | Default value | Описание |
---|---|---|---|
efConstruction |
integer |
400 |
Размер динамического списка, содержащего ближайшие соседи, который используется во время индексирования. Увеличение этого параметра может повысить качество индекса за счет увеличения времени индексирования. В определенный момент увеличение этого параметра приводит к уменьшению возвращаемого значения. |
efSearch |
integer |
500 |
Размер динамического списка, содержащего ближайшие соседи, который используется во время поиска. Увеличение этого параметра может улучшить результаты поиска за счет более медленного поиска. В определенный момент увеличение этого параметра приводит к уменьшению возвращаемого значения. |
m |
integer |
4 |
Количество двунаправленных связей, созданных для каждого нового элемента во время построения. Увеличение значения этого параметра может улучшить полноту и сократить время извлечения для наборов данных с высокой встроенной размерностью за счет увеличения потребления памяти и более длительного времени индексирования. |
metric |
Метрика подобия, используемая для векторных сравнений. |
HnswVectorSearchAlgorithmConfiguration
Содержит параметры конфигурации, относящиеся к алгоритму ближайших соседей HNSW, используемому во время индексирования и выполнения запросов. Алгоритм HNSW предлагает компромисс между скоростью и точностью поиска.
Имя | Тип | Описание |
---|---|---|
hnswParameters |
Содержит параметры, относящиеся к алгоритму HNSW. |
|
kind |
string:
hnsw |
Имя типа алгоритма, настроенного для использования с векторным поиском. |
name |
string |
Имя, связываемые с этой конкретной конфигурацией. |
KeepTokenFilter
Фильтр маркеров, который хранит только маркеры с текстом, содержащимся в указанном списке слов. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
keepWords |
string[] |
Список слов, которые нужно сохранить. |
|
keepWordsCase |
boolean |
False |
Значение, указывающее, следует ли в начале использовать все слова в нижнем регистре. Значение по умолчанию — false. |
name |
string |
Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
KeywordMarkerTokenFilter
Помечает термины как ключевые слова. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
ignoreCase |
boolean |
False |
Значение , указывающее, следует ли игнорировать регистр. Если значение равно true, все слова сначала преобразуются в строчные буквы. Значение по умолчанию — false. |
keywords |
string[] |
Список слов, которые нужно пометить как ключевые слова. |
|
name |
string |
Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
KeywordTokenizer
Выдает все входные данные в виде одного маркера. Этот создатель маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип создателя маркеров. |
|
bufferSize |
integer |
256 |
Размер буфера чтения в байтах. Значение по умолчанию — 256. |
name |
string |
Имя создателя маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
KeywordTokenizerV2
Выдает все входные данные в виде одного маркера. Этот создатель маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип создателя маркеров. |
|
maxTokenLength |
integer |
256 |
Максимальная длина маркера. Значение по умолчанию — 256. Маркеры, размер которых превышает максимальную длину, разделяются. Максимальная длина маркера, которую можно использовать, составляет 300 символов. |
name |
string |
Имя создателя маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
LengthTokenFilter
Удаляет слишком длинные или слишком короткие слова. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
max |
integer |
300 |
Максимальная длина в символах. По умолчанию и максимум — 300. |
min |
integer |
0 |
Минимальная длина символов. Значение по умолчанию — 0. Максимум — 300. Должно быть меньше значения max. |
name |
string |
Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
LexicalAnalyzerName
Определяет имена всех анализаторов текста, поддерживаемых поисковой системой.
Имя | Тип | Описание |
---|---|---|
ar.lucene |
string |
Анализатор Lucene для арабского языка. |
ar.microsoft |
string |
Анализатор Майкрософт для арабского языка. |
bg.lucene |
string |
Анализатор Lucene для болгарского. |
bg.microsoft |
string |
Анализатор Майкрософт для болгарского. |
bn.microsoft |
string |
Анализатор Майкрософт для Bangla. |
ca.lucene |
string |
Анализатор Lucene для каталонского. |
ca.microsoft |
string |
Анализатор Майкрософт для каталонского. |
cs.lucene |
string |
Анализатор Lucene для чешского языка. |
cs.microsoft |
string |
Анализатор Майкрософт для чешского языка. |
da.lucene |
string |
Анализатор Lucene для датского языка. |
da.microsoft |
string |
Анализатор Майкрософт для датского языка. |
de.lucene |
string |
Анализатор Lucene для немецкого языка. |
de.microsoft |
string |
Анализатор Майкрософт для немецкого языка. |
el.lucene |
string |
Анализатор Lucene для греческого языка. |
el.microsoft |
string |
Анализатор Майкрософт для греческого языка. |
en.lucene |
string |
Анализатор Lucene для английского языка. |
en.microsoft |
string |
Анализатор Майкрософт для английского языка. |
es.lucene |
string |
Анализатор Lucene для испанского языка. |
es.microsoft |
string |
Анализатор Майкрософт для испанского языка. |
et.microsoft |
string |
Анализатор Майкрософт для эстонии. |
eu.lucene |
string |
Анализатор Lucene для Баскского. |
fa.lucene |
string |
Анализатор Lucene для персидского языка. |
fi.lucene |
string |
Анализатор Lucene для финского языка. |
fi.microsoft |
string |
Анализатор Майкрософт для финского языка. |
fr.lucene |
string |
Анализатор Lucene для французского языка. |
fr.microsoft |
string |
Анализатор Майкрософт для французского языка. |
ga.lucene |
string |
Анализатор Lucene для ирландского языка. |
gl.lucene |
string |
Анализатор Lucene для Галисии. |
gu.microsoft |
string |
Анализатор Майкрософт для Гуджарати. |
he.microsoft |
string |
Анализатор Майкрософт для иврита. |
hi.lucene |
string |
Анализатор Lucene для хинди. |
hi.microsoft |
string |
Анализатор Майкрософт для хинди. |
hr.microsoft |
string |
Анализатор Майкрософт для хорватского языка. |
hu.lucene |
string |
Анализатор Lucene для венгерского. |
hu.microsoft |
string |
Анализатор Майкрософт для венгерского. |
hy.lucene |
string |
Анализатор Lucene для армянского. |
id.lucene |
string |
Анализатор Lucene для индонезийского языка. |
id.microsoft |
string |
Анализатор Майкрософт для индонезийского языка (Бахаса). |
is.microsoft |
string |
Анализатор Майкрософт для Исландии. |
it.lucene |
string |
Анализатор Lucene для итальянского языка. |
it.microsoft |
string |
Анализатор Майкрософт для итальянского языка. |
ja.lucene |
string |
Анализатор Lucene для японского языка. |
ja.microsoft |
string |
Анализатор Майкрософт для японского языка. |
keyword |
string |
Обрабатывает все содержимое поля как один маркер. Это полезно для данных некоторых типов, таких как почтовые индексы, идентификаторы и названия продуктов. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html |
kn.microsoft |
string |
Анализатор Майкрософт для Каннада. |
ko.lucene |
string |
Анализатор Lucene для корейского языка. |
ko.microsoft |
string |
Анализатор Майкрософт для корейского языка. |
lt.microsoft |
string |
Анализатор Майкрософт для литвы. |
lv.lucene |
string |
Анализатор Lucene для латышского языка. |
lv.microsoft |
string |
Анализатор Майкрософт для латышского языка. |
ml.microsoft |
string |
Анализатор Майкрософт для Малаялама. |
mr.microsoft |
string |
Анализатор Майкрософт для Маратхи. |
ms.microsoft |
string |
Анализатор Майкрософт для малайского языка (латиница). |
nb.microsoft |
string |
Анализатор Майкрософт для норвежского языка (букмол). |
nl.lucene |
string |
Анализатор Lucene для голландского языка. |
nl.microsoft |
string |
Анализатор Майкрософт для голландского языка. |
no.lucene |
string |
Анализатор Lucene для норвежского языка. |
pa.microsoft |
string |
Анализатор Майкрософт для Пенджаби. |
pattern |
string |
Гибко разделяет текст на термины с помощью шаблона регулярного выражения. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html |
pl.lucene |
string |
Анализатор Lucene для польского. |
pl.microsoft |
string |
Анализатор Майкрософт для польского. |
pt-BR.lucene |
string |
Анализатор Lucene для португальского языка (Бразилия). |
pt-BR.microsoft |
string |
Анализатор Майкрософт для португальского языка (Бразилия). |
pt-PT.lucene |
string |
Анализатор Lucene для португальского языка (Португалия). |
pt-PT.microsoft |
string |
Анализатор Майкрософт для португальского языка (Португалия). |
ro.lucene |
string |
Анализатор Lucene для румынского языка. |
ro.microsoft |
string |
Анализатор Майкрософт для румынского языка. |
ru.lucene |
string |
Анализатор Lucene для русского языка. |
ru.microsoft |
string |
Анализатор Майкрософт для русского языка. |
simple |
string |
Разбивает текст по небуквенным знакам и преобразует его в нижний регистр. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html |
sk.microsoft |
string |
Анализатор Майкрософт для словацкого языка. |
sl.microsoft |
string |
Анализатор Майкрософт для словенского языка. |
sr-cyrillic.microsoft |
string |
Анализатор Майкрософт для сербского языка (кириллица). |
sr-latin.microsoft |
string |
Анализатор Майкрософт для сербского языка (латиница). |
standard.lucene |
string |
Стандартный анализатор Lucene. |
standardasciifolding.lucene |
string |
Стандартный анализатор ASCII Свертывание Lucene. См. раздел https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers |
stop |
string |
Делит текст на небуквенный; Применяет фильтры токенов в нижнем регистре и маркеров стоп-слов. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html |
sv.lucene |
string |
Анализатор Lucene для шведского языка. |
sv.microsoft |
string |
Анализатор Майкрософт для шведского языка. |
ta.microsoft |
string |
Анализатор Майкрософт для Тамильского. |
te.microsoft |
string |
Анализатор Майкрософт для Telugu. |
th.lucene |
string |
Анализатор Lucene для тайского языка. |
th.microsoft |
string |
Анализатор Майкрософт для тайского языка. |
tr.lucene |
string |
Анализатор Lucene для турецкого языка. |
tr.microsoft |
string |
Анализатор Майкрософт для турецкого языка. |
uk.microsoft |
string |
Анализатор Майкрософт для украинского языка. |
ur.microsoft |
string |
Анализатор Майкрософт для Urdu. |
vi.microsoft |
string |
Анализатор Майкрософт для вьетнамского. |
whitespace |
string |
Анализатор, использующий создатель маркеров пробелов. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html |
zh-Hans.lucene |
string |
Анализатор Lucene для китайского языка (упрощенное письмо). |
zh-Hans.microsoft |
string |
Анализатор Майкрософт для китайского языка (упрощенное письмо). |
zh-Hant.lucene |
string |
Анализатор Lucene для китайского языка (традиционное письмо). |
zh-Hant.microsoft |
string |
Анализатор Майкрософт для китайского языка (традиционное письмо). |
LexicalTokenizerName
Определяет имена всех создателей маркеров, поддерживаемых поисковой системой.
Имя | Тип | Описание |
---|---|---|
classic |
string |
Грамматический создатель маркеров, который подходит для обработки большинства документов на европейском языке. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html |
edgeNGram |
string |
Маркеризует входные данные из ребра в n граммов заданного размера. См. раздел https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html |
keyword_v2 |
string |
Выдает все входные данные в виде одного маркера. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html |
letter |
string |
Разбивает текст по небуквенным знакам. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html |
lowercase |
string |
Разбивает текст по небуквенным знакам и преобразует его в нижний регистр. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html |
microsoft_language_stemming_tokenizer |
string |
Разделяет текст, используя правила для конкретного языка, и сводит слова к их базовым формам. |
microsoft_language_tokenizer |
string |
Разбивает текст на основе правил определенного языка. |
nGram |
string |
Размечает входные данные на N-граммы заданного размера. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html |
path_hierarchy_v2 |
string |
Создатель маркеров для иерархий в виде пути. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html |
pattern |
string |
Создатель маркеров, использующий сопоставление шаблонов регулярных выражений для создания уникальных маркеров. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html |
standard_v2 |
string |
Стандартный анализатор Lucene; Состоит из стандартного маркеризатора, нижнего регистра фильтра и фильтра stop. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html |
uax_url_email |
string |
Размечает URL-адреса и сообщения электронной почты как один маркер. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html |
whitespace |
string |
Разбивает текст по пробелам. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html |
LimitTokenFilter
Ограничивает количество маркеров при индексировании. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
consumeAllTokens |
boolean |
False |
Значение, указывающее, должны ли использоваться все маркеры из входных данных, даже если достигнут параметр maxTokenCount. Значение по умолчанию — false. |
maxTokenCount |
integer |
1 |
Максимальное число маркеров для создания. Значение по умолчанию: 1. |
name |
string |
Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
LuceneStandardAnalyzer
Стандартный анализатор Apache Lucene; Состоит из стандартного создателя маркеров, фильтра в нижнем регистре и фильтра stop.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип анализатора. |
|
maxTokenLength |
integer |
255 |
Максимальная длина маркера. Значение по умолчанию — 255. Маркеры, размер которых превышает максимальную длину, разделяются. Максимальная длина маркера, которую можно использовать, составляет 300 символов. |
name |
string |
Имя анализатора. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
|
stopwords |
string[] |
Список стоп-слов. |
LuceneStandardTokenizer
Разбивает текст по правилам сегментации текста в формате Юникод. Этот создатель маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип создателя маркеров. |
|
maxTokenLength |
integer |
255 |
Максимальная длина маркера. Значение по умолчанию — 255. Маркеры, размер которых превышает максимальную длину, разделяются. |
name |
string |
Имя создателя маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
LuceneStandardTokenizerV2
Разбивает текст по правилам сегментации текста в формате Юникод. Этот создатель маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип создателя маркеров. |
|
maxTokenLength |
integer |
255 |
Максимальная длина маркера. Значение по умолчанию — 255. Маркеры, размер которых превышает максимальную длину, разделяются. Максимальная длина маркера, которую можно использовать, составляет 300 символов. |
name |
string |
Имя создателя маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
MagnitudeScoringFunction
Определяет функцию, которая повышает оценку на основе величины числового поля.
Имя | Тип | Описание |
---|---|---|
boost |
number |
Множитель для необработанной оценки. Должно быть положительным числом, не равным 1,0. |
fieldName |
string |
Имя поля, используемого в качестве входных данных для функции оценки. |
interpolation |
Значение, указывающее, как будет интерполировано повышение по оценкам документа; по умолчанию — "Linear". |
|
magnitude |
Значения параметров для функции оценки величины. |
|
type |
string:
magnitude |
Указывает тип используемой функции. Допустимые значения: magnitude, freshness, distance и tag. Тип функции должен быть в нижнем регистре. |
MagnitudeScoringParameters
Предоставляет значения параметров для функции оценки величины.
Имя | Тип | Описание |
---|---|---|
boostingRangeEnd |
number |
Значение поля, на котором заканчивается повышение. |
boostingRangeStart |
number |
Значение поля, с которого начинается повышение. |
constantBoostBeyondRange |
boolean |
Значение, указывающее, следует ли применять постоянное увеличение значений полей за пределами конечного значения диапазона; Значение по умолчанию — false. |
MappingCharFilter
Фильтр символов, который применяет сопоставления, определенные с помощью параметра сопоставления. Сопоставление является каскадным (самое длинное сопоставление шаблона в заданной точке имеет приоритет). Замена может быть пустой строкой. Этот фильтр символов реализуется с помощью Apache Lucene.
Имя | Тип | Описание |
---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра char. |
mappings |
string[] |
Список сопоставлений в следующем формате: "a=>b" (все вхождения символа "a" будут заменены символом "b"). |
name |
string |
Имя фильтра char. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
MicrosoftLanguageStemmingTokenizer
Разделяет текст с помощью правил, зависящих от языка, и сводит слова к их базовым формам.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип создателя маркеров. |
|
isSearchTokenizer |
boolean |
False |
Значение , указывающее, как используется создатель маркеров. Задайте значение true, если используется в качестве создателя маркеров поиска, если используется в качестве маркеризатора индексирования. Значение по умолчанию — false. |
language |
Используемый язык. Значение по умолчанию — английский. |
||
maxTokenLength |
integer |
255 |
Максимальная длина маркера. Маркеры, размер которых превышает максимальную длину, разделяются. Максимальная допустимая длина маркера — 300 знаков. Маркеры длиной более 300 символов сначала разбиваются на маркеры длиной 300, а затем каждый из них разбивается на основе набора максимальной длины маркеров. Значение по умолчанию — 255. |
name |
string |
Имя создателя маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
MicrosoftLanguageTokenizer
Разбивает текст на основе правил определенного языка.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип создателя маркеров. |
|
isSearchTokenizer |
boolean |
False |
Значение , указывающее, как используется создатель маркеров. Задайте значение true, если используется в качестве создателя маркеров поиска, если используется в качестве маркеризатора индексирования. Значение по умолчанию — false. |
language |
Используемый язык. Значение по умолчанию — английский. |
||
maxTokenLength |
integer |
255 |
Максимальная длина маркера. Маркеры, размер которых превышает максимальную длину, разделяются. Максимальная допустимая длина маркера — 300 знаков. Маркеры длиной более 300 символов сначала разбиваются на маркеры длиной 300, а затем каждый из них разбивается на основе набора максимальной длины маркеров. Значение по умолчанию — 255. |
name |
string |
Имя создателя маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
MicrosoftStemmingTokenizerLanguage
Списки языки, поддерживаемые создателем маркеров языка Майкрософт.
Имя | Тип | Описание |
---|---|---|
arabic |
string |
Выбирает microsoft stemming tokenizer для арабского языка. |
bangla |
string |
Выбирает microsoft stemming tokenizer для Bangla. |
bulgarian |
string |
Выбирает microsoft stemming tokenizer для болгарского. |
catalan |
string |
Выбирает microsoft stemming tokenizer для каталонского. |
croatian |
string |
Выбирает microsoft stemming tokenizer для хорватского языка. |
czech |
string |
Выбирает microsoft stemming tokenizer для чешского языка. |
danish |
string |
Выбирает создатель маркеров microsoft stemming для датского языка. |
dutch |
string |
Выбирает microsoft stemming tokenizer для голландского языка. |
english |
string |
Выбирает microsoft stemming tokenizer для английского языка. |
estonian |
string |
Выбирает microsoft stemming tokenizer для эстонского языка. |
finnish |
string |
Выбирает microsoft stemming tokenizer для финского языка. |
french |
string |
Выбирает microsoft stemming tokenizer для французского языка. |
german |
string |
Выбирает microsoft stemming tokenizer для немецкого языка. |
greek |
string |
Выбирает microsoft stemming tokenizer для греческого языка. |
gujarati |
string |
Выбирает microsoft stemming tokenizer для Gujarati. |
hebrew |
string |
Выбирает microsoft stemming tokenizer для иврита. |
hindi |
string |
Выбирает microsoft stemming tokenizer для хинди. |
hungarian |
string |
Выбирает microsoft stemming tokenizer для венгерского. |
icelandic |
string |
Выбирает microsoft stemming tokenizer для исландского. |
indonesian |
string |
Выбирает microsoft stemming tokenizer для индонезийского языка. |
italian |
string |
Выбирает microsoft stemming tokenizer для итальянского языка. |
kannada |
string |
Выбирает microsoft stemming tokenizer для Kannada. |
latvian |
string |
Выбирает microsoft stemming tokenizer для латышского языка. |
lithuanian |
string |
Выбирает microsoft stemming tokenizer для литовского языка. |
malay |
string |
Выбирает microsoft stemming tokenizer для малайского. |
malayalam |
string |
Выбирает microsoft stemming tokenizer для Malayalam. |
marathi |
string |
Выбирает microsoft stemming tokenizer для Marathi. |
norwegianBokmaal |
string |
Выбирает microsoft stemming tokenizer для норвежского (букмол). |
polish |
string |
Выбирает microsoft stemming tokenizer для польского. |
portuguese |
string |
Выбирает microsoft stemming tokenizer для португальского языка. |
portugueseBrazilian |
string |
Выбирает microsoft stemming tokenizer для португальского языка (Бразилия). |
punjabi |
string |
Выбирает microsoft stemming tokenizer for Punjabi. |
romanian |
string |
Выбирает microsoft stemming tokenizer для румынского языка. |
russian |
string |
Выбирает microsoft stemming tokenizer для русского языка. |
serbianCyrillic |
string |
Выбирает microsoft stemming tokenizer для сербского (кириллица). |
serbianLatin |
string |
Выбирает microsoft stemming tokenizer для сербского (латиница). |
slovak |
string |
Выбирает создатель маркеров microsoft stemming для словацкого языка. |
slovenian |
string |
Выбирает microsoft stemming tokenizer для словенского языка. |
spanish |
string |
Выбирает microsoft stemming tokenizer для испанского языка. |
swedish |
string |
Выбирает microsoft stemming tokenizer для шведского языка. |
tamil |
string |
Выбирает microsoft stemming tokenizer для тамильского. |
telugu |
string |
Выбирает microsoft stemming tokenizer для Telugu. |
turkish |
string |
Выбирает microsoft stemming tokenizer для турецкого языка. |
ukrainian |
string |
Выбирает microsoft stemming tokenizer для украинского языка. |
urdu |
string |
Выбирает microsoft stemming tokenizer для Urdu. |
MicrosoftTokenizerLanguage
Списки языки, поддерживаемые создателем маркеров языка Майкрософт.
Имя | Тип | Описание |
---|---|---|
bangla |
string |
Выбирает создатель токенов Майкрософт для Bangla. |
bulgarian |
string |
Выбирает создатель маркеров Майкрософт для болгарского. |
catalan |
string |
Выбирает создатель токенов Майкрософт для каталонского. |
chineseSimplified |
string |
Выбирает создатель токенов Майкрософт для китайского языка (упрощенное письмо). |
chineseTraditional |
string |
Выбирает создатель токенов Майкрософт для китайского языка (традиционное письмо). |
croatian |
string |
Выбирает создатель токенов Майкрософт для хорватского языка. |
czech |
string |
Выбирает создатель токенов Майкрософт для чешского языка. |
danish |
string |
Выбирает создатель токенов Майкрософт для датского языка. |
dutch |
string |
Выбирает создатель токенов Майкрософт для голландского языка. |
english |
string |
Выбирает создатель маркеров Майкрософт для английского языка. |
french |
string |
Выбирает создатель токенов Майкрософт для французского языка. |
german |
string |
Выбирает microsoft tokenizer для немецкого языка. |
greek |
string |
Выбирает создатель токенов Майкрософт для греческого языка. |
gujarati |
string |
Выбирает создатель токенов Майкрософт для Gujarati. |
hindi |
string |
Выбирает microsoft tokenizer для хинди. |
icelandic |
string |
Выбирает создатель токенов Майкрософт для исландского. |
indonesian |
string |
Выбирает создатель токенов Майкрософт для индонезийского языка. |
italian |
string |
Выбирает создатель токенов Майкрософт для итальянского языка. |
japanese |
string |
Выбирает создатель токенов Майкрософт для японского языка. |
kannada |
string |
Выбирает создатель токенов Майкрософт для Kannada. |
korean |
string |
Выбирает microsoft tokenizer для корейского языка. |
malay |
string |
Выбирает microsoft tokenizer для малайского. |
malayalam |
string |
Выбирает создатель маркеров Майкрософт для Малаялам. |
marathi |
string |
Выбирает создатель маркеров Майкрософт для Маратхи. |
norwegianBokmaal |
string |
Выбирает microsoft tokenizer для норвежского (букмол). |
polish |
string |
Выбирает создатель токенов Майкрософт для польского. |
portuguese |
string |
Выбирает создатель токенов Майкрософт для португальского языка. |
portugueseBrazilian |
string |
Выбирает создатель токенов Майкрософт для португальского языка (Бразилия). |
punjabi |
string |
Выбирает создатель токенов Майкрософт для пенджаби. |
romanian |
string |
Выбирает создатель токенов Майкрософт для румынского языка. |
russian |
string |
Выбирает создатель токенов Майкрософт для русского языка. |
serbianCyrillic |
string |
Выбирает microsoft tokenizer для сербского языка (кириллица). |
serbianLatin |
string |
Выбирает microsoft tokenizer для сербского языка (латиница). |
slovenian |
string |
Выбирает создатель токенов Майкрософт для словенского языка. |
spanish |
string |
Выбирает создатель токенов Майкрософт для испанского языка. |
swedish |
string |
Выбирает создатель токенов Майкрософт для шведского языка. |
tamil |
string |
Выбирает создатель токенов Майкрософт для тамильского. |
telugu |
string |
Выбирает создатель токенов Майкрософт для Telugu. |
thai |
string |
Выбирает создатель токенов Майкрософт для тайского языка. |
ukrainian |
string |
Выбирает создатель токенов Майкрософт для украинского языка. |
urdu |
string |
Выбирает создатель токенов Майкрософт для urdu. |
vietnamese |
string |
Выбирает создатель токенов Майкрософт для вьетнамского. |
NGramTokenFilter
Создает N-граммы заданного размера. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
maxGram |
integer |
2 |
Максимальная n-граммовая длина. По умолчанию используется значение 2. |
minGram |
integer |
1 |
Минимальная n-граммовая длина. Значение по умолчанию: 1. Должно быть меньше значения maxGram. |
name |
string |
Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
NGramTokenFilterV2
Создает N-граммы заданного размера. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
maxGram |
integer |
2 |
Максимальная n-граммовая длина. По умолчанию используется значение 2. Максимум — 300. |
minGram |
integer |
1 |
Минимальная n-граммовая длина. Значение по умолчанию: 1. Максимум — 300. Должно быть меньше значения maxGram. |
name |
string |
Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
NGramTokenizer
Размечает входные данные на N-граммы заданного размера. Этот создатель маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип создателя маркеров. |
|
maxGram |
integer |
2 |
Максимальная n-граммовая длина. По умолчанию используется значение 2. Максимум — 300. |
minGram |
integer |
1 |
Минимальная n-граммовая длина. Значение по умолчанию: 1. Максимум — 300. Должно быть меньше значения maxGram. |
name |
string |
Имя создателя маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
|
tokenChars |
Классы символов для сохранения в маркерах. |
PathHierarchyTokenizerV2
Создатель маркеров для иерархий в виде пути. Этот создатель маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип создателя маркеров. |
|
delimiter |
string |
/ |
Используемый символ разделителя. Значение по умолчанию — "/". |
maxTokenLength |
integer |
300 |
Максимальная длина маркера. По умолчанию и максимум — 300. |
name |
string |
Имя создателя маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
|
replacement |
string |
/ |
Значение , которое, если задано, заменяет символ разделителя. Значение по умолчанию — "/". |
reverse |
boolean |
False |
Значение, указывающее, следует ли создавать маркеры в обратном порядке. Значение по умолчанию — false. |
skip |
integer |
0 |
Количество пропускаемых начальных маркеров. Значение по умолчанию — 0. |
PatternAnalyzer
Гибко разделяет текст на термины с помощью шаблона регулярного выражения. Этот анализатор реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип анализатора. |
|
flags |
Флаги регулярных выражений. |
||
lowercase |
boolean |
True |
Значение, указывающее, следует ли указывать термины в нижнем регистре. Значение по умолчанию — true. |
name |
string |
Имя анализатора. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
|
pattern |
string |
\W+ |
Шаблон регулярного выражения для сопоставления разделителей маркеров. По умолчанию является выражением, которое соответствует одному или нескольким символам, не являющихся словами. |
stopwords |
string[] |
Список стоп-слов. |
PatternCaptureTokenFilter
Использует регулярные выражения Java для создания нескольких маркеров — по одному для каждой группы захвата в одном или нескольких шаблонах. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
name |
string |
Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
|
patterns |
string[] |
Список шаблонов для сопоставления с каждым токеном. |
|
preserveOriginal |
boolean |
True |
Значение, указывающее, следует ли возвращать исходный маркер, даже если один из шаблонов совпадает. Значение по умолчанию — true. |
PatternReplaceCharFilter
Фильтр символов, заменяющий символы во входной строке. Он использует регулярное выражение, чтобы определить последовательности знаков, которые нужно сохранить, и шаблон замены, чтобы определить знаки для замены. Например, с учетом входного текста "aa bb aa bb", шаблона "(aa)\s+(bb)" и замены "$1#$2", результатом будет "aa#bb aa#bb". Этот фильтр символов реализуется с помощью Apache Lucene.
Имя | Тип | Описание |
---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра char. |
name |
string |
Имя фильтра char. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
pattern |
string |
Шаблон регулярного выражения. |
replacement |
string |
Текст замены. |
PatternReplaceTokenFilter
Фильтр символов, заменяющий символы во входной строке. Он использует регулярное выражение, чтобы определить последовательности знаков, которые нужно сохранить, и шаблон замены, чтобы определить знаки для замены. Например, учитывая входной текст "aa bb aa bb", шаблон "(aa)\s+(bb)" и замену "$1#$2", результатом будет "aa#bb aa#bb". Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Описание |
---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
name |
string |
Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
pattern |
string |
Шаблон регулярного выражения. |
replacement |
string |
Текст замены. |
PatternTokenizer
Создатель маркеров, использующий сопоставление шаблонов регулярных выражений для создания уникальных маркеров. Этот создатель маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип создателя маркеров. |
|
flags |
Флаги регулярных выражений. |
||
group |
integer |
-1 |
Отсчитываемый от нуля порядковый номер соответствующей группы в шаблоне регулярного выражения для извлечения в маркеры. Используйте значение -1, если вы хотите использовать весь шаблон для разделения входных данных на маркеры независимо от соответствующих групп. Значение по умолчанию — -1. |
name |
string |
Имя создателя маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
|
pattern |
string |
\W+ |
Шаблон регулярного выражения для сопоставления разделителей маркеров. По умолчанию является выражением, которое соответствует одному или нескольким символам, не являющихся словами. |
PhoneticEncoder
Определяет тип фонетического кодировщика для использования с PhoneticTokenFilter.
Имя | Тип | Описание |
---|---|---|
beiderMorse |
string |
Кодирует маркер в значение Beider-Morse. |
caverphone1 |
string |
Кодирует токен в значение Caverphone 1.0. |
caverphone2 |
string |
Кодирует токен в значение Caverphone 2.0. |
cologne |
string |
Кодирует токен в фонетическое значение Кельна. |
doubleMetaphone |
string |
Кодирует маркер в значение двойного метафона. |
haasePhonetik |
string |
Кодирует токен с помощью уточнения Haase алгоритма Kölner Phonetik. |
koelnerPhonetik |
string |
Кодирует маркер с помощью алгоритма Kölner Phonetik. |
metaphone |
string |
Кодирует маркер в значение Метафона. |
nysiis |
string |
Кодирует маркер в значение NYSIIS. |
refinedSoundex |
string |
Кодирует токен в уточненное значение Soundex. |
soundex |
string |
Кодирует маркер в значение Soundex. |
PhoneticTokenFilter
Создает маркеры для фонетических совпадений. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
encoder | metaphone |
Используемый фонетический кодировщик. Значение по умолчанию — metaphone. |
|
name |
string |
Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
|
replace |
boolean |
True |
Значение , указывающее, должны ли закодированные маркеры заменять исходные маркеры. Если значение равно false, закодированные маркеры добавляются в качестве синонимов. Значение по умолчанию — true. |
PrioritizedFields
Описывает поля заголовка, содержимого и ключевых слов, которые будут использоваться для семантического ранжирования, субтитров, выделений и ответов.
Имя | Тип | Описание |
---|---|---|
prioritizedContentFields |
Определяет поля содержимого, которые будут использоваться для семантического ранжирования, субтитров, выделений и ответов. Для наилучшего результата выбранные поля должны содержать текст в форме естественного языка. Порядок полей в массиве представляет их приоритет. Поля с более низким приоритетом могут быть усечены, если содержимое длинное. |
|
prioritizedKeywordsFields |
Определяет поля ключевое слово, которые будут использоваться для семантического ранжирования, субтитров, выделений и ответов. Для наилучшего результата выбранные поля должны содержать список ключевых слов. Порядок полей в массиве представляет их приоритет. Поля с более низким приоритетом могут быть усечены, если содержимое длинное. |
|
titleField |
Определяет поле заголовка, которое будет использоваться для семантического ранжирования, субтитров, выделений и ответов. Если в индексе нет поля заголовка, оставьте это поле пустым. |
RegexFlags
Определяет флаги, которые можно объединить для управления использованием регулярных выражений в анализаторе шаблонов и создателе маркеров шаблонов.
Имя | Тип | Описание |
---|---|---|
CANON_EQ |
string |
Включает каноническую эквивалентность. |
CASE_INSENSITIVE |
string |
Включает сопоставление без учета регистра. |
COMMENTS |
string |
Разрешает пробелы и комментарии в шаблоне. |
DOTALL |
string |
Включает режим dotall. |
LITERAL |
string |
Включает литеральный анализ шаблона. |
MULTILINE |
string |
Включает многостроковый режим. |
UNICODE_CASE |
string |
Включает свертывание регистра с поддержкой Юникода. |
UNIX_LINES |
string |
Включает режим линий Unix. |
ScoringFunctionAggregation
Определяет агрегатную функцию, используемую для объединения результатов всех функций оценки в профиле оценки.
Имя | Тип | Описание |
---|---|---|
average |
string |
Увелижи оценку на среднее значение для всех результатов функции оценки. |
firstMatching |
string |
Повышение оценок с помощью первой применимой функции оценки в профиле оценки. |
maximum |
string |
Увеливание оценок на максимальное количество всех результатов функции оценки. |
minimum |
string |
Увелижите оценки на минимум всех результатов функции оценки. |
sum |
string |
Увелижи оценки на сумму всех результатов функции оценки. |
ScoringFunctionInterpolation
Определяет функцию, используемую для интерполяции повышения оценки в диапазоне документов.
Имя | Тип | Описание |
---|---|---|
constant |
string |
Повышает оценку на постоянный коэффициент. |
linear |
string |
Повышает оценку на линейно уменьшающуюся величину. Это интерполяция по умолчанию для функций оценки. |
logarithmic |
string |
Повышает оценку на величину, которая логарифмически уменьшается. Повышение быстро уменьшается для более высоких оценок и медленнее по мере уменьшения оценок. Этот тип интерполяции невозможно использовать в функциях оценки tag. |
quadratic |
string |
Увеличивает баллы на величину, которая уменьшается в четыре раза. Повышение медленно уменьшается для более высоких оценок и быстрее по мере уменьшения оценок. Этот тип интерполяции невозможно использовать в функциях оценки tag. |
ScoringProfile
Определяет параметры индекса поиска, влияющие на оценку в поисковых запросах.
Имя | Тип | Описание |
---|---|---|
functionAggregation |
Значение , указывающее, как следует объединять результаты отдельных функций оценки. По умолчанию — "Sum". Игнорируется, если отсутствуют функции оценки. |
|
functions | ScoringFunction[]: |
Коллекция функций, влияющих на оценку документов. |
name |
string |
Имя профиля оценки. |
text |
Параметры, повышающие оценку на основе совпадений текста в определенных полях индекса. |
SearchError
Описывает условие ошибки для API.
Имя | Тип | Описание |
---|---|---|
code |
string |
Один из серверных наборов кодов ошибок. |
details |
Массив сведений о конкретных ошибках, которые привели к этой сообщаемой ошибке. |
|
message |
string |
Понятное представление ошибки. |
SearchField
Представляет поле в определении индекса, описывающее имя, тип данных и поведение поиска поля.
Имя | Тип | Описание |
---|---|---|
analyzer |
Имя анализатора, используемого для поля. Этот параметр можно использовать только с полями, поддерживающими поиск. Параметр не совместим с элементами searchAnalyzer и indexAnalyzer. Выбрав для поля анализатор, его невозможно изменить. Для сложных полей должен иметь значение NULL. |
|
dimensions |
integer |
Размерность поля вектора. |
facetable |
boolean |
Значение , указывающее, следует ли включить ссылку на поле в фасетных запросах. Обычно используется в представлении результатов поиска, включая количество попаданий по категориям (например, поиск цифровых камер и просмотр хитов по брендам, мегапикселям, по цене и т. д.). Это свойство должно иметь значение NULL для сложных полей. Поля типа Edm.GeographyPoint или Collection(Edm.GeographyPoint) не могут быть фасетными. Значение по умолчанию равно true для всех других простых полей. |
fields |
Список вложенных полей, если это поле типа Edm.ComplexType или Collection(Edm.ComplexType). Для простых полей должно быть равно NULL или пустому значению. |
|
filterable |
boolean |
Значение , указывающее, следует ли включить ссылку на поле в $filter запросах. Фильтруемый отличается от доступных для поиска способом обработки строк. Поля типа Edm.String или Collection(Edm.String), которые можно фильтровать, не подвергаются разбиениям по словам, поэтому сравнения выполняются только для точных совпадений. Например, если задать для такого поля f значение "солнечный день", $filter=f eq "солнечный" не найдет совпадений, но $filter=f eq "солнечный день". Это свойство должно иметь значение NULL для сложных полей. Значение по умолчанию равно true для простых полей и null для сложных полей. |
indexAnalyzer |
Имя анализатора, используемого во время индексирования для поля. Этот параметр можно использовать только с полями с возможностью поиска. Он должен быть задан вместе с searchAnalyzer и не может быть задан вместе с параметром анализатора. Для этого свойства нельзя задать имя анализатора языка; Используйте свойство анализатора, если вам нужен анализатор языка. Выбрав для поля анализатор, его невозможно изменить. Для сложных полей должен иметь значение NULL. |
|
key |
boolean |
Значение , указывающее, однозначно ли поле идентифицирует документы в индексе. В качестве ключевого поля должно быть выбрано ровно одно поле верхнего уровня в каждом индексе и иметь тип Edm.String. Ключевые поля можно использовать для поиска документов напрямую, а также для обновления или удаления определенных документов. Значение по умолчанию равно false для простых полей и null для сложных полей. |
name |
string |
Имя поля, которое должно быть уникальным в коллекции полей индекса или родительского поля. |
retrievable |
boolean |
Значение , указывающее, может ли поле быть возвращено в результатах поиска. Этот параметр можно отключить, если вы хотите использовать поле (например, поле) в качестве механизма фильтрации, сортировки или оценки, но не хотите, чтобы поле было видимым для конечного пользователя. Это свойство должно иметь значение true для ключевых полей, а для сложных полей — значение NULL. Это свойство можно изменить в существующих полях. Включение этого свойства не приводит к увеличению требований к хранилищу индексов. Значение по умолчанию равно true для простых полей и null для сложных полей. |
searchAnalyzer |
Имя анализатора, используемого во время поиска поля. Этот параметр можно использовать только с полями с возможностью поиска. Он должен быть задан вместе с indexAnalyzer и не может быть задан вместе с параметром анализатора. Для этого свойства нельзя задать имя анализатора языка; Используйте свойство анализатора, если вам нужен анализатор языка. Этот анализатор можно обновить на существующее поле. Для сложных полей должен иметь значение NULL. |
|
searchable |
boolean |
Значение , указывающее, доступно ли поле для полнотекстового поиска. Это означает, что во время индексирования оно будет включено в анализ (в частности, для разбиения на слова). Если, например, задать для поля, поддерживающего поиск, значение sunny day (солнечный день), оно будет разделено на элементы sunny и day. В результате эти слова смогут участвовать в полнотекстовом поиске. Поля типа Edm.String или Collection(Edm.String) доступны для поиска по умолчанию. Это свойство должно иметь значение false для простых полей других нестроковых типов данных, а для сложных полей — null. Примечание. Поля, доступные для поиска, занимают дополнительное место в индексе для размещения дополнительных версий значения поля с маркерами для полнотекстового поиска. Если вы хотите сэкономить место в индексе и вам не нужно включать поле в поисковые запросы, задайте для поиска значение false. |
sortable |
boolean |
Значение , указывающее, следует ли включить ссылку на поле в $orderby выражениях. По умолчанию поисковая система сортирует результаты по оценке, но во многих интерфейсах пользователи хотят выполнять сортировку по полям в документах. Простое поле можно сортировать только в том случае, если оно имеет одно значение (оно имеет одно значение в область родительского документа). Простые поля коллекции нельзя сортировать, так как они имеют многозначное значение. Простые вложенные поля сложных коллекций также имеют многозначные значения и поэтому не могут быть сортируемыми. Это верно, будь то непосредственное родительское поле или поле предка, это сложная коллекция. Сложные поля не могут быть сортируемыми, и свойство сортируемой функции должно иметь значение NULL для таких полей. Значение по умолчанию для сортируемых полей равно true для простых полей с одним значением, false для простых полей с несколькими значениями и null для сложных полей. |
synonymMaps |
string[] |
Список имен сопоставлений синонимов, которые необходимо связать с этим полем. Этот параметр можно использовать только с полями с возможностью поиска. В настоящее время поддерживается только одна карта синонимов для каждого поля. Назначение сопоставления синонимов полю гарантирует, что термины запроса, предназначенные для этого поля, будут развернуты во время запроса с помощью правил в карте синонимов. Этот атрибут можно изменить в существующих полях. Для сложных полей должен иметь значение NULL или пустую коллекцию. |
type |
Тип данных поля. |
|
vectorSearchProfile |
string |
Имя профиля поиска вектора, указывающее алгоритм, используемый при поиске векторного поля. |
SearchFieldDataType
Определяет тип данных поля в индексе поиска.
Имя | Тип | Описание |
---|---|---|
Edm.Boolean |
string |
Указывает, что поле содержит логическое значение (true или false). |
Edm.ComplexType |
string |
Указывает, что поле содержит один или несколько сложных объектов, которые, в свою очередь, содержат вложенные поля других типов. |
Edm.DateTimeOffset |
string |
Указывает, что поле содержит значение даты и времени, включая сведения о часовом поясе. |
Edm.Double |
string |
Указывает, что поле содержит число с плавающей запятой двойной точности IEEE. |
Edm.GeographyPoint |
string |
Указывает, что поле содержит географическое расположение с точки зрения долготы и широты. |
Edm.Int32 |
string |
Указывает, что поле содержит 32-разрядное целое число со знаком. |
Edm.Int64 |
string |
Указывает, что поле содержит 64-разрядное целое число со знаком. |
Edm.Single |
string |
Указывает, что поле содержит число с плавающей запятой одной точности. Это допустимо только при использовании с Collection(Edm.Single). |
Edm.String |
string |
Указывает, что поле содержит строку. |
SearchIndex
Представляет определение индекса поиска, которое описывает поля и поведение поиска индекса.
Имя | Тип | Описание |
---|---|---|
@odata.etag |
string |
ETag индекса. |
analyzers | LexicalAnalyzer[]: |
Анализаторы для индекса. |
charFilters | CharFilter[]: |
Символьные фильтры для индекса. |
corsOptions |
Параметры управления общим доступом к ресурсам независимо от источника (CORS) для индекса. |
|
defaultScoringProfile |
string |
Имя профиля оценки, используемого, если в запросе нет. Если это свойство не задано и в запросе не указан профиль оценки, будет использоваться оценка по умолчанию (tf-idf). |
encryptionKey |
Описание ключа шифрования, созданного в Azure Key Vault. Этот ключ используется для обеспечения дополнительного уровня шифрования неактивных данных, если требуется полная гарантия того, что никто, даже корпорация Майкрософт, не может расшифровать ваши данные. После шифрования данных они всегда остаются зашифрованными. Служба поиска игнорирует попытки присвоить этому свойству значение NULL. Это свойство можно изменить при необходимости, если требуется сменить ключ шифрования. Ваши данные не будут затронуты. Шифрование с помощью ключей, управляемых клиентом, недоступно для бесплатных служб поиска и доступно только для платных служб, созданных 1 января 2019 года или позже. |
|
fields |
Поля индекса. |
|
name |
string |
Имя индекса. |
scoringProfiles |
Профили оценки для индекса. |
|
semantic |
Определяет параметры для индекса поиска, влияющие на семантические возможности. |
|
similarity | Similarity: |
Тип алгоритма сходства, используемого при оценке и ранжировании документов, соответствующих поисковому запросу. Алгоритм подобия может быть определен только во время создания индекса и не может быть изменен в существующих индексах. Если значение равно null, используется алгоритм ClassicSimilarity. |
suggesters |
Средства подбора для индекса. |
|
tokenFilters |
TokenFilter[]:
|
Маркер фильтрует индекс. |
tokenizers | LexicalTokenizer[]: |
Создатели маркеров для индекса. |
vectorSearch |
Содержит параметры конфигурации, связанные с поиском векторов. |
SearchResourceEncryptionKey
Ключ шифрования, управляемый клиентом, в Azure Key Vault. Ключи, которые вы создаете и которыми управляете, можно использовать для шифрования и расшифровки неактивных данных в службе поиска, таких как индексы и сопоставления синонимов.
Имя | Тип | Описание |
---|---|---|
accessCredentials |
Необязательные учетные данные Azure Active Directory, используемые для доступа к Key Vault Azure. Не требуется, если вместо этого используется управляемое удостоверение. |
|
keyVaultKeyName |
string |
Имя ключа Key Vault Azure, который будет использоваться для шифрования неактивных данных. |
keyVaultKeyVersion |
string |
Версия ключа Key Vault Azure, который будет использоваться для шифрования неактивных данных. |
keyVaultUri |
string |
URI Key Vault Azure, также называемого DNS-именем, который содержит ключ, используемый для шифрования неактивных данных. Пример URI: |
SemanticConfiguration
Определяет конкретную конфигурацию для использования в контексте семантических возможностей.
Имя | Тип | Описание |
---|---|---|
name |
string |
Имя семантической конфигурации. |
prioritizedFields |
Описывает поля заголовка, содержимого и ключевое слово, которые будут использоваться для семантического ранжирования, субтитров, выделений и ответов. Необходимо задать по крайней мере одно из трех вложенных свойств (titleField, prioritizedKeywordsFields и prioritizedContentFields). |
SemanticField
Поле, используемое как часть семантической конфигурации.
Имя | Тип | Описание |
---|---|---|
fieldName |
string |
SemanticSettings
Определяет параметры для индекса поиска, которые влияют на семантические возможности.
Имя | Тип | Описание |
---|---|---|
configurations |
Семантические конфигурации для индекса. |
|
defaultConfiguration |
string |
Позволяет задать имя семантической конфигурации по умолчанию в индексе, делая необязательным передавать его в качестве параметра запроса каждый раз. |
ShingleTokenFilter
Создает сочетания маркеров в виде одного маркера. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
filterToken |
string |
_ |
Строка для вставки для каждой позиции, в которой нет маркера. По умолчанию используется символ подчеркивания ("_"). |
maxShingleSize |
integer |
2 |
Максимальный размер гальки. По умолчанию и минимальное значение — 2. |
minShingleSize |
integer |
2 |
Минимальный размер гальки. По умолчанию и минимальное значение — 2. Должно быть меньше значения maxShingleSize. |
name |
string |
Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
|
outputUnigrams |
boolean |
True |
Значение , указывающее, будет ли выходной поток содержать входные маркеры (юниграммы), а также черепица. Значение по умолчанию — true. |
outputUnigramsIfNoShingles |
boolean |
False |
Значение, указывающее, следует ли выводить юниграммы для тех случаев, когда не доступны черепицы. Это свойство имеет приоритет, если outputUnigrams имеет значение false. Значение по умолчанию — false. |
tokenSeparator |
string |
Строка, используемая при объединении смежных маркеров для формирования голени. По умолчанию используется один пробел (" "). |
SnowballTokenFilter
Фильтр, который объединяет слова с помощью парадигматического модуля, созданного Snowball. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Описание |
---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
language |
Используемый язык. |
|
name |
string |
Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
SnowballTokenFilterLanguage
Язык, используемый для фильтра маркеров Snowball.
Имя | Тип | Описание |
---|---|---|
armenian |
string |
Выбирает создатель маркеров для метки Lucene Snowball для армянского. |
basque |
string |
Выбирает создатель маркеров люсена Снежного кома для баскского. |
catalan |
string |
Выбирает создатель маркеров люсене Snowball для каталонского. |
danish |
string |
Выбирает создатель маркеров люсена Снежного кома для датского языка. |
dutch |
string |
Выбирает создатель маркеров люсене Snowball для голландского языка. |
english |
string |
Выбирает создатель маркеров люсене Snowball для английского языка. |
finnish |
string |
Выбирает создатель маркеров люсене Snowball для финского языка. |
french |
string |
Выбирает создатель маркеров люсена Снежного кома для французского языка. |
german |
string |
Выбирает создатель маркеров люсене Snowball для немецкого языка. |
german2 |
string |
Выбирает создатель маркеров для парадигмы Lucene Snowball, который использует немецкий алгоритм вариантов. |
hungarian |
string |
Выбирает создатель маркеров люсене Snowball для венгерского. |
italian |
string |
Выбирает создатель маркеров люсене Snowball для итальянского языка. |
kp |
string |
Выбирает создатель маркеров для выделения стволов Lucene Snowball для голландского языка, использующего алгоритм Kraaij-Pohlmann. |
lovins |
string |
Выбирает создатель маркеров для корежки Lucene Snowball для английского языка, который использует алгоритм парадигмы Lovins. |
norwegian |
string |
Выбирает создатель маркеров люсене Snowball для норвежского языка. |
porter |
string |
Выбирает маркеризатора парадигматического кода Lucene Snowball для английского языка, в котором используется алгоритм определения парадигмы Портера. |
portuguese |
string |
Выбирает создатель маркеров люсене Snowball для португальского языка. |
romanian |
string |
Выбирает lucene Snowball stemming tokenizer для румынского языка. |
russian |
string |
Выбирает создатель маркеров люсене Snowball для русского языка. |
spanish |
string |
Выбирает создатель маркеров люсене Снежного кома для испанского языка. |
swedish |
string |
Выбирает создатель маркеров люсене Snowball для шведского языка. |
turkish |
string |
Выбирает создатель маркеров люсене Снежного кома для турецкого языка. |
StemmerOverrideTokenFilter
Предоставляет возможность переопределять другие фильтры с помощью пользовательского парадигматического поиска на основе словаря. Все термины, связанные со словарем, будут помечены как ключевые слова, чтобы они не были объединяться парадигматических модулей по цепочке. Необходимо поместить перед всеми стемминговыми фильтрами. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Описание |
---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
name |
string |
Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
rules |
string[] |
Список правил определения парадигмы в следующем формате: "word => stem", например: "run => run". |
StemmerTokenFilter
Фильтр стволов для конкретного языка. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Описание |
---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
language |
Используемый язык. |
|
name |
string |
Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
StemmerTokenFilterLanguage
Язык, используемый для фильтра маркеров парадигматического модуля.
Имя | Тип | Описание |
---|---|---|
arabic |
string |
Выбирает создатель маркеров для языка Lucene stemming для арабского языка. |
armenian |
string |
Выбирает токенизатора выделения стволов Lucene для армянского. |
basque |
string |
Выбирает создатель маркеров люсена для баскского. |
brazilian |
string |
Выбирает создатель маркеров для определения парадигмы Lucene для португальского языка (Бразилия). |
bulgarian |
string |
Выбирает маркеризатора выделения стволов Lucene для болгарского. |
catalan |
string |
Выбирает создатель маркеров люсене для каталонского. |
czech |
string |
Выбирает создатель маркеров люсене для чешского языка. |
danish |
string |
Выбирает создатель маркеров для выделения стволов Lucene для датского языка. |
dutch |
string |
Выбирает создатель маркеров для выделения стволов Lucene для голландского языка. |
dutchKp |
string |
Выбирает создатель маркеров stemming Lucene для голландского языка, который использует алгоритм Kraaij-Pohlmann. |
english |
string |
Выбирает создатель маркеров люсена для английского языка. |
finnish |
string |
Выбирает создатель маркеров люсене для финского языка. |
french |
string |
Выбирает создатель маркеров люсена для французского языка. |
galician |
string |
Выбирает создатель маркеров люсена для галисийского. |
german |
string |
Выбирает создатель маркеров для выделения стволов Lucene для немецкого языка. |
german2 |
string |
Выбирает создатель маркеров люсена, который использует немецкий алгоритм вариантов. |
greek |
string |
Выбирает создатель маркеров люсена для греческого языка. |
hindi |
string |
Выбирает создатель маркеров люсена для хинди. |
hungarian |
string |
Выбирает создатель маркеров люсена для венгерского. |
indonesian |
string |
Выбирает создатель маркеров люсене для индонезийского языка. |
irish |
string |
Выбирает создатель маркеров люсена для ирландского языка. |
italian |
string |
Выбирает создатель маркеров люсене для итальянского языка. |
latvian |
string |
Выбирает создатель маркеров люсена для латышского языка. |
lightEnglish |
string |
Выбирает создатель маркеров для языка Lucene stemming для английского языка, который выполняет легкую фильтрацию. |
lightFinnish |
string |
Выбирает создатель маркеров для выделения стволов Lucene для финского языка, который выполняет легкую фильтрацию. |
lightFrench |
string |
Выбирает создатель маркеров люсена для французского языка, который выполняет легкую фильтрацию. |
lightGerman |
string |
Выбирает создатель маркеров для выделения стволов Lucene для немецкого языка, который выполняет легкую фильтрацию. |
lightHungarian |
string |
Выбирает создатель маркеров для выделения стволов Lucene для венгерского, который выполняет легкую фильтрацию. |
lightItalian |
string |
Выбирает создатель маркеров люсене для итальянского языка, который выполняет легкую фильтрацию. |
lightNorwegian |
string |
Выбирает токенизатор люсене для норвежского языка (букмол), который выполняет светлую фильтрацию. |
lightNynorsk |
string |
Выбирает токенизатор люсена для норвежского языка (Nynorsk), который выполняет светлую фильтрацию. |
lightPortuguese |
string |
Выбирает создатель маркеров люсенского ствола для португальского языка, который выполняет легкую фильтрацию. |
lightRussian |
string |
Выбирает токенизатор люсена для российского языка, который выполняет легкую фильтрацию. |
lightSpanish |
string |
Выбирает создатель маркеров люсене для испанского языка, который выполняет легкую фильтрацию. |
lightSwedish |
string |
Выбирает создатель маркеров люсене для шведского языка, который выполняет легкую фильтрацию. |
lovins |
string |
Выбирает создатель маркеров для определения парадигмы Lucene для английского языка, в котором используется алгоритм Lovins stemming. |
minimalEnglish |
string |
Выбирает создатель маркеров для языка Lucene stemming для английского языка, который выполняет минимальное выделение стволов. |
minimalFrench |
string |
Выбирает создатель маркеров люсена для французского языка, который выполняет минимальное выделение стволов. |
minimalGalician |
string |
Выбирает токенизатора выделения стволов Lucene для галисийского, который выполняет минимальное выделение стволов. |
minimalGerman |
string |
Выбирает создатель маркеров для выделения стволов Lucene для немецкого языка, который выполняет минимальное выделение стволов. |
minimalNorwegian |
string |
Выбирает создатель маркеров люсене для норвежского языка (букмол), который выполняет минимальное выделение стволов. |
minimalNynorsk |
string |
Выбирает создатель маркеров люсена для норвежского языка (Nynorsk), который выполняет минимальное выделение стволов. |
minimalPortuguese |
string |
Выбирает создатель токенов lucene stemming для португальского языка, который выполняет минимальное выделение стволов. |
norwegian |
string |
Выбирает создатель маркеров люсене для норвежского языка (букмол). |
porter2 |
string |
Выбирает создатель маркеров для языка Lucene stemming для английского языка, в котором используется алгоритм портер2. |
portuguese |
string |
Выбирает создатель маркеров люсене для португальского языка. |
portugueseRslp |
string |
Выбирает создатель маркеров для определения парадигмы Lucene для португальского языка, в котором используется алгоритм определения стволов RSLP. |
possessiveEnglish |
string |
Выбирает создатель маркеров для языка Lucene stemming для английского языка, который удаляет конечные притяжательные знаки из слов. |
romanian |
string |
Выбирает создатель маркеров люсене для румынского языка. |
russian |
string |
Выбирает создатель маркеров люсена для русского языка. |
sorani |
string |
Выбирает создатель маркеров люсена для Sorani. |
spanish |
string |
Выбирает создатель маркеров люсене для испанского языка. |
swedish |
string |
Выбирает создатель маркеров люсене для шведского языка. |
turkish |
string |
Выбирает создатель маркеров для выделения стволов Lucene для турецкого языка. |
StopAnalyzer
Делит текст на небуквенный; Применяет фильтры токенов в нижнем регистре и маркеров стоп-слов. Этот анализатор реализуется с помощью Apache Lucene.
Имя | Тип | Описание |
---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип анализатора. |
name |
string |
Имя анализатора. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
stopwords |
string[] |
Список стоп-слов. |
StopwordsList
Определяет предопределенный список стоп-слов для конкретного языка.
Имя | Тип | Описание |
---|---|---|
arabic |
string |
Выбирает список стоп-слов для арабского языка. |
armenian |
string |
Выбирает список стоп-слов для армянского. |
basque |
string |
Выбирает список стоп-слов для баскского. |
brazilian |
string |
Выбирает список стоп-слов для португальского языка (Бразилия). |
bulgarian |
string |
Выбирает список стоп-слов для болгарского. |
catalan |
string |
Выбирает список стоп-слов для каталонского. |
czech |
string |
Выбирает список стоп-слов для чешского языка. |
danish |
string |
Выбирает список стоп-слов для датского языка. |
dutch |
string |
Выбирает список стоп-слов для голландского языка. |
english |
string |
Выбирает список стоп-слов для английского языка. |
finnish |
string |
Выбирает список стоп-слов для финского языка. |
french |
string |
Выбирает список стоп-слов для французского языка. |
galician |
string |
Выбирает список стоп-слов для галисийского. |
german |
string |
Выбирает список стоп-слов для немецкого языка. |
greek |
string |
Выбирает список стоп-слов для греческого языка. |
hindi |
string |
Выбирает список стоп-слов для хинди. |
hungarian |
string |
Выбирает список стоп-слов для венгерского. |
indonesian |
string |
Выбирает список стоп-слов для индонезийского языка. |
irish |
string |
Выбирает список стоп-слов для ирландского языка. |
italian |
string |
Выбирает список стоп-слов для итальянского языка. |
latvian |
string |
Выбирает список стоп-слов для латышского языка. |
norwegian |
string |
Выбирает список стоп-слов для норвежского языка. |
persian |
string |
Выбирает список стоп-слов для персидского языка. |
portuguese |
string |
Выбирает список стоп-слов для португальского языка. |
romanian |
string |
Выбирает список стоп-слов для румынского языка. |
russian |
string |
Выбирает список стоп-слов для русского языка. |
sorani |
string |
Выбирает список стоп-слов для Sorani. |
spanish |
string |
Выбирает список стоп-слов для испанского языка. |
swedish |
string |
Выбирает список стоп-слов для шведского языка. |
thai |
string |
Выбирает список стоп-слов для тайского языка. |
turkish |
string |
Выбирает список стоп-слов для турецкого языка. |
StopwordsTokenFilter
Удаляет стоп-слова из потока маркеров. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
ignoreCase |
boolean |
False |
Значение типа , указывающее, следует ли игнорировать регистр. Если значение равно true, все слова сначала преобразуются в строчные буквы. Значение по умолчанию — false. |
name |
string |
Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
|
removeTrailing |
boolean |
True |
Значение, указывающее, следует ли игнорировать последнее условие поиска, если это стоп-слово. Значение по умолчанию — true. |
stopwords |
string[] |
Список стоп-слов. Это свойство и свойство списка стоп-слов нельзя одновременно задать. |
|
stopwordsList | english |
Предопределенный список стоп-слов для использования. Это свойство и свойство стоп-слов нельзя одновременно задать. Значение по умолчанию — английский. |
Suggester
Определяет, как API suggest должен применяться к группе полей в индексе.
Имя | Тип | Описание |
---|---|---|
name |
string |
Имя средства подбора. |
searchMode |
Значение , указывающее возможности средства подбора. |
|
sourceFields |
string[] |
Список имен полей, к которым применяется средство подбора. Каждое поле должно быть доступны для поиска. |
SuggesterSearchMode
Значение , указывающее возможности средства подбора.
Имя | Тип | Описание |
---|---|---|
analyzingInfixMatching |
string |
Соответствует последовательным целым терминам и префиксам в поле. Например, для поля "Самая быстрая коричневая лиса" запросы "fast" и "fastest brow" будут совпадать. |
SynonymTokenFilter
Соответствует синонимам из одного или нескольких слов в потоке маркеров. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
expand |
boolean |
True |
Значение, указывающее, будут ли все слова в списке синонимов (если не используется нотация => ) сопоставляться друг с другом. Если значение равно true, все слова в списке синонимов (если => нотация не используется) будут сопоставляться друг с другом. Следующий список: невероятный, невероятный, сказочный, удивительный эквивалентно: невероятный, невероятный, сказочный, удивительный => невероятный, невероятный, сказочный, удивительный. Если false, следующий список: невероятный, невероятный, сказочный, удивительный будет эквивалентен: невероятный, невероятный, сказочный, удивительный => невероятный. Значение по умолчанию — true. |
ignoreCase |
boolean |
False |
Значение, указывающее, следует ли свертывать входные данные регистра для сопоставления. Значение по умолчанию — false. |
name |
string |
Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
|
synonyms |
string[] |
Список синонимов в одном из двух форматов: 1. невероятный, невероятный, сказочный => удивительный - все термины на левой стороне символа> будут заменены всеми терминами на правой стороне; 2. невероятный, невероятный, сказочный, удивительный - разделенный запятыми список эквивалентных слов. Установите параметр expand, чтобы изменить способ интерпретации этого списка. |
TagScoringFunction
Определяет функцию, которая повышает оценки документов со строковыми значениями, соответствующими заданному списку тегов.
Имя | Тип | Описание |
---|---|---|
boost |
number |
Множитель для необработанной оценки. Должно быть положительным числом, не равным 1,0. |
fieldName |
string |
Имя поля, используемого в качестве входных данных для функции оценки. |
interpolation |
Значение, указывающее, как будет интерполировано повышение по оценкам документа; по умолчанию — "Linear". |
|
tag |
Значения параметров для функции оценки тегов. |
|
type |
string:
tag |
Указывает тип используемой функции. Допустимые значения: magnitude, freshness, distance и tag. Тип функции должен быть в нижнем регистре. |
TagScoringParameters
Предоставляет значения параметров для функции оценки тегов.
Имя | Тип | Описание |
---|---|---|
tagsParameter |
string |
Имя параметра, передаваемого в поисковых запросах для указания списка тегов для сравнения с целевым полем. |
TextWeights
Определяет весовые коэффициенты для полей индекса, для которых совпадения должны повысить оценку в поисковых запросах.
Имя | Тип | Описание |
---|---|---|
weights |
object |
Словарь весовых коэффициентов по полю для повышения оценки документов. Ключи — это имена полей, а значения — весовые коэффициенты для каждого поля. |
TokenCharacterKind
Представляет классы символов, с которыми может работать фильтр маркеров.
Имя | Тип | Описание |
---|---|---|
digit |
string |
Сохраняет цифры в токенах. |
letter |
string |
Хранит буквы в токенах. |
punctuation |
string |
Сохраняет знаки препинания в маркерах. |
symbol |
string |
Сохраняет символы в маркерах. |
whitespace |
string |
Сохраняет пробелы в маркерах. |
TokenFilterName
Определяет имена всех фильтров маркеров, поддерживаемых поисковой системой.
Имя | Тип | Описание |
---|---|---|
apostrophe |
string |
Удаляет все знаки после апострофа (включая сам апостроф). См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html |
arabic_normalization |
string |
Фильтр маркеров, применяющий нормализатор арабского языка для нормализации орфографии. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html |
asciifolding |
string |
Преобразует буквенные, числовые и символические символы Юникода, которые не входят в первые 127 символов ASCII (блок Юникода "Базовый латиница"), в их эквиваленты ASCII, если такие эквиваленты существуют. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html |
cjk_bigram |
string |
Формирует биграмы терминов CJK, созданные из стандартного создателя маркеров. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html |
cjk_width |
string |
Нормализует различия в ширине ККЯ. Сворачивают варианты fullwidth ASCII в эквивалентный базовый латиница, а полуширинный вариант Катакана — в эквивалентную кану. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html |
classic |
string |
Удаляет английские притяжательные символы и точки из аббревиатур. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html |
common_grams |
string |
Создает биграммы для часто встречающихся терминов при индексировании. Отдельные термины также индексируются с наложением биграмм. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html |
edgeNGram_v2 |
string |
Создает n граммов заданного размера, начиная с передней или задней части входного маркера. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html |
elision |
string |
Удаляет элизии. Например, "l'avion" (плоскость) будет преобразована в "avion" (плоскость). См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html |
german_normalization |
string |
Нормализует немецкие символы в соответствии с эвристики алгоритма snowball German2. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html |
hindi_normalization |
string |
Нормализует текст на хинди, чтобы удалить некоторые различия в орфографических вариациях. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html |
indic_normalization |
string |
Нормализует представление текста в Юникоде на индийских языках. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html |
keyword_repeat |
string |
Выдает каждый входящий маркер дважды: один раз ключевое слово и один раз как не ключевое слово. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html |
kstem |
string |
Высокопроизводительный фильтр kstem для английского языка. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html |
length |
string |
Удаляет слишком длинные или слишком короткие слова. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html |
limit |
string |
Ограничивает количество маркеров при индексировании. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html |
lowercase |
string |
Нормализует текст в маркере в нижний регистр. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.htm |
nGram_v2 |
string |
Создает N-граммы заданного размера. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html |
persian_normalization |
string |
Применяет нормализацию для персидского языка. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html |
phonetic |
string |
Создает маркеры для фонетических совпадений. См. раздел https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html |
porter_stem |
string |
Для преобразования потока маркеров использует алгоритм парадигматического выражения Porter. См. раздел http://tartarus.org/~martin/PorterStemmer |
reverse |
string |
Обращает порядок строки маркера. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html |
scandinavian_folding |
string |
Складывает скандинавские символы åÄäæÄÆ-a> и öÖøØ-o>. Он также предотвращает использование двойных гласных aa, ae, ao, oe и oo, оставляя только первую. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html |
scandinavian_normalization |
string |
Нормализует использование взаимозаменяемых скандинавских знаков. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html |
shingle |
string |
Создает сочетания маркеров в виде одного маркера. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html |
snowball |
string |
Фильтр, который объединяет слова с помощью парадигматического модуля, созданного Snowball. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html |
sorani_normalization |
string |
Нормализует представление текста в Юникоде на языке сорани. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html |
stemmer |
string |
Фильтр стволов для конкретного языка. См. раздел https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters |
stopwords |
string |
Удаляет стоп-слова из потока маркеров. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html |
trim |
string |
Усекает пробел в начале и конце маркеров. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html |
truncate |
string |
Усекает термины до определенной длины. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html |
unique |
string |
Отфильтровывает маркеры с тем же текстом, что и в предыдущем маркере. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html |
uppercase |
string |
Нормализует текст в маркере в верхний регистр. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html |
word_delimiter |
string |
Разделяет слова на подслова и выполняет необязательные преобразования в группах подслов. |
TruncateTokenFilter
Усекает термины до определенной длины. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
length |
integer |
300 |
Длина, при которой будут усечены термины. Значение по умолчанию и максимальное значение — 300. |
name |
string |
Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
UaxUrlEmailTokenizer
Размечает URL-адреса и сообщения электронной почты как один маркер. Этот создатель маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип создателя маркеров. |
|
maxTokenLength |
integer |
255 |
Максимальная длина маркера. Значение по умолчанию — 255. Маркеры, размер которых превышает максимальную длину, разделяются. Максимальная длина маркера, которую можно использовать, составляет 300 символов. |
name |
string |
Имя создателя маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
UniqueTokenFilter
Отфильтровывает маркеры с тем же текстом, что и в предыдущем маркере. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
name |
string |
Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
|
onlyOnSamePosition |
boolean |
False |
Значение , указывающее, следует ли удалять дубликаты только в той же позиции. Значение по умолчанию — false. |
VectorSearch
Содержит параметры конфигурации, связанные с поиском векторов.
Имя | Тип | Описание |
---|---|---|
algorithms | VectorSearchAlgorithmConfiguration[]: |
Содержит параметры конфигурации, относящиеся к алгоритму, используемому во время индексирования или запроса. |
profiles |
Определяет сочетания конфигураций, используемых при поиске векторов. |
VectorSearchAlgorithmKind
Алгоритм, используемый для индексирования и выполнения запросов.
Имя | Тип | Описание |
---|---|---|
exhaustiveKnn |
string |
Исчерпывающий алгоритм KNN, который будет выполнять поиск методом подбора. |
hnsw |
string |
HNSW (Иерархический навигация малый мир), тип алгоритма приблизительных ближайших соседей. |
VectorSearchAlgorithmMetric
Метрика подобия, используемая для векторных сравнений.
Имя | Тип | Описание |
---|---|---|
cosine |
string |
|
dotProduct |
string |
|
euclidean |
string |
VectorSearchProfile
Определяет сочетание конфигураций для использования с векторным поиском.
Имя | Тип | Описание |
---|---|---|
algorithm |
string |
Имя конфигурации алгоритма векторного поиска, указывающее алгоритм и необязательные параметры. |
name |
string |
Имя, связываемые с этим профилем поиска векторов. |
WordDelimiterTokenFilter
Разделяет слова на подслова и выполняет необязательные преобразования в группах подслов. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
catenateAll |
boolean |
False |
Значение , указывающее, будут ли все части подсловных слов катенироваться. Например, если задано значение true, "Azure-Search-1" станет "AzureSearch1". Значение по умолчанию — false. |
catenateNumbers |
boolean |
False |
Значение, указывающее, будет ли выполняться максимальное количество выполнений чисел. Например, если задано значение true, "1–2" становится "12". Значение по умолчанию — false. |
catenateWords |
boolean |
False |
Значение, указывающее, будет ли выполняться максимальное количество выполнений частей слов. Например, если задано значение true, "Azure-Search" становится "AzureSearch". Значение по умолчанию — false. |
generateNumberParts |
boolean |
True |
Значение типа , указывающее, следует ли создавать подслови числа. Значение по умолчанию — true. |
generateWordParts |
boolean |
True |
Значение, указывающее, следует ли создавать слова-части. Если задано значение , вызывает создание частей слов; Например, "AzureSearch" становится "Azure" "Поиск". Значение по умолчанию — true. |
name |
string |
Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
|
preserveOriginal |
boolean |
False |
Значение, указывающее, будут ли сохраняться исходные слова и добавляться в список подсловий. Значение по умолчанию — false. |
protectedWords |
string[] |
Список маркеров для защиты от разделителей. |
|
splitOnCaseChange |
boolean |
True |
Значение, указывающее, следует ли разделять слова в caseChange. Например, если задано значение true, "AzureSearch" становится "Azure" "Поиск". Значение по умолчанию — true. |
splitOnNumerics |
boolean |
True |
Значение, указывающее, следует ли разделять числа. Например, если задано значение true, "Azure1Search" становится "Azure" "1" "Поиск". Значение по умолчанию — true. |
stemEnglishPossessive |
boolean |
True |
Значение, указывающее, следует ли удалять конечные "'s" для каждого подсловия. Значение по умолчанию — true. |