Indexes - Create Or Update

Создает новый индекс поиска или обновляет индекс, если он уже существует.

PUT {endpoint}/indexes('{indexName}')?api-version=2023-11-01
PUT {endpoint}/indexes('{indexName}')?allowIndexDowntime={allowIndexDowntime}&api-version=2023-11-01

Параметры URI

Имя В Обязательно Тип Описание
endpoint
path True

string

URL-адрес конечной точки службы поиска.

indexName
path True

string

Определение создаваемого или обновляемого индекса.

api-version
query True

string

Версия API клиента.

allowIndexDowntime
query

boolean

Позволяет добавлять новые анализаторы, создатели маркеров, фильтры маркеров или фильтры символов в индекс, переводя индекс в автономный режим по крайней мере на несколько секунд. Это временно приводит к сбою индексирования и запросов. После обновления индекса его производительность и доступность для записи может быть снижена на несколько минут или дольше, если индекс очень большой.

Заголовок запроса

Имя Обязательно Тип Описание
x-ms-client-request-id

string

uuid

Идентификатор отслеживания, отправленный с запросом на помощь в отладке.

If-Match

string

Определяет условие If-Match. Операция будет выполняться только в том случае, если ETag на сервере соответствует этому значению.

If-None-Match

string

Определяет условие If-None-Match. Операция будет выполняться только в том случае, если ETag на сервере не соответствует этому значению.

Prefer True

string

Для HTTP-запросов PUT указывает службе вернуть созданный или обновленный ресурс при успешном выполнении.

Текст запроса

Имя Обязательно Тип Описание
fields True

SearchField[]

Поля индекса.

name True

string

Имя индекса.

@odata.etag

string

ETag индекса.

analyzers LexicalAnalyzer[]:

Анализаторы для индекса.

charFilters CharFilter[]:

Символьные фильтры для индекса.

corsOptions

CorsOptions

Параметры управления общим доступом к ресурсам независимо от источника (CORS) для индекса.

defaultScoringProfile

string

Имя профиля оценки, используемого, если в запросе не указан ни один из них. Если это свойство не задано и в запросе не указан профиль оценки, будет использоваться оценка по умолчанию (tf-idf).

encryptionKey

SearchResourceEncryptionKey

Описание ключа шифрования, созданного в Azure Key Vault. Этот ключ используется для обеспечения дополнительного уровня шифрования неактивных данных, если требуется полная уверенность в том, что никто, даже корпорация Майкрософт, не может расшифровать ваши данные. После шифрования данные всегда остаются зашифрованными. Служба поиска игнорирует попытки присвоить этому свойству значение NULL. Это свойство можно изменить при необходимости, если вы хотите сменить ключ шифрования. Ваши данные не будут затронуты. Шифрование с помощью ключей, управляемых клиентом, недоступно для бесплатных служб поиска и доступно только для платных служб, созданных 1 января 2019 года или позже.

scoringProfiles

ScoringProfile[]

Профили оценки для индекса.

semantic

SemanticSettings

Определяет параметры для индекса поиска, которые влияют на семантические возможности.

similarity Similarity:

Тип алгоритма сходства, используемого при оценке и ранжировании документов, соответствующих поисковому запросу. Алгоритм подобия можно определить только во время создания индекса и не может быть изменен в существующих индексах. Если значение равно null, используется алгоритм ClassicSimilarity.

suggesters

Suggester[]

Средства подбора для индекса.

tokenFilters TokenFilter[]:

Маркер фильтрует индекс.

tokenizers LexicalTokenizer[]:

Создатели маркеров для индекса.

vectorSearch

VectorSearch

Содержит параметры конфигурации, связанные с поиском векторов.

Ответы

Имя Тип Описание
200 OK

SearchIndex

201 Created

SearchIndex

Other Status Codes

SearchError

Ответ об ошибке.

Примеры

SearchServiceCreateOrUpdateIndex

Образец запроса

PUT https://myservice.search.windows.net/indexes('hotels')?allowIndexDowntime=False&api-version=2023-11-01


{
  "name": "hotels",
  "fields": [
    {
      "name": "hotelId",
      "type": "Edm.String",
      "key": true,
      "searchable": false
    },
    {
      "name": "baseRate",
      "type": "Edm.Double"
    },
    {
      "name": "description",
      "type": "Edm.String",
      "filterable": false,
      "sortable": false,
      "facetable": false
    },
    {
      "name": "descriptionEmbedding",
      "type": "Collection(Edm.Single)",
      "dimensions": 1536,
      "vectorSearchProfile": "myHnswProfile",
      "searchable": true,
      "retrievable": true
    },
    {
      "name": "description_fr",
      "type": "Edm.String",
      "filterable": false,
      "sortable": false,
      "facetable": false,
      "analyzer": "fr.lucene"
    },
    {
      "name": "hotelName",
      "type": "Edm.String"
    },
    {
      "name": "category",
      "type": "Edm.String"
    },
    {
      "name": "tags",
      "type": "Collection(Edm.String)",
      "analyzer": "tagsAnalyzer"
    },
    {
      "name": "parkingIncluded",
      "type": "Edm.Boolean"
    },
    {
      "name": "smokingAllowed",
      "type": "Edm.Boolean"
    },
    {
      "name": "lastRenovationDate",
      "type": "Edm.DateTimeOffset"
    },
    {
      "name": "rating",
      "type": "Edm.Int32"
    },
    {
      "name": "location",
      "type": "Edm.GeographyPoint"
    }
  ],
  "scoringProfiles": [
    {
      "name": "geo",
      "text": {
        "weights": {
          "hotelName": 5
        }
      },
      "functions": [
        {
          "type": "distance",
          "boost": 5,
          "fieldName": "location",
          "interpolation": "logarithmic",
          "distance": {
            "referencePointParameter": "currentLocation",
            "boostingDistance": 10
          }
        }
      ]
    }
  ],
  "defaultScoringProfile": "geo",
  "suggesters": [
    {
      "name": "sg",
      "searchMode": "analyzingInfixMatching",
      "sourceFields": [
        "hotelName"
      ]
    }
  ],
  "analyzers": [
    {
      "name": "tagsAnalyzer",
      "@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
      "charFilters": [
        "html_strip"
      ],
      "tokenizer": "standard_v2"
    }
  ],
  "corsOptions": {
    "allowedOrigins": [
      "tempuri.org"
    ],
    "maxAgeInSeconds": 60
  },
  "encryptionKey": {
    "keyVaultKeyName": "myUserManagedEncryptionKey-createdinAzureKeyVault",
    "keyVaultKeyVersion": "myKeyVersion-32charAlphaNumericString",
    "keyVaultUri": "https://myKeyVault.vault.azure.net",
    "accessCredentials": null
  },
  "similarity": {
    "@odata.type": "#Microsoft.Azure.Search.ClassicSimilarity"
  },
  "semantic": {
    "configurations": [
      {
        "name": "semanticHotels",
        "prioritizedFields": {
          "titleField": {
            "fieldName": "hotelName"
          },
          "prioritizedContentFields": [
            {
              "fieldName": "description"
            },
            {
              "fieldName": "description_fr"
            }
          ],
          "prioritizedKeywordsFields": [
            {
              "fieldName": "tags"
            },
            {
              "fieldName": "category"
            }
          ]
        }
      }
    ]
  },
  "vectorSearch": {
    "profiles": [
      {
        "name": "myHnswProfile",
        "algorithm": "myHnsw"
      },
      {
        "name": "myAlgorithm",
        "algorithm": "myExhaustive"
      }
    ],
    "algorithms": [
      {
        "name": "myHnsw",
        "kind": "hnsw",
        "hnswParameters": {
          "m": 4,
          "metric": "cosine"
        }
      },
      {
        "name": "myExhaustive",
        "kind": "exhaustiveKnn",
        "exhaustiveKnnParameters": {
          "metric": "cosine"
        }
      }
    ]
  }
}

Пример ответа

{
  "name": "hotels",
  "fields": [
    {
      "name": "hotelId",
      "type": "Edm.String",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": true,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "baseRate",
      "type": "Edm.Double",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "description",
      "type": "Edm.String",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "descriptionEmbedding",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": 1536,
      "vectorSearchProfile": "myHnswProfile",
      "synonymMaps": []
    },
    {
      "name": "description_fr",
      "type": "Edm.String",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": "fr.lucene",
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "hotelName",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "category",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "tags",
      "type": "Collection(Edm.String)",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "sortable": false,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": "tagsAnalyzer",
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "parkingIncluded",
      "type": "Edm.Boolean",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "smokingAllowed",
      "type": "Edm.Boolean",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "lastRenovationDate",
      "type": "Edm.DateTimeOffset",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "rating",
      "type": "Edm.Int32",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "location",
      "type": "Edm.GeographyPoint",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    }
  ],
  "scoringProfiles": [
    {
      "name": "geo",
      "functionAggregation": "sum",
      "text": {
        "weights": {
          "hotelName": 5
        }
      },
      "functions": [
        {
          "type": "distance",
          "boost": 5,
          "fieldName": "location",
          "interpolation": "logarithmic",
          "distance": {
            "referencePointParameter": "currentLocation",
            "boostingDistance": 10
          }
        }
      ]
    }
  ],
  "defaultScoringProfile": "geo",
  "suggesters": [
    {
      "name": "sg",
      "searchMode": "analyzingInfixMatching",
      "sourceFields": [
        "hotelName"
      ]
    }
  ],
  "analyzers": [
    {
      "name": "tagsAnalyzer",
      "@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
      "charFilters": [
        "html_strip"
      ],
      "tokenizer": "standard_v2"
    }
  ],
  "tokenizers": [],
  "tokenFilters": [],
  "charFilters": [],
  "corsOptions": {
    "allowedOrigins": [
      "tempuri.org"
    ],
    "maxAgeInSeconds": 60
  },
  "encryptionKey": {
    "keyVaultKeyName": "myUserManagedEncryptionKey-createdinAzureKeyVault",
    "keyVaultKeyVersion": "myKeyVersion-32charAlphaNumericString",
    "keyVaultUri": "https://myKeyVault.vault.azure.net",
    "accessCredentials": null
  },
  "similarity": {
    "@odata.type": "#Microsoft.Azure.Search.ClassicSimilarity"
  },
  "semantic": {
    "configurations": [
      {
        "name": "semanticHotels",
        "prioritizedFields": {
          "titleField": {
            "fieldName": "hotelName"
          },
          "prioritizedContentFields": [
            {
              "fieldName": "description"
            },
            {
              "fieldName": "description_fr"
            }
          ],
          "prioritizedKeywordsFields": [
            {
              "fieldName": "tags"
            },
            {
              "fieldName": "category"
            }
          ]
        }
      }
    ]
  },
  "vectorSearch": {
    "algorithms": [
      {
        "name": "myHnsw",
        "kind": "hnsw",
        "hnswParameters": {
          "metric": "cosine",
          "m": 4,
          "efConstruction": 400,
          "efSearch": 500
        }
      },
      {
        "name": "myExhaustive",
        "kind": "exhaustiveKnn",
        "exhaustiveKnnParameters": {
          "metric": "cosine"
        }
      }
    ],
    "profiles": [
      {
        "name": "myHnswProfile",
        "algorithm": "myHnsw"
      },
      {
        "name": "myAlgorithm",
        "algorithm": "myExhaustive"
      }
    ]
  }
}
{
  "name": "hotels",
  "fields": [
    {
      "name": "hotelId",
      "type": "Edm.String",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": true,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "baseRate",
      "type": "Edm.Double",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "description",
      "type": "Edm.String",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "descriptionEmbedding",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": 1536,
      "vectorSearchProfile": "myHnswProfile",
      "synonymMaps": []
    },
    {
      "name": "description_fr",
      "type": "Edm.String",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": "fr.lucene",
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "hotelName",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "category",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "tags",
      "type": "Collection(Edm.String)",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "sortable": false,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": "tagsAnalyzer",
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "parkingIncluded",
      "type": "Edm.Boolean",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "smokingAllowed",
      "type": "Edm.Boolean",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "lastRenovationDate",
      "type": "Edm.DateTimeOffset",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "rating",
      "type": "Edm.Int32",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "location",
      "type": "Edm.GeographyPoint",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    }
  ],
  "scoringProfiles": [
    {
      "name": "geo",
      "functionAggregation": "sum",
      "text": {
        "weights": {
          "hotelName": 5
        }
      },
      "functions": [
        {
          "type": "distance",
          "boost": 5,
          "fieldName": "location",
          "interpolation": "logarithmic",
          "distance": {
            "referencePointParameter": "currentLocation",
            "boostingDistance": 10
          }
        }
      ]
    }
  ],
  "defaultScoringProfile": "geo",
  "suggesters": [
    {
      "name": "sg",
      "searchMode": "analyzingInfixMatching",
      "sourceFields": [
        "hotelName"
      ]
    }
  ],
  "analyzers": [
    {
      "name": "tagsAnalyzer",
      "@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
      "charFilters": [
        "html_strip"
      ],
      "tokenizer": "standard_v2"
    }
  ],
  "tokenizers": [],
  "tokenFilters": [],
  "charFilters": [],
  "corsOptions": {
    "allowedOrigins": [
      "tempuri.org"
    ],
    "maxAgeInSeconds": 60
  },
  "encryptionKey": {
    "keyVaultKeyName": "myUserManagedEncryptionKey-createdinAzureKeyVault",
    "keyVaultKeyVersion": "myKeyVersion-32charAlphaNumericString",
    "keyVaultUri": "https://myKeyVault.vault.azure.net",
    "accessCredentials": null
  },
  "semantic": {
    "configurations": [
      {
        "name": "semanticHotels",
        "prioritizedFields": {
          "titleField": {
            "fieldName": "hotelName"
          },
          "prioritizedContentFields": [
            {
              "fieldName": "description"
            },
            {
              "fieldName": "description_fr"
            }
          ],
          "prioritizedKeywordsFields": [
            {
              "fieldName": "tags"
            },
            {
              "fieldName": "category"
            }
          ]
        }
      }
    ]
  },
  "vectorSearch": {
    "algorithms": [
      {
        "name": "myHnsw",
        "kind": "hnsw",
        "hnswParameters": {
          "metric": "cosine",
          "m": 4,
          "efConstruction": 400,
          "efSearch": 500
        }
      },
      {
        "name": "myExhaustive",
        "kind": "exhaustiveKnn",
        "exhaustiveKnnParameters": {
          "metric": "cosine"
        }
      }
    ],
    "profiles": [
      {
        "name": "myHnswProfile",
        "algorithm": "myHnsw"
      },
      {
        "name": "myAlgorithm",
        "algorithm": "myExhaustive"
      }
    ]
  }
}

Определения

Имя Описание
AsciiFoldingTokenFilter

Преобразует буквенные, числовые и символические символы Юникода, которые не входят в первые 127 символов ASCII (блок Юникода "Базовый латиница"), в их эквиваленты ASCII, если такие эквиваленты существуют. Этот фильтр маркеров реализуется с помощью Apache Lucene.

AzureActiveDirectoryApplicationCredentials

Учетные данные зарегистрированного приложения, созданного для службы поиска, которые используются для доступа с проверкой подлинности к ключам шифрования, хранящимся в Azure Key Vault.

BM25Similarity

Ранжирующая функция на основе алгоритма сходства Okapi BM25. BM25 — это алгоритм, подобный TF-IDF, который включает нормализацию длины (управляется параметром b), а также насыщение термином частоты (управляется параметром k1).

CharFilterName

Определяет имена всех фильтров символов, поддерживаемых поисковой системой.

CjkBigramTokenFilter

Формирует биграмы терминов CJK, созданные из стандартного создателя маркеров. Этот фильтр маркеров реализуется с помощью Apache Lucene.

CjkBigramTokenFilterScripts

Скрипты, которые могут игнорироваться CjkBigramTokenFilter.

ClassicSimilarity

Устаревший алгоритм сходства, который использует реализацию Lucene TFIDFSimilarity TF-IDF. Этот вариант TF-IDF вводит нормализацию статической длины документов, а также координирующих факторов, которые наказывают документы, которые лишь частично соответствуют поисковым запросам.

ClassicTokenizer

Грамматический токенизатор, который подходит для обработки большинства документов на европейском языке. Этот создатель маркеров реализуется с помощью Apache Lucene.

CommonGramTokenFilter

Создает биграммы для часто встречающихся терминов при индексировании. Отдельные термины также индексируются с наложением биграмм. Этот фильтр маркеров реализуется с помощью Apache Lucene.

CorsOptions

Определяет параметры управления общим доступом к ресурсам независимо от источника (CORS) для индекса.

CustomAnalyzer

Позволяет управлять процессом преобразования текста в индексируемые и доступные для поиска маркеры. Это определяемая пользователем конфигурация, состоящая из одного предопределенного создателя маркеров и одного или нескольких фильтров. Создатель маркеров отвечает за разбиение текста на маркеры и фильтры для изменения маркеров, созданных создателем маркеров.

DictionaryDecompounderTokenFilter

Разбивает составные слова, распространенные во многих германских языках. Этот фильтр маркеров реализуется с помощью Apache Lucene.

DistanceScoringFunction

Определяет функцию, которая повышает оценку на основе расстояния от географического расположения.

DistanceScoringParameters

Предоставляет значения параметров для функции оценки расстояний.

EdgeNGramTokenFilter

Создает n граммов заданного размера, начиная с передней или задней части входного маркера. Этот фильтр маркеров реализуется с помощью Apache Lucene.

EdgeNGramTokenFilterSide

Указывает, на какой стороне входных данных должен быть создан n-грамм.

EdgeNGramTokenFilterV2

Создает n граммов заданного размера, начиная с передней или задней части входного маркера. Этот фильтр маркеров реализуется с помощью Apache Lucene.

EdgeNGramTokenizer

Маркеризует входные данные из края в n-граммы заданного размера. Этот создатель маркеров реализуется с помощью Apache Lucene.

ElisionTokenFilter

Удаляет элизии. Например, "l'avion" (плоскость) будет преобразована в "avion" (плоскость). Этот фильтр маркеров реализуется с помощью Apache Lucene.

ExhaustiveKnnParameters

Содержит параметры, относящиеся к исчерпывающим алгоритмам KNN.

ExhaustiveKnnVectorSearchAlgorithmConfiguration

Содержит параметры конфигурации, характерные для исчерпывающего алгоритма KNN, используемого во время выполнения запросов, который будет выполнять поиск методом подбора по всему векторному индексу.

FreshnessScoringFunction

Определяет функцию, которая повышает оценку на основе значения поля даты и времени.

FreshnessScoringParameters

Предоставляет значения параметров для функции оценки актуальности.

HnswParameters

Содержит параметры, относящиеся к алгоритму HNSW.

HnswVectorSearchAlgorithmConfiguration

Содержит параметры конфигурации, относящиеся к алгоритму ближайших соседей HNSW, используемому во время индексирования и выполнения запросов. Алгоритм HNSW предлагает компромисс между скоростью и точностью поиска.

KeepTokenFilter

Фильтр маркеров, который хранит только маркеры с текстом, содержащимся в указанном списке слов. Этот фильтр маркеров реализуется с помощью Apache Lucene.

KeywordMarkerTokenFilter

Помечает термины как ключевые слова. Этот фильтр маркеров реализуется с помощью Apache Lucene.

KeywordTokenizer

Выдает все входные данные в виде одного маркера. Этот создатель маркеров реализуется с помощью Apache Lucene.

KeywordTokenizerV2

Выдает все входные данные в виде одного маркера. Этот создатель маркеров реализуется с помощью Apache Lucene.

LengthTokenFilter

Удаляет слишком длинные или слишком короткие слова. Этот фильтр маркеров реализуется с помощью Apache Lucene.

LexicalAnalyzerName

Определяет имена всех анализаторов текста, поддерживаемых поисковой системой.

LexicalTokenizerName

Определяет имена всех создателей маркеров, поддерживаемых поисковой системой.

LimitTokenFilter

Ограничивает количество маркеров при индексировании. Этот фильтр маркеров реализуется с помощью Apache Lucene.

LuceneStandardAnalyzer

Стандартный анализатор Apache Lucene; Состоит из стандартного создателя маркеров, фильтра в нижнем регистре и фильтра stop.

LuceneStandardTokenizer

Разбивает текст по правилам сегментации текста в формате Юникод. Этот создатель маркеров реализуется с помощью Apache Lucene.

LuceneStandardTokenizerV2

Разбивает текст по правилам сегментации текста в формате Юникод. Этот создатель маркеров реализуется с помощью Apache Lucene.

MagnitudeScoringFunction

Определяет функцию, которая повышает оценку на основе величины числового поля.

MagnitudeScoringParameters

Предоставляет значения параметров для функции оценки величины.

MappingCharFilter

Фильтр символов, который применяет сопоставления, определенные с помощью параметра сопоставления. Сопоставление является каскадным (самое длинное сопоставление шаблона в заданной точке имеет приоритет). Замена может быть пустой строкой. Этот фильтр символов реализуется с помощью Apache Lucene.

MicrosoftLanguageStemmingTokenizer

Разделяет текст, используя правила для конкретного языка, и сводит слова к их базовым формам.

MicrosoftLanguageTokenizer

Разбивает текст на основе правил определенного языка.

MicrosoftStemmingTokenizerLanguage

Списки языки, поддерживаемые создателем маркеров языка Майкрософт.

MicrosoftTokenizerLanguage

Списки языки, поддерживаемые создателем маркеров языка Майкрософт.

NGramTokenFilter

Создает N-граммы заданного размера. Этот фильтр маркеров реализуется с помощью Apache Lucene.

NGramTokenFilterV2

Создает N-граммы заданного размера. Этот фильтр маркеров реализуется с помощью Apache Lucene.

NGramTokenizer

Размечает входные данные на N-граммы заданного размера. Этот создатель маркеров реализуется с помощью Apache Lucene.

PathHierarchyTokenizerV2

Создатель маркеров для иерархий в виде пути. Этот создатель маркеров реализуется с помощью Apache Lucene.

PatternAnalyzer

Гибко разделяет текст на термины с помощью шаблона регулярного выражения. Этот анализатор реализуется с помощью Apache Lucene.

PatternCaptureTokenFilter

Использует регулярные выражения Java для создания нескольких маркеров — по одному для каждой группы захвата в одном или нескольких шаблонах. Этот фильтр маркеров реализуется с помощью Apache Lucene.

PatternReplaceCharFilter

Фильтр символов, заменяющий символы во входной строке. Он использует регулярное выражение, чтобы определить последовательности знаков, которые нужно сохранить, и шаблон замены, чтобы определить знаки для замены. Например, с учетом входного текста "aa bb aa bb", шаблона "(aa)\s+(bb)" и замены "$1#$2", результатом будет "aa#bb aa#bb". Этот фильтр символов реализуется с помощью Apache Lucene.

PatternReplaceTokenFilter

Фильтр символов, заменяющий символы во входной строке. Он использует регулярное выражение, чтобы определить последовательности знаков, которые нужно сохранить, и шаблон замены, чтобы определить знаки для замены. Например, учитывая входной текст "aa bb aa bb", шаблон "(aa)\s+(bb)" и замену "$1#$2", результатом будет "aa#bb aa#bb". Этот фильтр маркеров реализуется с помощью Apache Lucene.

PatternTokenizer

Создатель маркеров, использующий сопоставление шаблонов регулярных выражений для создания уникальных маркеров. Этот создатель маркеров реализуется с помощью Apache Lucene.

PhoneticEncoder

Определяет тип фонетического кодировщика для использования с PhoneticTokenFilter.

PhoneticTokenFilter

Создает маркеры для фонетических совпадений. Этот фильтр маркеров реализуется с помощью Apache Lucene.

PrioritizedFields

Описывает поля заголовка, содержимого и ключевых слов, которые будут использоваться для семантического ранжирования, субтитров, выделений и ответов.

RegexFlags

Определяет флаги, которые можно объединить для управления использованием регулярных выражений в анализаторе шаблонов и создателе маркеров шаблонов.

ScoringFunctionAggregation

Определяет агрегатную функцию, используемую для объединения результатов всех функций оценки в профиле оценки.

ScoringFunctionInterpolation

Определяет функцию, используемую для интерполяции повышения оценки в диапазоне документов.

ScoringProfile

Определяет параметры индекса поиска, влияющие на оценку в поисковых запросах.

SearchError

Описывает условие ошибки для API.

SearchField

Представляет поле в определении индекса, описывающее имя, тип данных и поведение поиска поля.

SearchFieldDataType

Определяет тип данных поля в индексе поиска.

SearchIndex

Представляет определение индекса поиска, которое описывает поля и поведение поиска индекса.

SearchResourceEncryptionKey

Управляемый клиентом ключ шифрования в Azure Key Vault. Ключи, которые вы создаете и которыми управляете, можно использовать для шифрования или расшифровки неактивных данных в службе поиска, таких как индексы и карты синонимов.

SemanticConfiguration

Определяет конкретную конфигурацию для использования в контексте семантических возможностей.

SemanticField

Поле, используемое как часть семантической конфигурации.

SemanticSettings

Определяет параметры для индекса поиска, влияющие на семантические возможности.

ShingleTokenFilter

Создает сочетания маркеров в виде одного маркера. Этот фильтр маркеров реализуется с помощью Apache Lucene.

SnowballTokenFilter

Фильтр, который объединяет слова с помощью парадигматического модуля, созданного Snowball. Этот фильтр маркеров реализуется с помощью Apache Lucene.

SnowballTokenFilterLanguage

Язык, используемый для фильтра маркеров Snowball.

StemmerOverrideTokenFilter

Предоставляет возможность переопределять другие фильтры с помощью пользовательского парадигматического поиска на основе словаря. Все термины, связанные со словарем, будут помечены как ключевые слова, чтобы они не были объединяться парадигматических модулей по цепочке. Необходимо поместить перед всеми стемминговыми фильтрами. Этот фильтр маркеров реализуется с помощью Apache Lucene.

StemmerTokenFilter

Фильтр стволов для конкретного языка. Этот фильтр маркеров реализуется с помощью Apache Lucene.

StemmerTokenFilterLanguage

Язык, используемый для фильтра маркеров парадигматического модуля.

StopAnalyzer

Делит текст на небуквенный; Применяет фильтры токенов в нижнем регистре и маркеров стоп-слов. Этот анализатор реализуется с помощью Apache Lucene.

StopwordsList

Определяет предопределенный список стоп-слов для конкретного языка.

StopwordsTokenFilter

Удаляет стоп-слова из потока маркеров. Этот фильтр маркеров реализуется с помощью Apache Lucene.

Suggester

Определяет, как API предложения должен применяться к группе полей в индексе.

SuggesterSearchMode

Значение , указывающее возможности средства подбора.

SynonymTokenFilter

Соответствует синонимам из одного или нескольких слов в потоке маркеров. Этот фильтр маркеров реализуется с помощью Apache Lucene.

TagScoringFunction

Определяет функцию, которая повышает оценки документов со строковыми значениями, соответствующими заданному списку тегов.

TagScoringParameters

Предоставляет значения параметров для функции оценки тегов.

TextWeights

Определяет весовые коэффициенты для полей индекса, для которых совпадения должны повысить оценку в поисковых запросах.

TokenCharacterKind

Представляет классы символов, с которыми может работать фильтр маркеров.

TokenFilterName

Определяет имена всех фильтров маркеров, поддерживаемых поисковой системой.

TruncateTokenFilter

Усекает термины до определенной длины. Этот фильтр маркеров реализуется с помощью Apache Lucene.

UaxUrlEmailTokenizer

Размечает URL-адреса и сообщения электронной почты как один маркер. Этот создатель маркеров реализуется с помощью Apache Lucene.

UniqueTokenFilter

Отфильтровывает маркеры с тем же текстом, что и в предыдущем маркере. Этот фильтр маркеров реализуется с помощью Apache Lucene.

VectorSearch

Содержит параметры конфигурации, связанные с поиском векторов.

VectorSearchAlgorithmKind

Алгоритм, используемый для индексирования и выполнения запросов.

VectorSearchAlgorithmMetric

Метрика подобия, используемая для векторных сравнений.

VectorSearchProfile

Определяет сочетание конфигураций для использования с векторным поиском.

WordDelimiterTokenFilter

Разделяет слова на подслова и выполняет необязательные преобразования в группах подслов. Этот фильтр маркеров реализуется с помощью Apache Lucene.

AsciiFoldingTokenFilter

Преобразует буквенные, числовые и символические символы Юникода, которые не входят в первые 127 символов ASCII (блок Юникода "Базовый латиница"), в их эквиваленты ASCII, если такие эквиваленты существуют. Этот фильтр маркеров реализуется с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.AsciiFoldingTokenFilter

Фрагмент URI, указывающий тип фильтра маркеров.

name

string

Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков.

preserveOriginal

boolean

False

Значение, указывающее, будет ли сохранен исходный токен. Значение по умолчанию — false.

AzureActiveDirectoryApplicationCredentials

Учетные данные зарегистрированного приложения, созданного для службы поиска, которые используются для доступа с проверкой подлинности к ключам шифрования, хранящимся в Azure Key Vault.

Имя Тип Описание
applicationId

string

Идентификатор приложения AAD, которому были предоставлены необходимые разрешения на доступ к Key Vault Azure, который будет использоваться при шифровании неактивных данных. Идентификатор приложения не следует путать с идентификатором объекта для приложения AAD.

applicationSecret

string

Ключ проверки подлинности указанного приложения AAD.

BM25Similarity

Ранжирующая функция на основе алгоритма сходства Okapi BM25. BM25 — это алгоритм, подобный TF-IDF, который включает нормализацию длины (управляется параметром b), а также насыщение термином частоты (управляется параметром k1).

Имя Тип Описание
@odata.type string:

#Microsoft.Azure.Search.BM25Similarity

b

number

Это свойство определяет, как длина документа влияет на оценку релевантности. По умолчанию используется значение 0,75. Значение 0,0 означает, что нормализация длины не применяется, а значение 1,0 означает, что оценка полностью нормализована по длине документа.

k1

number

Это свойство управляет функцией масштабирования между частотой каждого соответствующего термина и конечной оценкой релевантности пары "документ-запрос". По умолчанию используется значение 1.2. Значение 0,0 означает, что оценка не масштабируется с увеличением частоты термина.

CharFilterName

Определяет имена всех фильтров символов, поддерживаемых поисковой системой.

Имя Тип Описание
html_strip

string

Фильтр символов, который пытается удалить конструкции HTML. См. раздел https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html

CjkBigramTokenFilter

Формирует биграмы терминов CJK, созданные из стандартного создателя маркеров. Этот фильтр маркеров реализуется с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.CjkBigramTokenFilter

Фрагмент URI, указывающий тип фильтра маркеров.

ignoreScripts

CjkBigramTokenFilterScripts[]

Скрипты, которые следует игнорировать.

name

string

Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков.

outputUnigrams

boolean

False

Значение типа , указывающее, следует ли выводить как юниграммы, так и биграмы (если значение true) или просто bigrams (если false). Значение по умолчанию — false.

CjkBigramTokenFilterScripts

Скрипты, которые могут игнорироваться CjkBigramTokenFilter.

Имя Тип Описание
han

string

Игнорируйте ханский скрипт при формировании биграмов терминов CJK.

hangul

string

Игнорируйте скрипт Hangul при формировании биграмов терминов CJK.

hiragana

string

Игнорируйте скрипт хираганы при формировании биграмов терминов CJK.

katakana

string

Игнорируйте скрипт Катаканы при формировании биграмов терминов CJK.

ClassicSimilarity

Устаревший алгоритм сходства, который использует реализацию Lucene TFIDFSimilarity TF-IDF. Этот вариант TF-IDF вводит нормализацию статической длины документов, а также координирующих факторов, которые наказывают документы, которые лишь частично соответствуют поисковым запросам.

Имя Тип Описание
@odata.type string:

#Microsoft.Azure.Search.ClassicSimilarity

ClassicTokenizer

Грамматический токенизатор, который подходит для обработки большинства документов на европейском языке. Этот создатель маркеров реализуется с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.ClassicTokenizer

Фрагмент URI, указывающий тип создателя маркеров.

maxTokenLength

integer

255

Максимальная длина маркера. Значение по умолчанию — 255. Маркеры, размер которых превышает максимальную длину, разделяются. Максимальная длина маркера, которую можно использовать, составляет 300 символов.

name

string

Имя создателя маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков.

CommonGramTokenFilter

Создает биграммы для часто встречающихся терминов при индексировании. Отдельные термины также индексируются с наложением биграмм. Этот фильтр маркеров реализуется с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.CommonGramTokenFilter

Фрагмент URI, указывающий тип фильтра маркеров.

commonWords

string[]

Набор общих слов.

ignoreCase

boolean

False

Значение , указывающее, будет ли совпадение с общими словами без учета регистра. Значение по умолчанию — false.

name

string

Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков.

queryMode

boolean

False

Значение типа , указывающее, находится ли фильтр маркеров в режиме запроса. В режиме запроса фильтр маркеров создает bigrams, а затем удаляет распространенные слова и отдельные термины, за которыми следует общее слово. Значение по умолчанию — false.

CorsOptions

Определяет параметры управления общим доступом к ресурсам независимо от источника (CORS) для индекса.

Имя Тип Описание
allowedOrigins

string[]

Список источников, из которых коду JavaScript будет предоставлен доступ к индексу. Может содержать список узлов в формате {protocol}://{полное доменное имя}[:{port#}] или один * , разрешающий все источники (не рекомендуется).

maxAgeInSeconds

integer

Длительность, в течение которой браузеры должны кэшировать предварительные ответы CORS. Значение по умолчанию — 5 минут.

CustomAnalyzer

Позволяет управлять процессом преобразования текста в индексируемые и доступные для поиска маркеры. Это определяемая пользователем конфигурация, состоящая из одного предопределенного создателя маркеров и одного или нескольких фильтров. Создатель маркеров отвечает за разбиение текста на маркеры и фильтры для изменения маркеров, созданных создателем маркеров.

Имя Тип Описание
@odata.type string:

#Microsoft.Azure.Search.CustomAnalyzer

Фрагмент URI, указывающий тип анализатора.

charFilters

CharFilterName[]

Список символьных фильтров, используемых для подготовки входного текста перед его обработкой создателем маркеров. Например, фильтр может заменить определенные знаки или символы. Фильтры выполняются в том порядке, в котором они перечислены.

name

string

Имя анализатора. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков.

tokenFilters

TokenFilterName[]

Список фильтров маркеров, используемых для фильтрации или изменения маркеров, созданных создателем маркеров. Например, вы можете указать специальный фильтр, который преобразует все символы в нижний регистр. Фильтры выполняются в том порядке, в котором они перечислены.

tokenizer

LexicalTokenizerName

Имя создателя маркеров, используемое для разделения непрерывного текста на последовательность маркеров, например разбиение предложения на слова.

DictionaryDecompounderTokenFilter

Разбивает составные слова, распространенные во многих германских языках. Этот фильтр маркеров реализуется с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.DictionaryDecompounderTokenFilter

Фрагмент URI, указывающий тип фильтра маркеров.

maxSubwordSize

integer

15

Максимальный размер подсловия. Выводятся только подслови, которые короче этого. Значение по умолчанию — 15. Максимум — 300.

minSubwordSize

integer

2

Минимальный размер подсловия. Выводятся только подсовки, длиннее этого значения. По умолчанию используется значение 2. Максимум — 300.

minWordSize

integer

5

Минимальный размер слова. Обрабатываются только слова дольше, чем это. Значение по умолчанию — 5. Максимум — 300.

name

string

Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков.

onlyLongestMatch

boolean

False

Значение типа , указывающее, следует ли добавлять в выходные данные только самое длинное соответствующее подсловие. Значение по умолчанию — false.

wordList

string[]

Список слов для сопоставления.

DistanceScoringFunction

Определяет функцию, которая повышает оценку на основе расстояния от географического расположения.

Имя Тип Описание
boost

number

Множитель для необработанной оценки. Должно быть положительным числом, не равным 1,0.

distance

DistanceScoringParameters

Значения параметров для функции оценки расстояния.

fieldName

string

Имя поля, используемого в качестве входных данных для функции оценки.

interpolation

ScoringFunctionInterpolation

Значение, указывающее, как будет интерполировано повышение по оценкам документа; по умолчанию — "Linear".

type string:

distance

Указывает тип используемой функции. Допустимые значения: magnitude, freshness, distance и tag. Тип функции должен быть в нижнем регистре.

DistanceScoringParameters

Предоставляет значения параметров для функции оценки расстояний.

Имя Тип Описание
boostingDistance

number

Расстояние в километрах от эталонного расположения, где заканчивается диапазон повышения.

referencePointParameter

string

Имя параметра, передаваемого в поисковых запросах для указания расположения ссылки.

EdgeNGramTokenFilter

Создает n граммов заданного размера, начиная с передней или задней части входного маркера. Этот фильтр маркеров реализуется с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.EdgeNGramTokenFilter

Фрагмент URI, указывающий тип фильтра маркеров.

maxGram

integer

2

Максимальная длина n-грамма. По умолчанию используется значение 2.

minGram

integer

1

Минимальная n-граммовая длина. Значение по умолчанию: 1. Значение должно быть меньше значения maxGram.

name

string

Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков.

side

EdgeNGramTokenFilterSide

front

Указывает, на какой стороне входных данных должна быть создана n-грамма. Значение по умолчанию — front.

EdgeNGramTokenFilterSide

Указывает, на какой стороне входных данных должен быть создан n-грамм.

Имя Тип Описание
back

string

Указывает, что n-грамм должен быть создан из задней части входных данных.

front

string

Указывает, что n-грамм должен быть создан из передней части входных данных.

EdgeNGramTokenFilterV2

Создает n граммов заданного размера, начиная с передней или задней части входного маркера. Этот фильтр маркеров реализуется с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.EdgeNGramTokenFilterV2

Фрагмент URI, указывающий тип фильтра маркеров.

maxGram

integer

2

Максимальная длина n-грамма. По умолчанию используется значение 2. Максимум — 300.

minGram

integer

1

Минимальная n-граммовая длина. Значение по умолчанию: 1. Максимум — 300. Значение должно быть меньше значения maxGram.

name

string

Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков.

side

EdgeNGramTokenFilterSide

front

Указывает, на какой стороне входных данных должна быть создана n-грамма. Значение по умолчанию — front.

EdgeNGramTokenizer

Маркеризует входные данные из края в n-граммы заданного размера. Этот создатель маркеров реализуется с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.EdgeNGramTokenizer

Фрагмент URI, указывающий тип создателя маркеров.

maxGram

integer

2

Максимальная длина n-грамма. По умолчанию используется значение 2. Максимум — 300.

minGram

integer

1

Минимальная n-граммовая длина. Значение по умолчанию: 1. Максимум — 300. Значение должно быть меньше значения maxGram.

name

string

Имя создателя маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков.

tokenChars

TokenCharacterKind[]

Классы символов, которые нужно сохранить в маркерах.

ElisionTokenFilter

Удаляет элизии. Например, "l'avion" (плоскость) будет преобразована в "avion" (плоскость). Этот фильтр маркеров реализуется с помощью Apache Lucene.

Имя Тип Описание
@odata.type string:

#Microsoft.Azure.Search.ElisionTokenFilter

Фрагмент URI, указывающий тип фильтра маркеров.

articles

string[]

Набор удаляемых статей.

name

string

Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков.

ExhaustiveKnnParameters

Содержит параметры, относящиеся к исчерпывающим алгоритмам KNN.

Имя Тип Описание
metric

VectorSearchAlgorithmMetric

Метрика подобия, используемая для векторных сравнений.

ExhaustiveKnnVectorSearchAlgorithmConfiguration

Содержит параметры конфигурации, характерные для исчерпывающего алгоритма KNN, используемого во время выполнения запросов, который будет выполнять поиск методом подбора по всему векторному индексу.

Имя Тип Описание
exhaustiveKnnParameters

ExhaustiveKnnParameters

Содержит параметры, относящиеся к исчерпывающим алгоритмам KNN.

kind string:

exhaustiveKnn

Имя типа алгоритма, настроенного для использования с векторным поиском.

name

string

Имя, связываемые с этой конкретной конфигурацией.

FreshnessScoringFunction

Определяет функцию, которая повышает оценку на основе значения поля даты и времени.

Имя Тип Описание
boost

number

Множитель для необработанной оценки. Должно быть положительным числом, не равным 1,0.

fieldName

string

Имя поля, используемого в качестве входных данных для функции оценки.

freshness

FreshnessScoringParameters

Значения параметров для функции оценки актуальности.

interpolation

ScoringFunctionInterpolation

Значение, указывающее, как будет интерполировано повышение по оценкам документа; по умолчанию — "Linear".

type string:

freshness

Указывает тип используемой функции. Допустимые значения: magnitude, freshness, distance и tag. Тип функции должен быть в нижнем регистре.

FreshnessScoringParameters

Предоставляет значения параметров для функции оценки актуальности.

Имя Тип Описание
boostingDuration

string

Срок действия, по истечении которого повышение будет прекращено для определенного документа.

HnswParameters

Содержит параметры, относящиеся к алгоритму HNSW.

Имя Тип Default value Описание
efConstruction

integer

400

Размер динамического списка, содержащего ближайшие соседи, который используется во время индексирования. Увеличение этого параметра может повысить качество индекса за счет увеличения времени индексирования. В определенный момент увеличение этого параметра приводит к уменьшению возвращаемого значения.

efSearch

integer

500

Размер динамического списка, содержащего ближайшие соседи, который используется во время поиска. Увеличение этого параметра может улучшить результаты поиска за счет более медленного поиска. В определенный момент увеличение этого параметра приводит к уменьшению возвращаемого значения.

m

integer

4

Количество двунаправленных связей, созданных для каждого нового элемента во время построения. Увеличение значения этого параметра может улучшить полноту и сократить время извлечения для наборов данных с высокой встроенной размерностью за счет увеличения потребления памяти и более длительного времени индексирования.

metric

VectorSearchAlgorithmMetric

Метрика подобия, используемая для векторных сравнений.

HnswVectorSearchAlgorithmConfiguration

Содержит параметры конфигурации, относящиеся к алгоритму ближайших соседей HNSW, используемому во время индексирования и выполнения запросов. Алгоритм HNSW предлагает компромисс между скоростью и точностью поиска.

Имя Тип Описание
hnswParameters

HnswParameters

Содержит параметры, относящиеся к алгоритму HNSW.

kind string:

hnsw

Имя типа алгоритма, настроенного для использования с векторным поиском.

name

string

Имя, связываемые с этой конкретной конфигурацией.

KeepTokenFilter

Фильтр маркеров, который хранит только маркеры с текстом, содержащимся в указанном списке слов. Этот фильтр маркеров реализуется с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.KeepTokenFilter

Фрагмент URI, указывающий тип фильтра маркеров.

keepWords

string[]

Список слов, которые нужно сохранить.

keepWordsCase

boolean

False

Значение, указывающее, следует ли в начале использовать все слова в нижнем регистре. Значение по умолчанию — false.

name

string

Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков.

KeywordMarkerTokenFilter

Помечает термины как ключевые слова. Этот фильтр маркеров реализуется с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.KeywordMarkerTokenFilter

Фрагмент URI, указывающий тип фильтра маркеров.

ignoreCase

boolean

False

Значение , указывающее, следует ли игнорировать регистр. Если значение равно true, все слова сначала преобразуются в строчные буквы. Значение по умолчанию — false.

keywords

string[]

Список слов, которые нужно пометить как ключевые слова.

name

string

Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков.

KeywordTokenizer

Выдает все входные данные в виде одного маркера. Этот создатель маркеров реализуется с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.KeywordTokenizer

Фрагмент URI, указывающий тип создателя маркеров.

bufferSize

integer

256

Размер буфера чтения в байтах. Значение по умолчанию — 256.

name

string

Имя создателя маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков.

KeywordTokenizerV2

Выдает все входные данные в виде одного маркера. Этот создатель маркеров реализуется с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.KeywordTokenizerV2

Фрагмент URI, указывающий тип создателя маркеров.

maxTokenLength

integer

256

Максимальная длина маркера. Значение по умолчанию — 256. Маркеры, размер которых превышает максимальную длину, разделяются. Максимальная длина маркера, которую можно использовать, составляет 300 символов.

name

string

Имя создателя маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков.

LengthTokenFilter

Удаляет слишком длинные или слишком короткие слова. Этот фильтр маркеров реализуется с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.LengthTokenFilter

Фрагмент URI, указывающий тип фильтра маркеров.

max

integer

300

Максимальная длина в символах. По умолчанию и максимум — 300.

min

integer

0

Минимальная длина символов. Значение по умолчанию — 0. Максимум — 300. Должно быть меньше значения max.

name

string

Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков.

LexicalAnalyzerName

Определяет имена всех анализаторов текста, поддерживаемых поисковой системой.

Имя Тип Описание
ar.lucene

string

Анализатор Lucene для арабского языка.

ar.microsoft

string

Анализатор Майкрософт для арабского языка.

bg.lucene

string

Анализатор Lucene для болгарского.

bg.microsoft

string

Анализатор Майкрософт для болгарского.

bn.microsoft

string

Анализатор Майкрософт для Bangla.

ca.lucene

string

Анализатор Lucene для каталонского.

ca.microsoft

string

Анализатор Майкрософт для каталонского.

cs.lucene

string

Анализатор Lucene для чешского языка.

cs.microsoft

string

Анализатор Майкрософт для чешского языка.

da.lucene

string

Анализатор Lucene для датского языка.

da.microsoft

string

Анализатор Майкрософт для датского языка.

de.lucene

string

Анализатор Lucene для немецкого языка.

de.microsoft

string

Анализатор Майкрософт для немецкого языка.

el.lucene

string

Анализатор Lucene для греческого языка.

el.microsoft

string

Анализатор Майкрософт для греческого языка.

en.lucene

string

Анализатор Lucene для английского языка.

en.microsoft

string

Анализатор Майкрософт для английского языка.

es.lucene

string

Анализатор Lucene для испанского языка.

es.microsoft

string

Анализатор Майкрософт для испанского языка.

et.microsoft

string

Анализатор Майкрософт для эстонии.

eu.lucene

string

Анализатор Lucene для Баскского.

fa.lucene

string

Анализатор Lucene для персидского языка.

fi.lucene

string

Анализатор Lucene для финского языка.

fi.microsoft

string

Анализатор Майкрософт для финского языка.

fr.lucene

string

Анализатор Lucene для французского языка.

fr.microsoft

string

Анализатор Майкрософт для французского языка.

ga.lucene

string

Анализатор Lucene для ирландского языка.

gl.lucene

string

Анализатор Lucene для Галисии.

gu.microsoft

string

Анализатор Майкрософт для Гуджарати.

he.microsoft

string

Анализатор Майкрософт для иврита.

hi.lucene

string

Анализатор Lucene для хинди.

hi.microsoft

string

Анализатор Майкрософт для хинди.

hr.microsoft

string

Анализатор Майкрософт для хорватского языка.

hu.lucene

string

Анализатор Lucene для венгерского.

hu.microsoft

string

Анализатор Майкрософт для венгерского.

hy.lucene

string

Анализатор Lucene для армянского.

id.lucene

string

Анализатор Lucene для индонезийского языка.

id.microsoft

string

Анализатор Майкрософт для индонезийского языка (Бахаса).

is.microsoft

string

Анализатор Майкрософт для Исландии.

it.lucene

string

Анализатор Lucene для итальянского языка.

it.microsoft

string

Анализатор Майкрософт для итальянского языка.

ja.lucene

string

Анализатор Lucene для японского языка.

ja.microsoft

string

Анализатор Майкрософт для японского языка.

keyword

string

Обрабатывает все содержимое поля как один маркер. Это полезно для данных некоторых типов, таких как почтовые индексы, идентификаторы и названия продуктов. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html

kn.microsoft

string

Анализатор Майкрософт для Каннада.

ko.lucene

string

Анализатор Lucene для корейского языка.

ko.microsoft

string

Анализатор Майкрософт для корейского языка.

lt.microsoft

string

Анализатор Майкрософт для литвы.

lv.lucene

string

Анализатор Lucene для латышского языка.

lv.microsoft

string

Анализатор Майкрософт для латышского языка.

ml.microsoft

string

Анализатор Майкрософт для Малаялама.

mr.microsoft

string

Анализатор Майкрософт для Маратхи.

ms.microsoft

string

Анализатор Майкрософт для малайского языка (латиница).

nb.microsoft

string

Анализатор Майкрософт для норвежского языка (букмол).

nl.lucene

string

Анализатор Lucene для голландского языка.

nl.microsoft

string

Анализатор Майкрософт для голландского языка.

no.lucene

string

Анализатор Lucene для норвежского языка.

pa.microsoft

string

Анализатор Майкрософт для Пенджаби.

pattern

string

Гибко разделяет текст на термины с помощью шаблона регулярного выражения. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html

pl.lucene

string

Анализатор Lucene для польского.

pl.microsoft

string

Анализатор Майкрософт для польского.

pt-BR.lucene

string

Анализатор Lucene для португальского языка (Бразилия).

pt-BR.microsoft

string

Анализатор Майкрософт для португальского языка (Бразилия).

pt-PT.lucene

string

Анализатор Lucene для португальского языка (Португалия).

pt-PT.microsoft

string

Анализатор Майкрософт для португальского языка (Португалия).

ro.lucene

string

Анализатор Lucene для румынского языка.

ro.microsoft

string

Анализатор Майкрософт для румынского языка.

ru.lucene

string

Анализатор Lucene для русского языка.

ru.microsoft

string

Анализатор Майкрософт для русского языка.

simple

string

Разбивает текст по небуквенным знакам и преобразует его в нижний регистр. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html

sk.microsoft

string

Анализатор Майкрософт для словацкого языка.

sl.microsoft

string

Анализатор Майкрософт для словенского языка.

sr-cyrillic.microsoft

string

Анализатор Майкрософт для сербского языка (кириллица).

sr-latin.microsoft

string

Анализатор Майкрософт для сербского языка (латиница).

standard.lucene

string

Стандартный анализатор Lucene.

standardasciifolding.lucene

string

Стандартный анализатор ASCII Свертывание Lucene. См. раздел https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers

stop

string

Делит текст на небуквенный; Применяет фильтры токенов в нижнем регистре и маркеров стоп-слов. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html

sv.lucene

string

Анализатор Lucene для шведского языка.

sv.microsoft

string

Анализатор Майкрософт для шведского языка.

ta.microsoft

string

Анализатор Майкрософт для Тамильского.

te.microsoft

string

Анализатор Майкрософт для Telugu.

th.lucene

string

Анализатор Lucene для тайского языка.

th.microsoft

string

Анализатор Майкрософт для тайского языка.

tr.lucene

string

Анализатор Lucene для турецкого языка.

tr.microsoft

string

Анализатор Майкрософт для турецкого языка.

uk.microsoft

string

Анализатор Майкрософт для украинского языка.

ur.microsoft

string

Анализатор Майкрософт для Urdu.

vi.microsoft

string

Анализатор Майкрософт для вьетнамского.

whitespace

string

Анализатор, использующий создатель маркеров пробелов. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html

zh-Hans.lucene

string

Анализатор Lucene для китайского языка (упрощенное письмо).

zh-Hans.microsoft

string

Анализатор Майкрософт для китайского языка (упрощенное письмо).

zh-Hant.lucene

string

Анализатор Lucene для китайского языка (традиционное письмо).

zh-Hant.microsoft

string

Анализатор Майкрософт для китайского языка (традиционное письмо).

LexicalTokenizerName

Определяет имена всех создателей маркеров, поддерживаемых поисковой системой.

Имя Тип Описание
classic

string

Грамматический создатель маркеров, который подходит для обработки большинства документов на европейском языке. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html

edgeNGram

string

Маркеризует входные данные из ребра в n граммов заданного размера. См. раздел https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html

keyword_v2

string

Выдает все входные данные в виде одного маркера. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html

letter

string

Разбивает текст по небуквенным знакам. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html

lowercase

string

Разбивает текст по небуквенным знакам и преобразует его в нижний регистр. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html

microsoft_language_stemming_tokenizer

string

Разделяет текст, используя правила для конкретного языка, и сводит слова к их базовым формам.

microsoft_language_tokenizer

string

Разбивает текст на основе правил определенного языка.

nGram

string

Размечает входные данные на N-граммы заданного размера. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html

path_hierarchy_v2

string

Создатель маркеров для иерархий в виде пути. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html

pattern

string

Создатель маркеров, использующий сопоставление шаблонов регулярных выражений для создания уникальных маркеров. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html

standard_v2

string

Стандартный анализатор Lucene; Состоит из стандартного маркеризатора, нижнего регистра фильтра и фильтра stop. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html

uax_url_email

string

Размечает URL-адреса и сообщения электронной почты как один маркер. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html

whitespace

string

Разбивает текст по пробелам. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html

LimitTokenFilter

Ограничивает количество маркеров при индексировании. Этот фильтр маркеров реализуется с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.LimitTokenFilter

Фрагмент URI, указывающий тип фильтра маркеров.

consumeAllTokens

boolean

False

Значение, указывающее, должны ли использоваться все маркеры из входных данных, даже если достигнут параметр maxTokenCount. Значение по умолчанию — false.

maxTokenCount

integer

1

Максимальное число маркеров для создания. Значение по умолчанию: 1.

name

string

Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков.

LuceneStandardAnalyzer

Стандартный анализатор Apache Lucene; Состоит из стандартного создателя маркеров, фильтра в нижнем регистре и фильтра stop.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.StandardAnalyzer

Фрагмент URI, указывающий тип анализатора.

maxTokenLength

integer

255

Максимальная длина маркера. Значение по умолчанию — 255. Маркеры, размер которых превышает максимальную длину, разделяются. Максимальная длина маркера, которую можно использовать, составляет 300 символов.

name

string

Имя анализатора. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков.

stopwords

string[]

Список стоп-слов.

LuceneStandardTokenizer

Разбивает текст по правилам сегментации текста в формате Юникод. Этот создатель маркеров реализуется с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.StandardTokenizer

Фрагмент URI, указывающий тип создателя маркеров.

maxTokenLength

integer

255

Максимальная длина маркера. Значение по умолчанию — 255. Маркеры, размер которых превышает максимальную длину, разделяются.

name

string

Имя создателя маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков.

LuceneStandardTokenizerV2

Разбивает текст по правилам сегментации текста в формате Юникод. Этот создатель маркеров реализуется с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.StandardTokenizerV2

Фрагмент URI, указывающий тип создателя маркеров.

maxTokenLength

integer

255

Максимальная длина маркера. Значение по умолчанию — 255. Маркеры, размер которых превышает максимальную длину, разделяются. Максимальная длина маркера, которую можно использовать, составляет 300 символов.

name

string

Имя создателя маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков.

MagnitudeScoringFunction

Определяет функцию, которая повышает оценку на основе величины числового поля.

Имя Тип Описание
boost

number

Множитель для необработанной оценки. Должно быть положительным числом, не равным 1,0.

fieldName

string

Имя поля, используемого в качестве входных данных для функции оценки.

interpolation

ScoringFunctionInterpolation

Значение, указывающее, как будет интерполировано повышение по оценкам документа; по умолчанию — "Linear".

magnitude

MagnitudeScoringParameters

Значения параметров для функции оценки величины.

type string:

magnitude

Указывает тип используемой функции. Допустимые значения: magnitude, freshness, distance и tag. Тип функции должен быть в нижнем регистре.

MagnitudeScoringParameters

Предоставляет значения параметров для функции оценки величины.

Имя Тип Описание
boostingRangeEnd

number

Значение поля, на котором заканчивается повышение.

boostingRangeStart

number

Значение поля, с которого начинается повышение.

constantBoostBeyondRange

boolean

Значение, указывающее, следует ли применять постоянное увеличение значений полей за пределами конечного значения диапазона; Значение по умолчанию — false.

MappingCharFilter

Фильтр символов, который применяет сопоставления, определенные с помощью параметра сопоставления. Сопоставление является каскадным (самое длинное сопоставление шаблона в заданной точке имеет приоритет). Замена может быть пустой строкой. Этот фильтр символов реализуется с помощью Apache Lucene.

Имя Тип Описание
@odata.type string:

#Microsoft.Azure.Search.MappingCharFilter

Фрагмент URI, указывающий тип фильтра char.

mappings

string[]

Список сопоставлений в следующем формате: "a=>b" (все вхождения символа "a" будут заменены символом "b").

name

string

Имя фильтра char. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков.

MicrosoftLanguageStemmingTokenizer

Разделяет текст, используя правила для конкретного языка, и сводит слова к их базовым формам.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.MicrosoftLanguageStemmingTokenizer

Фрагмент URI, указывающий тип создателя маркеров.

isSearchTokenizer

boolean

False

Значение , указывающее, как используется создатель маркеров. Задайте значение true, если используется в качестве создателя маркеров поиска, и значение false, если используется в качестве маркеризатора индексирования. Значение по умолчанию — false.

language

MicrosoftStemmingTokenizerLanguage

Используемый язык. Значение по умолчанию — английский.

maxTokenLength

integer

255

Максимальная длина маркера. Маркеры, размер которых превышает максимальную длину, разделяются. Максимальная допустимая длина маркера — 300 знаков. Маркеры длиной более 300 символов сначала разбиваются на маркеры длиной 300, а затем каждый из них разбивается в зависимости от максимальной длины маркера. Значение по умолчанию — 255.

name

string

Имя создателя маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков.

MicrosoftLanguageTokenizer

Разбивает текст на основе правил определенного языка.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.MicrosoftLanguageTokenizer

Фрагмент URI, указывающий тип создателя маркеров.

isSearchTokenizer

boolean

False

Значение , указывающее, как используется создатель маркеров. Задайте значение true, если используется в качестве создателя маркеров поиска, и значение false, если используется в качестве маркеризатора индексирования. Значение по умолчанию — false.

language

MicrosoftTokenizerLanguage

Используемый язык. Значение по умолчанию — английский.

maxTokenLength

integer

255

Максимальная длина маркера. Маркеры, размер которых превышает максимальную длину, разделяются. Максимальная допустимая длина маркера — 300 знаков. Маркеры длиной более 300 символов сначала разбиваются на маркеры длиной 300, а затем каждый из них разбивается в зависимости от максимальной длины маркера. Значение по умолчанию — 255.

name

string

Имя создателя маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков.

MicrosoftStemmingTokenizerLanguage

Списки языки, поддерживаемые создателем маркеров языка Майкрософт.

Имя Тип Описание
arabic

string

Выбирает microsoft stemming tokenizer для арабского языка.

bangla

string

Выбирает microsoft stemming tokenizer для Bangla.

bulgarian

string

Выбирает microsoft stemming tokenizer для болгарского.

catalan

string

Выбирает microsoft stemming tokenizer для каталонского.

croatian

string

Выбирает microsoft stemming tokenizer для хорватского языка.

czech

string

Выбирает microsoft stemming tokenizer для чешского языка.

danish

string

Выбирает создатель маркеров microsoft stemming для датского языка.

dutch

string

Выбирает microsoft stemming tokenizer для голландского языка.

english

string

Выбирает microsoft stemming tokenizer для английского языка.

estonian

string

Выбирает microsoft stemming tokenizer для эстонского языка.

finnish

string

Выбирает microsoft stemming tokenizer для финского языка.

french

string

Выбирает microsoft stemming tokenizer для французского языка.

german

string

Выбирает microsoft stemming tokenizer для немецкого языка.

greek

string

Выбирает microsoft stemming tokenizer для греческого языка.

gujarati

string

Выбирает microsoft stemming tokenizer для Gujarati.

hebrew

string

Выбирает microsoft stemming tokenizer для иврита.

hindi

string

Выбирает microsoft stemming tokenizer для хинди.

hungarian

string

Выбирает microsoft stemming tokenizer для венгерского.

icelandic

string

Выбирает microsoft stemming tokenizer для исландского.

indonesian

string

Выбирает microsoft stemming tokenizer для индонезийского языка.

italian

string

Выбирает microsoft stemming tokenizer для итальянского языка.

kannada

string

Выбирает microsoft stemming tokenizer для Kannada.

latvian

string

Выбирает microsoft stemming tokenizer для латышского языка.

lithuanian

string

Выбирает microsoft stemming tokenizer для литовского языка.

malay

string

Выбирает microsoft stemming tokenizer для малайского.

malayalam

string

Выбирает microsoft stemming tokenizer для Malayalam.

marathi

string

Выбирает microsoft stemming tokenizer для Marathi.

norwegianBokmaal

string

Выбирает microsoft stemming tokenizer для норвежского (букмол).

polish

string

Выбирает microsoft stemming tokenizer для польского.

portuguese

string

Выбирает microsoft stemming tokenizer для португальского языка.

portugueseBrazilian

string

Выбирает microsoft stemming tokenizer для португальского языка (Бразилия).

punjabi

string

Выбирает microsoft stemming tokenizer for Punjabi.

romanian

string

Выбирает microsoft stemming tokenizer для румынского языка.

russian

string

Выбирает microsoft stemming tokenizer для русского языка.

serbianCyrillic

string

Выбирает microsoft stemming tokenizer для сербского (кириллица).

serbianLatin

string

Выбирает microsoft stemming tokenizer для сербского (латиница).

slovak

string

Выбирает создатель маркеров microsoft stemming для словацкого языка.

slovenian

string

Выбирает microsoft stemming tokenizer для словенского языка.

spanish

string

Выбирает microsoft stemming tokenizer для испанского языка.

swedish

string

Выбирает microsoft stemming tokenizer для шведского языка.

tamil

string

Выбирает microsoft stemming tokenizer для тамильского.

telugu

string

Выбирает microsoft stemming tokenizer для Telugu.

turkish

string

Выбирает microsoft stemming tokenizer для турецкого языка.

ukrainian

string

Выбирает microsoft stemming tokenizer для украинского языка.

urdu

string

Выбирает microsoft stemming tokenizer для Urdu.

MicrosoftTokenizerLanguage

Списки языки, поддерживаемые создателем маркеров языка Майкрософт.

Имя Тип Описание
bangla

string

Выбирает создатель токенов Майкрософт для Bangla.

bulgarian

string

Выбирает создатель маркеров Майкрософт для болгарского.

catalan

string

Выбирает создатель токенов Майкрософт для каталонского.

chineseSimplified

string

Выбирает создатель токенов Майкрософт для китайского языка (упрощенное письмо).

chineseTraditional

string

Выбирает создатель токенов Майкрософт для китайского языка (традиционное письмо).

croatian

string

Выбирает создатель токенов Майкрософт для хорватского языка.

czech

string

Выбирает создатель токенов Майкрософт для чешского языка.

danish

string

Выбирает создатель токенов Майкрософт для датского языка.

dutch

string

Выбирает создатель токенов Майкрософт для голландского языка.

english

string

Выбирает создатель маркеров Майкрософт для английского языка.

french

string

Выбирает создатель токенов Майкрософт для французского языка.

german

string

Выбирает microsoft tokenizer для немецкого языка.

greek

string

Выбирает создатель токенов Майкрософт для греческого языка.

gujarati

string

Выбирает создатель токенов Майкрософт для Gujarati.

hindi

string

Выбирает microsoft tokenizer для хинди.

icelandic

string

Выбирает создатель токенов Майкрософт для исландского.

indonesian

string

Выбирает создатель токенов Майкрософт для индонезийского языка.

italian

string

Выбирает создатель токенов Майкрософт для итальянского языка.

japanese

string

Выбирает создатель токенов Майкрософт для японского языка.

kannada

string

Выбирает создатель токенов Майкрософт для Kannada.

korean

string

Выбирает microsoft tokenizer для корейского языка.

malay

string

Выбирает microsoft tokenizer для малайского.

malayalam

string

Выбирает создатель маркеров Майкрософт для Малаялам.

marathi

string

Выбирает создатель маркеров Майкрософт для Маратхи.

norwegianBokmaal

string

Выбирает microsoft tokenizer для норвежского (букмол).

polish

string

Выбирает создатель токенов Майкрософт для польского.

portuguese

string

Выбирает создатель токенов Майкрософт для португальского языка.

portugueseBrazilian

string

Выбирает создатель токенов Майкрософт для португальского языка (Бразилия).

punjabi

string

Выбирает создатель токенов Майкрософт для пенджаби.

romanian

string

Выбирает создатель токенов Майкрософт для румынского языка.

russian

string

Выбирает создатель токенов Майкрософт для русского языка.

serbianCyrillic

string

Выбирает microsoft tokenizer для сербского языка (кириллица).

serbianLatin

string

Выбирает microsoft tokenizer для сербского языка (латиница).

slovenian

string

Выбирает создатель токенов Майкрософт для словенского языка.

spanish

string

Выбирает создатель токенов Майкрософт для испанского языка.

swedish

string

Выбирает создатель токенов Майкрософт для шведского языка.

tamil

string

Выбирает создатель токенов Майкрософт для тамильского.

telugu

string

Выбирает создатель токенов Майкрософт для Telugu.

thai

string

Выбирает создатель токенов Майкрософт для тайского языка.

ukrainian

string

Выбирает создатель токенов Майкрософт для украинского языка.

urdu

string

Выбирает создатель токенов Майкрософт для urdu.

vietnamese

string

Выбирает создатель токенов Майкрософт для вьетнамского.

NGramTokenFilter

Создает N-граммы заданного размера. Этот фильтр маркеров реализуется с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.NGramTokenFilter

Фрагмент URI, указывающий тип фильтра маркеров.

maxGram

integer

2

Максимальная n-граммовая длина. По умолчанию используется значение 2.

minGram

integer

1

Минимальная n-граммовая длина. Значение по умолчанию: 1. Должно быть меньше значения maxGram.

name

string

Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков.

NGramTokenFilterV2

Создает N-граммы заданного размера. Этот фильтр маркеров реализуется с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.NGramTokenFilterV2

Фрагмент URI, указывающий тип фильтра маркеров.

maxGram

integer

2

Максимальная n-граммовая длина. По умолчанию используется значение 2. Максимум — 300.

minGram

integer

1

Минимальная n-граммовая длина. Значение по умолчанию: 1. Максимум — 300. Должно быть меньше значения maxGram.

name

string

Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков.

NGramTokenizer

Размечает входные данные на N-граммы заданного размера. Этот создатель маркеров реализуется с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.NGramTokenizer

Фрагмент URI, указывающий тип создателя маркеров.

maxGram

integer

2

Максимальная длина n-грамма. По умолчанию используется значение 2. Максимум — 300.

minGram

integer

1

Минимальная n-граммовая длина. Значение по умолчанию: 1. Максимум — 300. Значение должно быть меньше значения maxGram.

name

string

Имя создателя маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков.

tokenChars

TokenCharacterKind[]

Классы символов, которые нужно сохранить в маркерах.

PathHierarchyTokenizerV2

Создатель маркеров для иерархий в виде пути. Этот создатель маркеров реализуется с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.PathHierarchyTokenizerV2

Фрагмент URI, указывающий тип создателя маркеров.

delimiter

string

/

Используемый символ разделителя. Значение по умолчанию — "/".

maxTokenLength

integer

300

Максимальная длина маркера. Значение по умолчанию и максимальное значение — 300.

name

string

Имя создателя маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков.

replacement

string

/

Значение , которое, если задано, заменяет символ разделителя. Значение по умолчанию — "/".

reverse

boolean

False

Значение типа , указывающее, следует ли создавать маркеры в обратном порядке. Значение по умолчанию — false.

skip

integer

0

Количество пропускаемых начальных маркеров. Значение по умолчанию — 0.

PatternAnalyzer

Гибко разделяет текст на термины с помощью шаблона регулярного выражения. Этот анализатор реализуется с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.PatternAnalyzer

Фрагмент URI, указывающий тип анализатора.

flags

RegexFlags

Флаги регулярных выражений.

lowercase

boolean

True

Значение, указывающее, следует ли указывать термины в нижнем регистре. Значение по умолчанию — true.

name

string

Имя анализатора. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков.

pattern

string

\W+

Шаблон регулярного выражения для сопоставления разделителей маркеров. По умолчанию является выражением, которое соответствует одному или нескольким символам, не являющихся словами.

stopwords

string[]

Список стоп-слов.

PatternCaptureTokenFilter

Использует регулярные выражения Java для создания нескольких маркеров — по одному для каждой группы захвата в одном или нескольких шаблонах. Этот фильтр маркеров реализуется с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.PatternCaptureTokenFilter

Фрагмент URI, указывающий тип фильтра маркеров.

name

string

Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков.

patterns

string[]

Список шаблонов для сопоставления с каждым токеном.

preserveOriginal

boolean

True

Значение, указывающее, следует ли возвращать исходный маркер, даже если один из шаблонов совпадает. Значение по умолчанию — true.

PatternReplaceCharFilter

Фильтр символов, заменяющий символы во входной строке. Он использует регулярное выражение, чтобы определить последовательности знаков, которые нужно сохранить, и шаблон замены, чтобы определить знаки для замены. Например, с учетом входного текста "aa bb aa bb", шаблона "(aa)\s+(bb)" и замены "$1#$2", результатом будет "aa#bb aa#bb". Этот фильтр символов реализуется с помощью Apache Lucene.

Имя Тип Описание
@odata.type string:

#Microsoft.Azure.Search.PatternReplaceCharFilter

Фрагмент URI, указывающий тип фильтра char.

name

string

Имя фильтра char. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков.

pattern

string

Шаблон регулярного выражения.

replacement

string

Текст замены.

PatternReplaceTokenFilter

Фильтр символов, заменяющий символы во входной строке. Он использует регулярное выражение, чтобы определить последовательности знаков, которые нужно сохранить, и шаблон замены, чтобы определить знаки для замены. Например, учитывая входной текст "aa bb aa bb", шаблон "(aa)\s+(bb)" и замену "$1#$2", результатом будет "aa#bb aa#bb". Этот фильтр маркеров реализуется с помощью Apache Lucene.

Имя Тип Описание
@odata.type string:

#Microsoft.Azure.Search.PatternReplaceTokenFilter

Фрагмент URI, указывающий тип фильтра маркеров.

name

string

Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков.

pattern

string

Шаблон регулярного выражения.

replacement

string

Текст замены.

PatternTokenizer

Создатель маркеров, использующий сопоставление шаблонов регулярных выражений для создания уникальных маркеров. Этот создатель маркеров реализуется с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.PatternTokenizer

Фрагмент URI, указывающий тип создателя маркеров.

flags

RegexFlags

Флаги регулярных выражений.

group

integer

-1

Отсчитываемый от нуля порядковый номер соответствующей группы в шаблоне регулярного выражения для извлечения в маркеры. Используйте значение -1, если вы хотите использовать весь шаблон для разделения входных данных на маркеры независимо от совпадающих групп. Значение по умолчанию — -1.

name

string

Имя создателя маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков.

pattern

string

\W+

Шаблон регулярного выражения для сопоставления разделителей маркеров. По умолчанию — это выражение, которое соответствует одному или нескольким символам, не используемым в словах.

PhoneticEncoder

Определяет тип фонетического кодировщика для использования с PhoneticTokenFilter.

Имя Тип Описание
beiderMorse

string

Кодирует маркер в значение Beider-Morse.

caverphone1

string

Кодирует токен в значение Caverphone 1.0.

caverphone2

string

Кодирует токен в значение Caverphone 2.0.

cologne

string

Кодирует токен в фонетическое значение Кельна.

doubleMetaphone

string

Кодирует маркер в значение двойного метафона.

haasePhonetik

string

Кодирует токен с помощью уточнения Haase алгоритма Kölner Phonetik.

koelnerPhonetik

string

Кодирует маркер с помощью алгоритма Kölner Phonetik.

metaphone

string

Кодирует маркер в значение Метафона.

nysiis

string

Кодирует маркер в значение NYSIIS.

refinedSoundex

string

Кодирует токен в уточненное значение Soundex.

soundex

string

Кодирует маркер в значение Soundex.

PhoneticTokenFilter

Создает маркеры для фонетических совпадений. Этот фильтр маркеров реализуется с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.PhoneticTokenFilter

Фрагмент URI, указывающий тип фильтра маркеров.

encoder

PhoneticEncoder

metaphone

Используемый фонетический кодировщик. Значение по умолчанию — metaphone.

name

string

Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков.

replace

boolean

True

Значение , указывающее, должны ли закодированные маркеры заменять исходные маркеры. Если значение равно false, закодированные маркеры добавляются в качестве синонимов. Значение по умолчанию — true.

PrioritizedFields

Описывает поля заголовка, содержимого и ключевых слов, которые будут использоваться для семантического ранжирования, субтитров, выделений и ответов.

Имя Тип Описание
prioritizedContentFields

SemanticField[]

Определяет поля содержимого, которые будут использоваться для семантического ранжирования, субтитров, выделений и ответов. Для наилучшего результата выбранные поля должны содержать текст в форме естественного языка. Порядок полей в массиве представляет их приоритет. Поля с более низким приоритетом могут быть усечены, если содержимое длинное.

prioritizedKeywordsFields

SemanticField[]

Определяет поля ключевое слово, которые будут использоваться для семантического ранжирования, субтитров, выделений и ответов. Для наилучшего результата выбранные поля должны содержать список ключевых слов. Порядок полей в массиве представляет их приоритет. Поля с более низким приоритетом могут быть усечены, если содержимое длинное.

titleField

SemanticField

Определяет поле заголовка, которое будет использоваться для семантического ранжирования, субтитров, выделений и ответов. Если в индексе нет поля заголовка, оставьте это поле пустым.

RegexFlags

Определяет флаги, которые можно объединить для управления использованием регулярных выражений в анализаторе шаблонов и создателе маркеров шаблонов.

Имя Тип Описание
CANON_EQ

string

Включает каноническую эквивалентность.

CASE_INSENSITIVE

string

Включает сопоставление без учета регистра.

COMMENTS

string

Разрешает пробелы и комментарии в шаблоне.

DOTALL

string

Включает режим dotall.

LITERAL

string

Включает литеральный анализ шаблона.

MULTILINE

string

Включает многостроковый режим.

UNICODE_CASE

string

Включает свертывание регистра с поддержкой Юникода.

UNIX_LINES

string

Включает режим линий Unix.

ScoringFunctionAggregation

Определяет агрегатную функцию, используемую для объединения результатов всех функций оценки в профиле оценки.

Имя Тип Описание
average

string

Увелижи оценку на среднее значение для всех результатов функции оценки.

firstMatching

string

Повышение оценок с помощью первой применимой функции оценки в профиле оценки.

maximum

string

Увеливание оценок на максимальное количество всех результатов функции оценки.

minimum

string

Увелижите оценки на минимум всех результатов функции оценки.

sum

string

Увелижи оценки на сумму всех результатов функции оценки.

ScoringFunctionInterpolation

Определяет функцию, используемую для интерполяции повышения оценки в диапазоне документов.

Имя Тип Описание
constant

string

Повышает оценку на постоянный коэффициент.

linear

string

Повышает оценку на линейно уменьшающуюся величину. Это интерполяция по умолчанию для функций оценки.

logarithmic

string

Повышает оценку на величину, которая логарифмически уменьшается. Повышение быстро уменьшается для более высоких оценок и медленнее по мере уменьшения оценок. Этот тип интерполяции невозможно использовать в функциях оценки tag.

quadratic

string

Увеличивает баллы на величину, которая уменьшается в четыре раза. Повышение медленно уменьшается для более высоких оценок и быстрее по мере уменьшения оценок. Этот тип интерполяции невозможно использовать в функциях оценки tag.

ScoringProfile

Определяет параметры индекса поиска, влияющие на оценку в поисковых запросах.

Имя Тип Описание
functionAggregation

ScoringFunctionAggregation

Значение , указывающее, как следует объединять результаты отдельных функций оценки. Значение по умолчанию — Sum. Игнорируется, если отсутствуют функции оценки.

functions ScoringFunction[]:

Коллекция функций, влияющих на оценку документов.

name

string

Имя профиля оценки.

text

TextWeights

Параметры, повышающие оценку на основе совпадений текста в определенных полях индекса.

SearchError

Описывает условие ошибки для API.

Имя Тип Описание
code

string

Один из определяемого сервером набора кодов ошибок.

details

SearchError[]

Массив сведений о конкретных ошибках, которые привели к этой сообщаемой ошибке.

message

string

Удобочитаемое представление ошибки.

SearchField

Представляет поле в определении индекса, описывающее имя, тип данных и поведение поиска поля.

Имя Тип Описание
analyzer

LexicalAnalyzerName

Имя анализатора, используемого для поля. Этот параметр можно использовать только с полями, поддерживающими поиск. Параметр не совместим с элементами searchAnalyzer и indexAnalyzer. Выбрав для поля анализатор, его невозможно изменить. Для сложных полей должен иметь значение NULL.

dimensions

integer

Размерность поля вектора.

facetable

boolean

Значение , указывающее, следует ли включить ссылку на поле в фасетных запросах. Обычно используется в представлении результатов поиска, включая количество попаданий по категориям (например, поиск цифровых камер и просмотр хитов по брендам, мегапикселям, по цене и т. д.). Это свойство должно иметь значение NULL для сложных полей. Поля типа Edm.GeographyPoint или Collection(Edm.GeographyPoint) не могут быть фасетными. Значение по умолчанию равно true для всех других простых полей.

fields

SearchField[]

Список вложенных полей, если это поле типа Edm.ComplexType или Collection(Edm.ComplexType). Для простых полей должно быть равно NULL или пустому значению.

filterable

boolean

Значение , указывающее, следует ли включить ссылку на поле в $filter запросах. Фильтруемый отличается от доступных для поиска способом обработки строк. Поля типа Edm.String или Collection(Edm.String), которые можно фильтровать, не подвергаются разбиениям по словам, поэтому сравнения выполняются только для точных совпадений. Например, если задать для такого поля f значение "солнечный день", $filter=f eq "солнечный" не найдет совпадений, но $filter=f eq "солнечный день". Это свойство должно иметь значение NULL для сложных полей. Значение по умолчанию равно true для простых полей и null для сложных полей.

indexAnalyzer

LexicalAnalyzerName

Имя анализатора, используемого во время индексирования для поля. Этот параметр можно использовать только с полями с возможностью поиска. Он должен быть задан вместе с searchAnalyzer и не может быть задан вместе с параметром анализатора. Для этого свойства нельзя задать имя анализатора языка; Используйте свойство анализатора, если вам нужен анализатор языка. Выбрав для поля анализатор, его невозможно изменить. Для сложных полей должен иметь значение NULL.

key

boolean

Значение , указывающее, однозначно ли поле идентифицирует документы в индексе. В качестве ключевого поля должно быть выбрано ровно одно поле верхнего уровня в каждом индексе и иметь тип Edm.String. Ключевые поля можно использовать для поиска документов напрямую, а также для обновления или удаления определенных документов. Значение по умолчанию равно false для простых полей и null для сложных полей.

name

string

Имя поля, которое должно быть уникальным в коллекции полей индекса или родительского поля.

retrievable

boolean

Значение , указывающее, может ли поле быть возвращено в результатах поиска. Этот параметр можно отключить, если вы хотите использовать поле (например, поле) в качестве механизма фильтрации, сортировки или оценки, но не хотите, чтобы поле было видимым для конечного пользователя. Это свойство должно иметь значение true для ключевых полей, а для сложных полей — значение NULL. Это свойство можно изменить в существующих полях. Включение этого свойства не приводит к увеличению требований к хранилищу индексов. Значение по умолчанию равно true для простых полей и null для сложных полей.

searchAnalyzer

LexicalAnalyzerName

Имя анализатора, используемого во время поиска поля. Этот параметр можно использовать только с полями с возможностью поиска. Он должен быть задан вместе с indexAnalyzer и не может быть задан вместе с параметром анализатора. Для этого свойства нельзя задать имя анализатора языка; Используйте свойство анализатора, если вам нужен анализатор языка. Этот анализатор можно обновить на существующее поле. Для сложных полей должен иметь значение NULL.

searchable

boolean

Значение , указывающее, доступно ли поле для полнотекстового поиска. Это означает, что во время индексирования оно будет включено в анализ (в частности, для разбиения на слова). Если, например, задать для поля, поддерживающего поиск, значение sunny day (солнечный день), оно будет разделено на элементы sunny и day. В результате эти слова смогут участвовать в полнотекстовом поиске. Поля типа Edm.String или Collection(Edm.String) доступны для поиска по умолчанию. Это свойство должно иметь значение false для простых полей других нестроковых типов данных, а для сложных полей — null. Примечание. Поля, доступные для поиска, занимают дополнительное место в индексе для размещения дополнительных версий значения поля с маркерами для полнотекстового поиска. Если вы хотите сэкономить место в индексе и вам не нужно включать поле в поисковые запросы, задайте для поиска значение false.

sortable

boolean

Значение , указывающее, следует ли включить ссылку на поле в $orderby выражениях. По умолчанию поисковая система сортирует результаты по оценке, но во многих интерфейсах пользователи хотят выполнять сортировку по полям в документах. Простое поле можно сортировать только в том случае, если оно имеет одно значение (оно имеет одно значение в область родительского документа). Простые поля коллекции нельзя сортировать, так как они имеют многозначное значение. Простые вложенные поля сложных коллекций также имеют многозначные значения и поэтому не могут быть сортируемыми. Это верно, будь то непосредственное родительское поле или поле предка, это сложная коллекция. Сложные поля не могут быть сортируемыми, и свойство сортируемой функции должно иметь значение NULL для таких полей. Значение по умолчанию для сортируемых полей равно true для простых полей с одним значением, false для простых полей с несколькими значениями и null для сложных полей.

synonymMaps

string[]

Список имен сопоставлений синонимов, которые необходимо связать с этим полем. Этот параметр можно использовать только с полями с возможностью поиска. В настоящее время поддерживается только одна карта синонимов для каждого поля. Назначение сопоставления синонимов полю гарантирует, что термины запроса, предназначенные для этого поля, будут развернуты во время запроса с помощью правил в карте синонимов. Этот атрибут можно изменить в существующих полях. Для сложных полей должен иметь значение NULL или пустую коллекцию.

type

SearchFieldDataType

Тип данных поля.

vectorSearchProfile

string

Имя профиля поиска вектора, указывающее алгоритм, используемый при поиске векторного поля.

SearchFieldDataType

Определяет тип данных поля в индексе поиска.

Имя Тип Описание
Edm.Boolean

string

Указывает, что поле содержит логическое значение (true или false).

Edm.ComplexType

string

Указывает, что поле содержит один или несколько сложных объектов, которые, в свою очередь, содержат вложенные поля других типов.

Edm.DateTimeOffset

string

Указывает, что поле содержит значение даты и времени, включая сведения о часовом поясе.

Edm.Double

string

Указывает, что поле содержит число с плавающей запятой двойной точности IEEE.

Edm.GeographyPoint

string

Указывает, что поле содержит географическое расположение с точки зрения долготы и широты.

Edm.Int32

string

Указывает, что поле содержит 32-разрядное целое число со знаком.

Edm.Int64

string

Указывает, что поле содержит 64-разрядное целое число со знаком.

Edm.Single

string

Указывает, что поле содержит число с плавающей запятой одной точности. Это допустимо только при использовании с Collection(Edm.Single).

Edm.String

string

Указывает, что поле содержит строку.

SearchIndex

Представляет определение индекса поиска, которое описывает поля и поведение поиска индекса.

Имя Тип Описание
@odata.etag

string

ETag индекса.

analyzers LexicalAnalyzer[]:

Анализаторы для индекса.

charFilters CharFilter[]:

Символьные фильтры для индекса.

corsOptions

CorsOptions

Параметры управления общим доступом к ресурсам независимо от источника (CORS) для индекса.

defaultScoringProfile

string

Имя профиля оценки, используемого, если в запросе не указан ни один из них. Если это свойство не задано и в запросе не указан профиль оценки, будет использоваться оценка по умолчанию (tf-idf).

encryptionKey

SearchResourceEncryptionKey

Описание ключа шифрования, созданного в Azure Key Vault. Этот ключ используется для обеспечения дополнительного уровня шифрования неактивных данных, если требуется полная уверенность в том, что никто, даже корпорация Майкрософт, не может расшифровать ваши данные. После шифрования данные всегда остаются зашифрованными. Служба поиска игнорирует попытки присвоить этому свойству значение NULL. Это свойство можно изменить при необходимости, если вы хотите сменить ключ шифрования. Ваши данные не будут затронуты. Шифрование с помощью ключей, управляемых клиентом, недоступно для бесплатных служб поиска и доступно только для платных служб, созданных 1 января 2019 года или позже.

fields

SearchField[]

Поля индекса.

name

string

Имя индекса.

scoringProfiles

ScoringProfile[]

Профили оценки для индекса.

semantic

SemanticSettings

Определяет параметры для индекса поиска, которые влияют на семантические возможности.

similarity Similarity:

Тип алгоритма сходства, используемого при оценке и ранжировании документов, соответствующих поисковому запросу. Алгоритм подобия можно определить только во время создания индекса и не может быть изменен в существующих индексах. Если значение равно null, используется алгоритм ClassicSimilarity.

suggesters

Suggester[]

Средства подбора для индекса.

tokenFilters TokenFilter[]:

Маркер фильтрует индекс.

tokenizers LexicalTokenizer[]:

Создатели маркеров для индекса.

vectorSearch

VectorSearch

Содержит параметры конфигурации, связанные с поиском векторов.

SearchResourceEncryptionKey

Управляемый клиентом ключ шифрования в Azure Key Vault. Ключи, которые вы создаете и которыми управляете, можно использовать для шифрования или расшифровки неактивных данных в службе поиска, таких как индексы и карты синонимов.

Имя Тип Описание
accessCredentials

AzureActiveDirectoryApplicationCredentials

Необязательные учетные данные Azure Active Directory, используемые для доступа к Key Vault Azure. Не требуется, если вместо этого используется управляемое удостоверение.

keyVaultKeyName

string

Имя ключа Key Vault Azure, который будет использоваться для шифрования неактивных данных.

keyVaultKeyVersion

string

Версия ключа Key Vault Azure, который будет использоваться для шифрования неактивных данных.

keyVaultUri

string

Универсальный код ресурса (URI) Key Vault Azure, который также называется DNS-именем, который содержит ключ, используемый для шифрования неактивных данных. Пример URI: https://my-keyvault-name.vault.azure.net.

SemanticConfiguration

Определяет конкретную конфигурацию для использования в контексте семантических возможностей.

Имя Тип Описание
name

string

Имя семантической конфигурации.

prioritizedFields

PrioritizedFields

Описывает поля заголовка, содержимого и ключевое слово, которые будут использоваться для семантического ранжирования, субтитров, выделений и ответов. Необходимо задать по крайней мере одно из трех вложенных свойств (titleField, prioritizedKeywordsFields и prioritizedContentFields).

SemanticField

Поле, используемое как часть семантической конфигурации.

Имя Тип Описание
fieldName

string

SemanticSettings

Определяет параметры для индекса поиска, влияющие на семантические возможности.

Имя Тип Описание
configurations

SemanticConfiguration[]

Семантические конфигурации для индекса.

defaultConfiguration

string

Позволяет задать имя семантической конфигурации по умолчанию в индексе, что делает его необязательным для передачи в качестве параметра запроса каждый раз.

ShingleTokenFilter

Создает сочетания маркеров в виде одного маркера. Этот фильтр маркеров реализуется с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.ShingleTokenFilter

Фрагмент URI, указывающий тип фильтра маркеров.

filterToken

string

_

Строка для вставки для каждой позиции, в которой нет маркера. По умолчанию используется символ подчеркивания ("_").

maxShingleSize

integer

2

Максимальный размер гальки. По умолчанию и минимальное значение — 2.

minShingleSize

integer

2

Минимальный размер гальки. По умолчанию и минимальное значение — 2. Должно быть меньше значения maxShingleSize.

name

string

Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков.

outputUnigrams

boolean

True

Значение , указывающее, будет ли выходной поток содержать входные маркеры (юниграммы), а также черепица. Значение по умолчанию — true.

outputUnigramsIfNoShingles

boolean

False

Значение, указывающее, следует ли выводить юниграммы для тех случаев, когда не доступны черепицы. Это свойство имеет приоритет, если outputUnigrams имеет значение false. Значение по умолчанию — false.

tokenSeparator

string

Строка, используемая при объединении смежных маркеров для формирования голени. По умолчанию используется один пробел (" ").

SnowballTokenFilter

Фильтр, который объединяет слова с помощью парадигматического модуля, созданного Snowball. Этот фильтр маркеров реализуется с помощью Apache Lucene.

Имя Тип Описание
@odata.type string:

#Microsoft.Azure.Search.SnowballTokenFilter

Фрагмент URI, указывающий тип фильтра маркеров.

language

SnowballTokenFilterLanguage

Используемый язык.

name

string

Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков.

SnowballTokenFilterLanguage

Язык, используемый для фильтра маркеров Snowball.

Имя Тип Описание
armenian

string

Выбирает создатель маркеров для метки Lucene Snowball для армянского.

basque

string

Выбирает создатель маркеров люсена Снежного кома для баскского.

catalan

string

Выбирает создатель маркеров люсене Snowball для каталонского.

danish

string

Выбирает создатель маркеров люсена Снежного кома для датского языка.

dutch

string

Выбирает создатель маркеров люсене Snowball для голландского языка.

english

string

Выбирает создатель маркеров люсене Snowball для английского языка.

finnish

string

Выбирает создатель маркеров люсене Snowball для финского языка.

french

string

Выбирает создатель маркеров люсена Снежного кома для французского языка.

german

string

Выбирает создатель маркеров люсене Snowball для немецкого языка.

german2

string

Выбирает создатель маркеров для парадигмы Lucene Snowball, который использует немецкий алгоритм вариантов.

hungarian

string

Выбирает создатель маркеров люсене Snowball для венгерского.

italian

string

Выбирает создатель маркеров люсене Snowball для итальянского языка.

kp

string

Выбирает создатель маркеров для выделения стволов Lucene Snowball для голландского языка, использующего алгоритм Kraaij-Pohlmann.

lovins

string

Выбирает создатель маркеров для корежки Lucene Snowball для английского языка, который использует алгоритм парадигмы Lovins.

norwegian

string

Выбирает создатель маркеров люсене Snowball для норвежского языка.

porter

string

Выбирает маркеризатора парадигматического кода Lucene Snowball для английского языка, в котором используется алгоритм определения парадигмы Портера.

portuguese

string

Выбирает создатель маркеров люсене Snowball для португальского языка.

romanian

string

Выбирает lucene Snowball stemming tokenizer для румынского языка.

russian

string

Выбирает создатель маркеров люсене Snowball для русского языка.

spanish

string

Выбирает создатель маркеров люсене Снежного кома для испанского языка.

swedish

string

Выбирает создатель маркеров люсене Snowball для шведского языка.

turkish

string

Выбирает создатель маркеров люсене Снежного кома для турецкого языка.

StemmerOverrideTokenFilter

Предоставляет возможность переопределять другие фильтры с помощью пользовательского парадигматического поиска на основе словаря. Все термины, связанные со словарем, будут помечены как ключевые слова, чтобы они не были объединяться парадигматических модулей по цепочке. Необходимо поместить перед всеми стемминговыми фильтрами. Этот фильтр маркеров реализуется с помощью Apache Lucene.

Имя Тип Описание
@odata.type string:

#Microsoft.Azure.Search.StemmerOverrideTokenFilter

Фрагмент URI, указывающий тип фильтра маркеров.

name

string

Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков.

rules

string[]

Список правил определения парадигмы в следующем формате: "word => stem", например: "run => run".

StemmerTokenFilter

Фильтр стволов для конкретного языка. Этот фильтр маркеров реализуется с помощью Apache Lucene.

Имя Тип Описание
@odata.type string:

#Microsoft.Azure.Search.StemmerTokenFilter

Фрагмент URI, указывающий тип фильтра маркеров.

language

StemmerTokenFilterLanguage

Используемый язык.

name

string

Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков.

StemmerTokenFilterLanguage

Язык, используемый для фильтра маркеров парадигматического модуля.

Имя Тип Описание
arabic

string

Выбирает создатель маркеров для языка Lucene stemming для арабского языка.

armenian

string

Выбирает токенизатора выделения стволов Lucene для армянского.

basque

string

Выбирает создатель маркеров люсена для баскского.

brazilian

string

Выбирает создатель маркеров для определения парадигмы Lucene для португальского языка (Бразилия).

bulgarian

string

Выбирает маркеризатора выделения стволов Lucene для болгарского.

catalan

string

Выбирает создатель маркеров люсене для каталонского.

czech

string

Выбирает создатель маркеров люсене для чешского языка.

danish

string

Выбирает создатель маркеров для выделения стволов Lucene для датского языка.

dutch

string

Выбирает создатель маркеров для выделения стволов Lucene для голландского языка.

dutchKp

string

Выбирает создатель маркеров stemming Lucene для голландского языка, который использует алгоритм Kraaij-Pohlmann.

english

string

Выбирает создатель маркеров люсена для английского языка.

finnish

string

Выбирает создатель маркеров люсене для финского языка.

french

string

Выбирает создатель маркеров люсена для французского языка.

galician

string

Выбирает создатель маркеров люсена для галисийского.

german

string

Выбирает создатель маркеров для выделения стволов Lucene для немецкого языка.

german2

string

Выбирает создатель маркеров люсена, который использует немецкий алгоритм вариантов.

greek

string

Выбирает создатель маркеров люсена для греческого языка.

hindi

string

Выбирает создатель маркеров люсена для хинди.

hungarian

string

Выбирает создатель маркеров люсена для венгерского.

indonesian

string

Выбирает создатель маркеров люсене для индонезийского языка.

irish

string

Выбирает создатель маркеров люсена для ирландского языка.

italian

string

Выбирает создатель маркеров люсене для итальянского языка.

latvian

string

Выбирает создатель маркеров люсена для латышского языка.

lightEnglish

string

Выбирает создатель маркеров для языка Lucene stemming для английского языка, который выполняет легкую фильтрацию.

lightFinnish

string

Выбирает создатель маркеров для выделения стволов Lucene для финского языка, который выполняет легкую фильтрацию.

lightFrench

string

Выбирает создатель маркеров люсена для французского языка, который выполняет легкую фильтрацию.

lightGerman

string

Выбирает создатель маркеров для выделения стволов Lucene для немецкого языка, который выполняет легкую фильтрацию.

lightHungarian

string

Выбирает создатель маркеров для выделения стволов Lucene для венгерского, который выполняет легкую фильтрацию.

lightItalian

string

Выбирает создатель маркеров люсене для итальянского языка, который выполняет легкую фильтрацию.

lightNorwegian

string

Выбирает токенизатор люсене для норвежского языка (букмол), который выполняет светлую фильтрацию.

lightNynorsk

string

Выбирает токенизатор люсена для норвежского языка (Nynorsk), который выполняет светлую фильтрацию.

lightPortuguese

string

Выбирает создатель маркеров люсенского ствола для португальского языка, который выполняет легкую фильтрацию.

lightRussian

string

Выбирает токенизатор люсена для российского языка, который выполняет легкую фильтрацию.

lightSpanish

string

Выбирает создатель маркеров люсене для испанского языка, который выполняет легкую фильтрацию.

lightSwedish

string

Выбирает создатель маркеров люсене для шведского языка, который выполняет легкую фильтрацию.

lovins

string

Выбирает создатель маркеров для определения парадигмы Lucene для английского языка, в котором используется алгоритм Lovins stemming.

minimalEnglish

string

Выбирает создатель маркеров для языка Lucene stemming для английского языка, который выполняет минимальное выделение стволов.

minimalFrench

string

Выбирает создатель маркеров люсена для французского языка, который выполняет минимальное выделение стволов.

minimalGalician

string

Выбирает токенизатора выделения стволов Lucene для галисийского, который выполняет минимальное выделение стволов.

minimalGerman

string

Выбирает создатель маркеров для выделения стволов Lucene для немецкого языка, который выполняет минимальное выделение стволов.

minimalNorwegian

string

Выбирает создатель маркеров люсене для норвежского языка (букмол), который выполняет минимальное выделение стволов.

minimalNynorsk

string

Выбирает создатель маркеров люсена для норвежского языка (Nynorsk), который выполняет минимальное выделение стволов.

minimalPortuguese

string

Выбирает создатель токенов lucene stemming для португальского языка, который выполняет минимальное выделение стволов.

norwegian

string

Выбирает создатель маркеров люсене для норвежского языка (букмол).

porter2

string

Выбирает создатель маркеров для языка Lucene stemming для английского языка, в котором используется алгоритм портер2.

portuguese

string

Выбирает создатель маркеров люсене для португальского языка.

portugueseRslp

string

Выбирает создатель маркеров для определения парадигмы Lucene для португальского языка, в котором используется алгоритм определения стволов RSLP.

possessiveEnglish

string

Выбирает создатель маркеров для языка Lucene stemming для английского языка, который удаляет конечные притяжательные знаки из слов.

romanian

string

Выбирает создатель маркеров люсене для румынского языка.

russian

string

Выбирает создатель маркеров люсена для русского языка.

sorani

string

Выбирает создатель маркеров люсена для Sorani.

spanish

string

Выбирает создатель маркеров люсене для испанского языка.

swedish

string

Выбирает создатель маркеров люсене для шведского языка.

turkish

string

Выбирает создатель маркеров для выделения стволов Lucene для турецкого языка.

StopAnalyzer

Делит текст на небуквенный; Применяет фильтры токенов в нижнем регистре и маркеров стоп-слов. Этот анализатор реализуется с помощью Apache Lucene.

Имя Тип Описание
@odata.type string:

#Microsoft.Azure.Search.StopAnalyzer

Фрагмент URI, указывающий тип анализатора.

name

string

Имя анализатора. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков.

stopwords

string[]

Список стоп-слов.

StopwordsList

Определяет предопределенный список стоп-слов для конкретного языка.

Имя Тип Описание
arabic

string

Выбирает список стоп-слов для арабского языка.

armenian

string

Выбирает список стоп-слов для армянского.

basque

string

Выбирает список стоп-слов для баскского.

brazilian

string

Выбирает список стоп-слов для португальского языка (Бразилия).

bulgarian

string

Выбирает список стоп-слов для болгарского.

catalan

string

Выбирает список стоп-слов для каталонского.

czech

string

Выбирает список стоп-слов для чешского языка.

danish

string

Выбирает список стоп-слов для датского языка.

dutch

string

Выбирает список стоп-слов для голландского языка.

english

string

Выбирает список стоп-слов для английского языка.

finnish

string

Выбирает список стоп-слов для финского языка.

french

string

Выбирает список стоп-слов для французского языка.

galician

string

Выбирает список стоп-слов для галисийского.

german

string

Выбирает список стоп-слов для немецкого языка.

greek

string

Выбирает список стоп-слов для греческого языка.

hindi

string

Выбирает список стоп-слов для хинди.

hungarian

string

Выбирает список стоп-слов для венгерского.

indonesian

string

Выбирает список стоп-слов для индонезийского языка.

irish

string

Выбирает список стоп-слов для ирландского языка.

italian

string

Выбирает список стоп-слов для итальянского языка.

latvian

string

Выбирает список стоп-слов для латышского языка.

norwegian

string

Выбирает список стоп-слов для норвежского языка.

persian

string

Выбирает список стоп-слов для персидского языка.

portuguese

string

Выбирает список стоп-слов для португальского языка.

romanian

string

Выбирает список стоп-слов для румынского языка.

russian

string

Выбирает список стоп-слов для русского языка.

sorani

string

Выбирает список стоп-слов для Sorani.

spanish

string

Выбирает список стоп-слов для испанского языка.

swedish

string

Выбирает список стоп-слов для шведского языка.

thai

string

Выбирает список стоп-слов для тайского языка.

turkish

string

Выбирает список стоп-слов для турецкого языка.

StopwordsTokenFilter

Удаляет стоп-слова из потока маркеров. Этот фильтр маркеров реализуется с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.StopwordsTokenFilter

Фрагмент URI, указывающий тип фильтра маркеров.

ignoreCase

boolean

False

Значение типа , указывающее, следует ли игнорировать регистр. Если значение равно true, все слова сначала преобразуются в строчные буквы. Значение по умолчанию — false.

name

string

Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков.

removeTrailing

boolean

True

Значение, указывающее, следует ли игнорировать последнее условие поиска, если это стоп-слово. Значение по умолчанию — true.

stopwords

string[]

Список стоп-слов. Это свойство и свойство списка стоп-слов нельзя одновременно задать.

stopwordsList

StopwordsList

english

Предопределенный список стоп-слов для использования. Это свойство и свойство стоп-слов нельзя одновременно задать. Значение по умолчанию — английский.

Suggester

Определяет, как API предложения должен применяться к группе полей в индексе.

Имя Тип Описание
name

string

Имя средства подбора.

searchMode

SuggesterSearchMode

Значение , указывающее возможности средства подбора.

sourceFields

string[]

Список имен полей, к которым применяется средство подбора. Каждое поле должно быть доступны для поиска.

SuggesterSearchMode

Значение , указывающее возможности средства подбора.

Имя Тип Описание
analyzingInfixMatching

string

Соответствует последовательным целым терминам и префиксам в поле. Например, для поля "Самая быстрая коричневая лиса" запросы "fast" и "fastest brow" будут совпадать.

SynonymTokenFilter

Соответствует синонимам из одного или нескольких слов в потоке маркеров. Этот фильтр маркеров реализуется с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.SynonymTokenFilter

Фрагмент URI, указывающий тип фильтра маркеров.

expand

boolean

True

Значение, указывающее, будут ли все слова в списке синонимов (если не используется нотация => ) сопоставляться друг с другом. Если значение равно true, все слова в списке синонимов (если => нотация не используется) будут сопоставляться друг с другом. Следующий список: невероятный, невероятный, сказочный, удивительный эквивалентно: невероятный, невероятный, сказочный, удивительный => невероятный, невероятный, сказочный, удивительный. Если false, следующий список: невероятный, невероятный, сказочный, удивительный будет эквивалентен: невероятный, невероятный, сказочный, удивительный => невероятный. Значение по умолчанию — true.

ignoreCase

boolean

False

Значение, указывающее, следует ли свертывать входные данные регистра для сопоставления. Значение по умолчанию — false.

name

string

Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков.

synonyms

string[]

Список синонимов в одном из двух форматов: 1. невероятный, невероятный, сказочный => удивительный - все термины на левой стороне символа> будут заменены всеми терминами на правой стороне; 2. невероятный, невероятный, сказочный, удивительный - разделенный запятыми список эквивалентных слов. Установите параметр expand, чтобы изменить способ интерпретации этого списка.

TagScoringFunction

Определяет функцию, которая повышает оценки документов со строковыми значениями, соответствующими заданному списку тегов.

Имя Тип Описание
boost

number

Множитель для необработанной оценки. Должно быть положительным числом, не равным 1,0.

fieldName

string

Имя поля, используемого в качестве входных данных для функции оценки.

interpolation

ScoringFunctionInterpolation

Значение, указывающее, как будет интерполировано повышение по оценкам документа; по умолчанию — "Linear".

tag

TagScoringParameters

Значения параметров для функции оценки тегов.

type string:

tag

Указывает тип используемой функции. Допустимые значения: magnitude, freshness, distance и tag. Тип функции должен быть в нижнем регистре.

TagScoringParameters

Предоставляет значения параметров для функции оценки тегов.

Имя Тип Описание
tagsParameter

string

Имя параметра, передаваемого в поисковых запросах для указания списка тегов для сравнения с целевым полем.

TextWeights

Определяет весовые коэффициенты для полей индекса, для которых совпадения должны повысить оценку в поисковых запросах.

Имя Тип Описание
weights

object

Словарь весовых коэффициентов по полю для повышения оценки документов. Ключи — это имена полей, а значения — весовые коэффициенты для каждого поля.

TokenCharacterKind

Представляет классы символов, с которыми может работать фильтр маркеров.

Имя Тип Описание
digit

string

Сохраняет цифры в токенах.

letter

string

Хранит буквы в токенах.

punctuation

string

Сохраняет знаки препинания в маркерах.

symbol

string

Сохраняет символы в маркерах.

whitespace

string

Сохраняет пробелы в маркерах.

TokenFilterName

Определяет имена всех фильтров маркеров, поддерживаемых поисковой системой.

Имя Тип Описание
apostrophe

string

Удаляет все знаки после апострофа (включая сам апостроф). См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html

arabic_normalization

string

Фильтр маркеров, применяющий нормализатор арабского языка для нормализации орфографии. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html

asciifolding

string

Преобразует буквенные, числовые и символические символы Юникода, которые не входят в первые 127 символов ASCII (блок Юникода "Базовый латиница"), в их эквиваленты ASCII, если такие эквиваленты существуют. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html

cjk_bigram

string

Формирует биграмы терминов CJK, созданные из стандартного создателя маркеров. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html

cjk_width

string

Нормализует различия в ширине ККЯ. Сворачивают варианты fullwidth ASCII в эквивалентный базовый латиница, а полуширинный вариант Катакана — в эквивалентную кану. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html

classic

string

Удаляет английские притяжательные символы и точки из аббревиатур. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html

common_grams

string

Создает биграммы для часто встречающихся терминов при индексировании. Отдельные термины также индексируются с наложением биграмм. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html

edgeNGram_v2

string

Создает n граммов заданного размера, начиная с передней или задней части входного маркера. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html

elision

string

Удаляет элизии. Например, "l'avion" (плоскость) будет преобразована в "avion" (плоскость). См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html

german_normalization

string

Нормализует немецкие символы в соответствии с эвристики алгоритма snowball German2. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html

hindi_normalization

string

Нормализует текст на хинди, чтобы удалить некоторые различия в орфографических вариациях. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html

indic_normalization

string

Нормализует представление текста в Юникоде на индийских языках. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html

keyword_repeat

string

Выдает каждый входящий маркер дважды: один раз ключевое слово и один раз как не ключевое слово. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html

kstem

string

Высокопроизводительный фильтр kstem для английского языка. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html

length

string

Удаляет слишком длинные или слишком короткие слова. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html

limit

string

Ограничивает количество маркеров при индексировании. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html

lowercase

string

Нормализует текст в маркере в нижний регистр. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.htm

nGram_v2

string

Создает N-граммы заданного размера. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html

persian_normalization

string

Применяет нормализацию для персидского языка. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html

phonetic

string

Создает маркеры для фонетических совпадений. См. раздел https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html

porter_stem

string

Для преобразования потока маркеров использует алгоритм парадигматического выражения Porter. См. раздел http://tartarus.org/~martin/PorterStemmer

reverse

string

Обращает порядок строки маркера. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html

scandinavian_folding

string

Складывает скандинавские символы åÄäæÄÆ-a> и öÖøØ-o>. Он также предотвращает использование двойных гласных aa, ae, ao, oe и oo, оставляя только первую. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html

scandinavian_normalization

string

Нормализует использование взаимозаменяемых скандинавских знаков. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html

shingle

string

Создает сочетания маркеров в виде одного маркера. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html

snowball

string

Фильтр, который объединяет слова с помощью парадигматического модуля, созданного Snowball. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html

sorani_normalization

string

Нормализует представление текста в Юникоде на языке сорани. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html

stemmer

string

Фильтр стволов для конкретного языка. См. раздел https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters

stopwords

string

Удаляет стоп-слова из потока маркеров. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html

trim

string

Усекает пробел в начале и конце маркеров. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html

truncate

string

Усекает термины до определенной длины. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html

unique

string

Отфильтровывает маркеры с тем же текстом, что и в предыдущем маркере. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html

uppercase

string

Нормализует текст в маркере в верхний регистр. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

word_delimiter

string

Разделяет слова на подслова и выполняет необязательные преобразования в группах подслов.

TruncateTokenFilter

Усекает термины до определенной длины. Этот фильтр маркеров реализуется с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.TruncateTokenFilter

Фрагмент URI, указывающий тип фильтра маркеров.

length

integer

300

Длина, при которой будут усечены термины. Значение по умолчанию и максимальное значение — 300.

name

string

Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков.

UaxUrlEmailTokenizer

Размечает URL-адреса и сообщения электронной почты как один маркер. Этот создатель маркеров реализуется с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.UaxUrlEmailTokenizer

Фрагмент URI, указывающий тип создателя маркеров.

maxTokenLength

integer

255

Максимальная длина маркера. Значение по умолчанию — 255. Маркеры, размер которых превышает максимальную длину, разделяются. Максимальная длина маркера, которую можно использовать, составляет 300 символов.

name

string

Имя создателя маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков.

UniqueTokenFilter

Отфильтровывает маркеры с тем же текстом, что и в предыдущем маркере. Этот фильтр маркеров реализуется с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.UniqueTokenFilter

Фрагмент URI, указывающий тип фильтра маркеров.

name

string

Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков.

onlyOnSamePosition

boolean

False

Значение , указывающее, следует ли удалять дубликаты только в той же позиции. Значение по умолчанию — false.

VectorSearch

Содержит параметры конфигурации, связанные с поиском векторов.

Имя Тип Описание
algorithms VectorSearchAlgorithmConfiguration[]:

Содержит параметры конфигурации, относящиеся к алгоритму, используемому во время индексирования или запроса.

profiles

VectorSearchProfile[]

Определяет сочетания конфигураций для векторного поиска.

VectorSearchAlgorithmKind

Алгоритм, используемый для индексирования и выполнения запросов.

Имя Тип Описание
exhaustiveKnn

string

Исчерпывающий алгоритм KNN, который будет выполнять поиск методом подбора.

hnsw

string

HNSW (Иерархический навигация малый мир), тип алгоритма приблизительных ближайших соседей.

VectorSearchAlgorithmMetric

Метрика подобия, используемая для векторных сравнений.

Имя Тип Описание
cosine

string

dotProduct

string

euclidean

string

VectorSearchProfile

Определяет сочетание конфигураций для использования с векторным поиском.

Имя Тип Описание
algorithm

string

Имя конфигурации алгоритма векторного поиска, указывающее алгоритм и необязательные параметры.

name

string

Имя, связываемые с этим профилем поиска векторов.

WordDelimiterTokenFilter

Разделяет слова на подслова и выполняет необязательные преобразования в группах подслов. Этот фильтр маркеров реализуется с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.WordDelimiterTokenFilter

Фрагмент URI, указывающий тип фильтра маркеров.

catenateAll

boolean

False

Значение , указывающее, будут ли все части подсловных слов катенироваться. Например, если задано значение true, "Azure-Search-1" станет "AzureSearch1". Значение по умолчанию — false.

catenateNumbers

boolean

False

Значение, указывающее, будет ли выполняться максимальное количество выполнений чисел. Например, если задано значение true, "1–2" становится "12". Значение по умолчанию — false.

catenateWords

boolean

False

Значение, указывающее, будет ли выполняться максимальное количество выполнений частей слов. Например, если задано значение true, "Azure-Search" становится "AzureSearch". Значение по умолчанию — false.

generateNumberParts

boolean

True

Значение типа , указывающее, следует ли создавать подслови числа. Значение по умолчанию — true.

generateWordParts

boolean

True

Значение, указывающее, следует ли создавать слова-части. Если задано значение , вызывает создание частей слов; Например, "AzureSearch" становится "Azure" "Поиск". Значение по умолчанию — true.

name

string

Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков.

preserveOriginal

boolean

False

Значение, указывающее, будут ли сохраняться исходные слова и добавляться в список подсловий. Значение по умолчанию — false.

protectedWords

string[]

Список маркеров для защиты от разделителей.

splitOnCaseChange

boolean

True

Значение, указывающее, следует ли разделять слова в caseChange. Например, если задано значение true, "AzureSearch" становится "Azure" "Поиск". Значение по умолчанию — true.

splitOnNumerics

boolean

True

Значение, указывающее, следует ли разделять числа. Например, если задано значение true, "Azure1Search" становится "Azure" "1" "Поиск". Значение по умолчанию — true.

stemEnglishPossessive

boolean

True

Значение, указывающее, следует ли удалять конечные "'s" для каждого подсловия. Значение по умолчанию — true.