Indexes - Create
Vytvoří nový index vyhledávání.
POST {endpoint}/indexes?api-version=2024-07-01
Parametry identifikátoru URI
Name | V | Vyžadováno | Typ | Description |
---|---|---|---|---|
endpoint
|
path | True |
string |
Adresa URL koncového bodu vyhledávací služby. |
api-version
|
query | True |
string |
Verze rozhraní API klienta. |
Hlavička požadavku
Name | Vyžadováno | Typ | Description |
---|---|---|---|
x-ms-client-request-id |
string uuid |
ID sledování odeslané s požadavkem, které vám pomůže s laděním. |
Text požadavku
Name | Vyžadováno | Typ | Description |
---|---|---|---|
fields | True |
Pole indexu. |
|
name | True |
string |
Název indexu. |
@odata.etag |
string |
ETag indexu. |
|
analyzers | LexicalAnalyzer[]: |
Analyzátory indexu. |
|
charFilters | CharFilter[]: |
Filtry znaků pro index. |
|
corsOptions |
Možnosti řízení sdílení prostředků mezi zdroji (CORS) pro index |
||
defaultScoringProfile |
string |
Název bodovacího profilu, který se má použít, pokud není v dotazu zadán žádný. Pokud tato vlastnost není nastavena a v dotazu není zadán žádný bodovací profil, použije se výchozí bodování (tf-idf). |
|
encryptionKey |
Popis šifrovacího klíče, který vytvoříte ve službě Azure Key Vault. Tento klíč se používá k zajištění další úrovně neaktivních uložených šifrování pro vaše data, pokud chcete mít plnou jistotu, že vaše data může dešifrovat nikdo, ani Microsoft. Jakmile data zašifrujete, zůstane vždy zašifrovaná. Vyhledávací služba bude ignorovat pokusy o nastavení této vlastnosti na hodnotu null. Tuto vlastnost můžete podle potřeby změnit, pokud chcete šifrovací klíč otočit; Vaše data nebudou ovlivněna. Šifrování pomocí klíčů spravovaných zákazníkem není k dispozici pro bezplatné vyhledávací služby a je k dispozici pouze pro placené služby vytvořené 1. ledna 2019 nebo po 1. lednu 2019. |
||
scoringProfiles |
Profily bodování indexu. |
||
semantic |
Definuje parametry indexu vyhledávání, které ovlivňují sémantické schopnosti. |
||
similarity | Similarity: |
Typ algoritmu podobnosti, který se má použít při bodování a řazení dokumentů odpovídajících vyhledávacímu dotazu. Algoritmus podobnosti lze definovat pouze při vytváření indexu a nelze ho upravovat u existujících indexů. Pokud má hodnotu null, použije se algoritmus ClassicSimilarity. |
|
suggesters |
Návrhy indexu. |
||
tokenFilters |
TokenFilter[]:
|
Filtry tokenů pro index. |
|
tokenizers | LexicalTokenizer[]: |
Tokenizátory indexu. |
|
vectorSearch |
Obsahuje možnosti konfigurace související s vektorové vyhledávání. |
Odpovědi
Name | Typ | Description |
---|---|---|
201 Created | ||
Other Status Codes |
Chybová odpověď. |
Příklady
SearchServiceCreateIndex
Ukázkový požadavek
POST https://myservice.search.windows.net/indexes?api-version=2024-07-01
{
"name": "hotels",
"fields": [
{
"name": "hotelId",
"type": "Edm.String",
"key": true,
"searchable": false
},
{
"name": "baseRate",
"type": "Edm.Double"
},
{
"name": "description",
"type": "Edm.String",
"filterable": false,
"sortable": false,
"facetable": false
},
{
"name": "descriptionEmbedding",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"synonymMaps": [],
"dimensions": 1536,
"vectorSearchProfile": "myHnswSQProfile"
},
{
"name": "descriptionEmbedding_notstored",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": false,
"stored": false,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"synonymMaps": [],
"dimensions": 1536,
"vectorSearchProfile": "myHnswSQProfile"
},
{
"name": "descriptionEmbedding_forBQ",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"synonymMaps": [],
"dimensions": 1536,
"vectorSearchProfile": "myHnswBQProfile"
},
{
"name": "description_fr",
"type": "Edm.String",
"filterable": false,
"sortable": false,
"facetable": false,
"analyzer": "fr.lucene"
},
{
"name": "hotelName",
"type": "Edm.String"
},
{
"name": "nameEmbedding",
"type": "Collection(Edm.Half)",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"synonymMaps": [],
"dimensions": 1536,
"vectorSearchProfile": "myHnswProfile"
},
{
"name": "category",
"type": "Edm.String"
},
{
"name": "tags",
"type": "Collection(Edm.String)",
"analyzer": "tagsAnalyzer"
},
{
"name": "parkingIncluded",
"type": "Edm.Boolean"
},
{
"name": "smokingAllowed",
"type": "Edm.Boolean"
},
{
"name": "lastRenovationDate",
"type": "Edm.DateTimeOffset"
},
{
"name": "rating",
"type": "Edm.Int32"
},
{
"name": "location",
"type": "Edm.GeographyPoint"
}
],
"scoringProfiles": [
{
"name": "geo",
"text": {
"weights": {
"hotelName": 5
}
},
"functions": [
{
"type": "distance",
"boost": 5,
"fieldName": "location",
"interpolation": "logarithmic",
"distance": {
"referencePointParameter": "currentLocation",
"boostingDistance": 10
}
}
]
}
],
"defaultScoringProfile": "geo",
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"hotelName"
]
}
],
"analyzers": [
{
"name": "tagsAnalyzer",
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"charFilters": [
"html_strip"
],
"tokenizer": "standard_v2"
}
],
"corsOptions": {
"allowedOrigins": [
"tempuri.org"
],
"maxAgeInSeconds": 60
},
"encryptionKey": {
"keyVaultKeyName": "myUserManagedEncryptionKey-createdinAzureKeyVault",
"keyVaultKeyVersion": "myKeyVersion-32charAlphaNumericString",
"keyVaultUri": "https://myKeyVault.vault.azure.net",
"accessCredentials": {
"applicationId": "00000000-0000-0000-0000-000000000000",
"applicationSecret": "<applicationSecret>"
}
},
"similarity": {
"@odata.type": "#Microsoft.Azure.Search.BM25Similarity",
"b": 0.5,
"k1": 1.3
},
"semantic": {
"configurations": [
{
"name": "semanticHotels",
"prioritizedFields": {
"titleField": {
"fieldName": "hotelName"
},
"prioritizedContentFields": [
{
"fieldName": "description"
},
{
"fieldName": "description_fr"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "tags"
},
{
"fieldName": "category"
}
]
}
}
]
},
"vectorSearch": {
"profiles": [
{
"name": "myHnswProfile",
"algorithm": "myHnsw"
},
{
"name": "myHnswSQProfile",
"algorithm": "myHnsw",
"compression": "mySQ8"
},
{
"name": "myHnswBQProfile",
"algorithm": "myHnsw",
"compression": "myBQ"
},
{
"name": "myAlgorithm",
"algorithm": "myExhaustive"
}
],
"algorithms": [
{
"name": "myHnsw",
"kind": "hnsw",
"hnswParameters": {
"m": 4,
"metric": "cosine"
}
},
{
"name": "myExhaustive",
"kind": "exhaustiveKnn",
"exhaustiveKnnParameters": {
"metric": "cosine"
}
}
],
"compressions": [
{
"name": "mySQ8",
"kind": "scalarQuantization",
"scalarQuantizationParameters": {
"quantizedDataType": "int8"
},
"rerankWithOriginalVectors": true,
"defaultOversampling": 10
},
{
"name": "myBQ",
"kind": "binaryQuantization",
"rerankWithOriginalVectors": true,
"defaultOversampling": 10
}
]
}
}
Ukázková odpověď
{
"name": "hotels",
"fields": [
{
"name": "hotelId",
"type": "Edm.String",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": true,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "baseRate",
"type": "Edm.Double",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "description",
"type": "Edm.String",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "descriptionEmbedding",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": 1536,
"vectorSearchProfile": "myHnswSQProfile",
"synonymMaps": []
},
{
"name": "descriptionEmbedding_notstored",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": false,
"stored": false,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"synonymMaps": [],
"dimensions": 1536,
"vectorSearchProfile": "myHnswSQProfile"
},
{
"name": "descriptionEmbedding_forBQ",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": 1536,
"vectorSearchProfile": "myHnswBQProfile",
"synonymMaps": []
},
{
"name": "description_fr",
"type": "Edm.String",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": "fr.lucene",
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "hotelName",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "nameEmbedding",
"type": "Collection(Edm.Half)",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": 1536,
"vectorSearchProfile": "myHnswProfile",
"synonymMaps": []
},
{
"name": "category",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "tags",
"type": "Collection(Edm.String)",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": false,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": "tagsAnalyzer",
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "parkingIncluded",
"type": "Edm.Boolean",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "smokingAllowed",
"type": "Edm.Boolean",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "lastRenovationDate",
"type": "Edm.DateTimeOffset",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "rating",
"type": "Edm.Int32",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "location",
"type": "Edm.GeographyPoint",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
}
],
"scoringProfiles": [
{
"name": "geo",
"functionAggregation": "sum",
"text": {
"weights": {
"hotelName": 5
}
},
"functions": [
{
"fieldName": "location",
"interpolation": "logarithmic",
"type": "distance",
"boost": 5,
"distance": {
"referencePointParameter": "currentLocation",
"boostingDistance": 10
}
}
]
}
],
"defaultScoringProfile": "geo",
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"hotelName"
]
}
],
"analyzers": [
{
"name": "tagsAnalyzer",
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"charFilters": [
"html_strip"
],
"tokenFilters": [],
"tokenizer": "standard_v2"
}
],
"tokenizers": [],
"tokenFilters": [],
"charFilters": [],
"corsOptions": {
"allowedOrigins": [
"tempuri.org"
],
"maxAgeInSeconds": 60
},
"encryptionKey": {
"keyVaultKeyName": "myUserManagedEncryptionKey-createdinAzureKeyVault",
"keyVaultKeyVersion": "myKeyVersion-32charAlphaNumericString",
"keyVaultUri": "https://myKeyVault.vault.azure.net",
"accessCredentials": {
"applicationId": "00000000-0000-0000-0000-000000000000",
"applicationSecret": null
}
},
"similarity": {
"@odata.type": "#Microsoft.Azure.Search.BM25Similarity",
"b": 0.5,
"k1": 1.3
},
"semantic": {
"configurations": [
{
"name": "semanticHotels",
"prioritizedFields": {
"titleField": {
"fieldName": "hotelName"
},
"prioritizedContentFields": [
{
"fieldName": "description"
},
{
"fieldName": "description_fr"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "tags"
},
{
"fieldName": "category"
}
]
}
}
]
},
"vectorSearch": {
"algorithms": [
{
"name": "myHnsw",
"kind": "hnsw",
"hnswParameters": {
"metric": "cosine",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "myExhaustive",
"kind": "exhaustiveKnn",
"exhaustiveKnnParameters": {
"metric": "cosine"
}
}
],
"profiles": [
{
"name": "myHnswProfile",
"algorithm": "myHnsw"
},
{
"name": "myHnswSQProfile",
"algorithm": "myHnsw",
"compression": "mySQ8"
},
{
"name": "myHnswBQProfile",
"algorithm": "myHnsw",
"vectorizer": "myOpenAi",
"compression": "myBQ"
},
{
"name": "myAlgorithm",
"algorithm": "myExhaustive"
}
],
"compressions": [
{
"name": "mySQ8",
"kind": "scalarQuantization",
"scalarQuantizationParameters": {
"quantizedDataType": "int8"
},
"rerankWithOriginalVectors": true,
"defaultOversampling": 10
},
{
"name": "myBQ",
"kind": "binaryQuantization",
"rerankWithOriginalVectors": true,
"defaultOversampling": 10
}
]
}
}
Definice
Name | Description |
---|---|
Ascii |
Převede abecední, číselné a symbolické znaky Unicode, které nejsou v prvních 127 znaky ASCII (blok "Základní latinka") na jejich ekvivalenty ASCII, pokud takové ekvivalenty existují. Tento filtr tokenu se implementuje pomocí Apache Lucene. |
Azure |
Přihlašovací údaje registrované aplikace vytvořené pro vaši vyhledávací službu, které slouží k ověřenému přístupu k šifrovacím klíčům uloženým ve službě Azure Key Vault. |
Azure |
Umožňuje vygenerovat vektorové vkládání pro daný textový vstup pomocí prostředku Azure OpenAI. |
Azure |
Název modelu Azure Open AI, který se bude volat. |
Azure |
Určuje parametry pro připojení k prostředku Azure OpenAI. |
Azure |
Určuje prostředek Azure OpenAI použitý k vektorizaci řetězce dotazu. |
Binary |
Obsahuje možnosti konfigurace specifické pro metodu komprese binárního kvantování používané při indexování a dotazování. |
BM25Similarity |
Funkce řazení založená na algoritmu podobnosti BM25 Okapi. BM25 je algoritmus podobný TF-IDF, který zahrnuje normalizaci délky (řízenou parametrem "b") a také sytost termínů (řízená parametrem "k1"). |
Char |
Definuje názvy všech filtrů znaků podporovaných vyhledávacím webem. |
Cjk |
Tvoří bigramy výrazů CJK, které se generují ze standardního tokenizátoru. Tento filtr tokenu se implementuje pomocí Apache Lucene. |
Cjk |
Skripty, které může CjkBigramTokenFilter ignorovat. |
Classic |
Starší algoritmus podobnosti, který používá implementaci TF-IDF lucene TFIDFSimilarity. Tato varianta TF-IDF představuje normalizaci délky statického dokumentu a také koordinující faktory, které postihují dokumenty, které pouze částečně odpovídají prohledáným dotazům. |
Classic |
Tokenizátor založený na gramatikě, který je vhodný pro zpracování většiny dokumentů evropského jazyka. Tento tokenizátor se implementuje pomocí Apache Lucene. |
Common |
Při indexování vytvořte bigramy pro často se vyskytující termíny. Jednotlivé termíny jsou stále indexované, s překryvnými bigramy. Tento filtr tokenu se implementuje pomocí Apache Lucene. |
Cors |
Definuje možnosti pro řízení sdílení prostředků mezi zdroji (CORS) pro index. |
Custom |
Umožňuje převzít kontrolu nad procesem převodu textu na indexovatelné nebo prohledávatelné tokeny. Jedná se o uživatelsky definovanou konfiguraci, která se skládá z jednoho předdefinovaného tokenizátoru a jednoho nebo více filtrů. Tokenizátor zodpovídá za dělení textu na tokeny a filtry pro úpravy tokenů vygenerovaných tokenem. |
Dictionary |
Rozloží složená slova nalezená v mnoha německých jazycích. Tento filtr tokenu se implementuje pomocí Apache Lucene. |
Distance |
Definuje funkci, která zvyšuje skóre na základě vzdálenosti od zeměpisného umístění. |
Distance |
Poskytuje hodnoty parametrů funkci bodování vzdálenosti. |
Edge |
Vygeneruje n-gramy dané velikosti počínaje přední nebo zadní částí vstupního tokenu. Tento filtr tokenu se implementuje pomocí Apache Lucene. |
Edge |
Určuje, ze které strany vstupu se má vygenerovat n-gram. |
Edge |
Vygeneruje n-gramy dané velikosti počínaje přední nebo zadní částí vstupního tokenu. Tento filtr tokenu se implementuje pomocí Apache Lucene. |
Edge |
Tokenizuje vstup z okraje na n-gramy dané velikosti. Tento tokenizátor se implementuje pomocí Apache Lucene. |
Elision |
Odebere elisions. Například "l'avion" (letadlo) bude převedeno na "avion" (letadlo). Tento filtr tokenu se implementuje pomocí Apache Lucene. |
Error |
Další informace o chybě správy prostředků |
Error |
Podrobnosti o chybě. |
Error |
Chybová odpověď |
Exhaustive |
Obsahuje parametry specifické pro vyčerpávající algoritmus KNN. |
Exhaustive |
Obsahuje možnosti konfigurace specifické pro vyčerpávající algoritmus KNN použitý při dotazování, který provede vyhledávání hrubou silou v celém indexu vektoru. |
Freshness |
Definuje funkci, která zvyšuje skóre na základě hodnoty pole data a času. |
Freshness |
Poskytuje hodnoty parametrů pro funkci bodování aktuálnosti. |
Hnsw |
Obsahuje parametry specifické pro algoritmus HNSW. |
Hnsw |
Obsahuje možnosti konfigurace specifické pro přibližný algoritmus nejbližších sousedů HNSW, který se používá při indexování a dotazování. Algoritmus HNSW nabízí vyladěný kompromis mezi rychlostí vyhledávání a přesností. |
Input |
Mapování vstupních polí pro dovednost |
Keep |
Filtr tokenů, který uchovává pouze tokeny s textem obsaženým v zadaném seznamu slov. Tento filtr tokenu se implementuje pomocí Apache Lucene. |
Keyword |
Označí termíny jako klíčová slova. Tento filtr tokenu se implementuje pomocí Apache Lucene. |
Keyword |
Vygeneruje celý vstup jako jeden token. Tento tokenizátor se implementuje pomocí Apache Lucene. |
Keyword |
Vygeneruje celý vstup jako jeden token. Tento tokenizátor se implementuje pomocí Apache Lucene. |
Length |
Odebere slova, která jsou příliš dlouhá nebo příliš krátká. Tento filtr tokenu se implementuje pomocí Apache Lucene. |
Lexical |
Definuje názvy všech textových analyzátorů podporovaných vyhledávacím webem. |
Lexical |
Definuje názvy všech tokenizátorů podporovaných vyhledávacím webem. |
Limit |
Omezuje počet tokenů při indexování. Tento filtr tokenu se implementuje pomocí Apache Lucene. |
Lucene |
Standardní analyzátor Apache Lucene; Skládá se ze standardního tokenizátoru, filtru malými písmeny a filtru zastavení. |
Lucene |
Zalomí text podle pravidel segmentace textu unicode. Tento tokenizátor se implementuje pomocí Apache Lucene. |
Lucene |
Zalomí text podle pravidel segmentace textu unicode. Tento tokenizátor se implementuje pomocí Apache Lucene. |
Magnitude |
Definuje funkci, která zvyšuje skóre na základě velikosti číselného pole. |
Magnitude |
Poskytuje hodnoty parametrů pro funkci bodování velikosti. |
Mapping |
Filtr znaků, který používá mapování definovaná pomocí možnosti mapování. Porovnávání je greedy (nejdelší porovnávání vzorů v daném bodě vyhrává). Nahrazení může být prázdný řetězec. Tento filtr znaků se implementuje pomocí Apache Lucene. |
Microsoft |
Rozdělí text pomocí pravidel specifických pro jazyk a zmenšuje slova na jejich základní formuláře. |
Microsoft |
Rozdělí text pomocí pravidel specifických pro jazyk. |
Microsoft |
Uvádí jazyky podporované tokenizátorem jazyka Microsoftu. |
Microsoft |
Zobrazí seznam jazyků podporovaných tokenizátorem jazyka Microsoftu. |
NGram |
Vygeneruje n-gramy dané velikosti. Tento filtr tokenu se implementuje pomocí Apache Lucene. |
NGram |
Vygeneruje n-gramy dané velikosti. Tento filtr tokenu se implementuje pomocí Apache Lucene. |
NGram |
Tokenizuje vstup na n-gramy dané velikosti. Tento tokenizátor se implementuje pomocí Apache Lucene. |
Output |
Mapování výstupních polí pro dovednost |
Path |
Tokenizátor pro hierarchie podobné cestě. Tento tokenizátor se implementuje pomocí Apache Lucene. |
Pattern |
Pružně odděluje text do termínů pomocí vzoru regulárního výrazu. Tento analyzátor se implementuje pomocí Apache Lucene. |
Pattern |
Používá regulární výrazy Java k vygenerování více tokenů – jeden pro každou skupinu zachycení v jednom nebo více vzorech. Tento filtr tokenu se implementuje pomocí Apache Lucene. |
Pattern |
Filtr znaků, který nahradí znaky ve vstupním řetězci. Používá regulární výraz k identifikaci sekvencí znaků k zachování a nahrazení vzoru pro identifikaci znaků, které se mají nahradit. Například při zadání textu "aa bb aa bb", vzoru "(aa)\s+(bb)" a nahrazení "$1#$2" bude výsledkem "aa#bb aa#bb". Tento filtr znaků se implementuje pomocí Apache Lucene. |
Pattern |
Filtr znaků, který nahradí znaky ve vstupním řetězci. Používá regulární výraz k identifikaci sekvencí znaků k zachování a nahrazení vzoru pro identifikaci znaků, které se mají nahradit. Například při zadání textu "aa bb aa bb", vzoru "(aa)\s+(bb)" a nahrazení "$1#$2" bude výsledkem "aa#bb aa#bb". Tento filtr tokenu se implementuje pomocí Apache Lucene. |
Pattern |
Tokenizátor, který používá porovnávání vzorů regulárních výrazů k vytvoření jedinečných tokenů. Tento tokenizátor se implementuje pomocí Apache Lucene. |
Phonetic |
Identifikuje typ fonetického kodéru, který se má použít s fonetickým Filtrem. |
Phonetic |
Vytváření tokenů pro fonetické shody Tento filtr tokenu se implementuje pomocí Apache Lucene. |
Prioritized |
Popisuje pole nadpisu, obsahu a klíčových slov, která se mají použít pro sémantické řazení, titulky, zvýraznění a odpovědi. |
Regex |
Definuje příznaky, které lze kombinovat a řídit způsob použití regulárních výrazů v analyzátoru vzorů a tokenizátoru vzorů. |
Scalar |
Obsahuje parametry specifické pro skalární kvantování. |
Scalar |
Obsahuje možnosti konfigurace specifické pro metodu komprese skalární quantizace, která se používá při indexování a dotazování. |
Scoring |
Definuje agregační funkci použitou ke kombinování výsledků všech hodnoticích funkcí v bodovacím profilu. |
Scoring |
Definuje funkci použitou k interpolaci zvýšení skóre napříč celou řadou dokumentů. |
Scoring |
Definuje parametry indexu vyhledávání, které ovlivňují bodování ve vyhledávacích dotazech. |
Search |
Představuje pole v definici indexu, které popisuje název, datový typ a chování hledání pole. |
Search |
Definuje datový typ pole v indexu vyhledávání. |
Search |
Představuje definici indexu vyhledávání, která popisuje pole a chování vyhledávání indexu. |
Search |
Vymaže vlastnost identity zdroje dat. |
Search |
Určuje identitu zdroje dat, která se má použít. |
Search |
Šifrovací klíč spravovaný zákazníkem ve službě Azure Key Vault. Klíče, které vytvoříte a spravujete, se dají použít k šifrování nebo dešifrování neaktivních uložených dat, jako jsou indexy a mapy synonym. |
Semantic |
Definuje konkrétní konfiguraci, která se má použít v kontextu sémantických funkcí. |
Semantic |
Pole, které se používá jako součást sémantické konfigurace. |
Semantic |
Definuje parametry indexu vyhledávání, které ovlivňují sémantické schopnosti. |
Shingle |
Vytvoří kombinace tokenů jako jeden token. Tento filtr tokenu se implementuje pomocí Apache Lucene. |
Snowball |
Filtr, který vychází ze slov pomocí vygenerovaného smyšlí snowballu. Tento filtr tokenu se implementuje pomocí Apache Lucene. |
Snowball |
Jazyk, který se má použít pro filtr tokenů Snowball. |
Stemmer |
Poskytuje možnost přepsat další stemmingové filtry pomocí vlastních slovníkových stemmingů. Všechny termíny založené na slovníku budou označeny jako klíčová slova, aby se nezvolily pomocí stemmerů v řetězci. Musí být umístěny před všemi filtry pro vytváření. Tento filtr tokenu se implementuje pomocí Apache Lucene. |
Stemmer |
Filtr pro konkrétní jazyk. Tento filtr tokenu se implementuje pomocí Apache Lucene. |
Stemmer |
Jazyk, který se má použít pro filtr tokenů stemmeru. |
Stop |
Rozdělí text bez písmen; Použije filtry tokenů s malými písmeny a stopword. Tento analyzátor se implementuje pomocí Apache Lucene. |
Stopwords |
Identifikuje předdefinovaný seznam stop slov specifických pro jazyk. |
Stopwords |
Odebere slova ze streamu tokenu. Tento filtr tokenu se implementuje pomocí Apache Lucene. |
Suggester |
Definuje, jak se má rozhraní API navrhnout na skupinu polí v indexu. |
Suggester |
Hodnota označující možnosti souzence. |
Synonym |
Porovná jednoslovné nebo víceslovné synonyma v datovém proudu tokenů. Tento filtr tokenu se implementuje pomocí Apache Lucene. |
Tag |
Definuje funkci, která zvyšuje skóre dokumentů s řetězcovými hodnotami odpovídajícími danému seznamu značek. |
Tag |
Poskytuje hodnoty parametrů funkci bodování značek. |
Text |
Definuje váhy u polí indexu, u kterých by se mělo zvýšit bodování ve vyhledávacích dotazech. |
Token |
Představuje třídy znaků, na kterých může fungovat filtr tokenů. |
Token |
Definuje názvy všech filtrů tokenů podporovaných vyhledávacím webem. |
Truncate |
Zkracuje termíny na určitou délku. Tento filtr tokenu se implementuje pomocí Apache Lucene. |
Uax |
Tokenizuje adresy URL a e-maily jako jeden token. Tento tokenizátor se implementuje pomocí Apache Lucene. |
Unique |
Vyfiltruje tokeny se stejným textem jako předchozí token. Tento filtr tokenu se implementuje pomocí Apache Lucene. |
Vector |
Formát kódování pro interpretaci obsahu vektorového pole. |
Vector |
Obsahuje možnosti konfigurace související s vektorové vyhledávání. |
Vector |
Algoritmus použitý k indexování a dotazování. |
Vector |
Metrika podobnosti, která se má použít pro porovnání vektorů. Doporučujeme zvolit stejnou metriku podobnosti, na které byl model vkládání trénován. |
Vector |
Metoda komprese použitá k indexování a dotazování. |
Vector |
Kvantovaný datový typ komprimovaných vektorových hodnot. |
Vector |
Definuje kombinaci konfigurací, které se mají použít s vektorovým vyhledáváním. |
Vector |
Metoda vektorizace, která se má použít během dotazu. |
Web |
Určuje vlastnosti pro připojení k vektorizátoru definovanému uživatelem. |
Web |
Určuje vektorizátor definovaný uživatelem pro generování vektorového vkládání řetězce dotazu. Integrace externí vektorizátoru se dosahuje pomocí vlastního rozhraní webového rozhraní API sady dovedností. |
Word |
Rozdělí slova do dílčích slov a provede volitelné transformace skupin podwordů. Tento filtr tokenu se implementuje pomocí Apache Lucene. |
AsciiFoldingTokenFilter
Převede abecední, číselné a symbolické znaky Unicode, které nejsou v prvních 127 znaky ASCII (blok "Základní latinka") na jejich ekvivalenty ASCII, pokud takové ekvivalenty existují. Tento filtr tokenu se implementuje pomocí Apache Lucene.
Name | Typ | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ filtru tokenu. |
|
name |
string |
Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků. |
|
preserveOriginal |
boolean |
False |
Hodnota označující, zda bude původní token zachován. Výchozí hodnota je false. |
AzureActiveDirectoryApplicationCredentials
Přihlašovací údaje registrované aplikace vytvořené pro vaši vyhledávací službu, které slouží k ověřenému přístupu k šifrovacím klíčům uloženým ve službě Azure Key Vault.
Name | Typ | Description |
---|---|---|
applicationId |
string |
ID aplikace AAD, kterému byla udělena požadovaná přístupová oprávnění ke službě Azure Key Vault, která se má použít při šifrování neaktivních uložených dat. ID aplikace by nemělo být zaměňováno s ID objektu pro vaši aplikaci AAD. |
applicationSecret |
string |
Ověřovací klíč zadané aplikace AAD. |
AzureOpenAIEmbeddingSkill
Umožňuje vygenerovat vektorové vkládání pro daný textový vstup pomocí prostředku Azure OpenAI.
Name | Typ | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ dovednosti. |
apiKey |
string |
Klíč rozhraní API určeného prostředku Azure OpenAI |
authIdentity | SearchIndexerDataIdentity: |
Spravovaná identita přiřazená uživatelem používaná pro odchozí připojení. |
context |
string |
Představuje úroveň, na které se provádí operace, například kořenový dokument nebo obsah dokumentu (například /document nebo /document/content). Výchozí hodnota je /document. |
deploymentId |
string |
ID nasazení modelu Azure OpenAI v určeném prostředku |
description |
string |
Popis dovednosti, která popisuje vstupy, výstupy a využití dovednosti. |
dimensions |
integer |
Početdimenzích Podporuje se pouze v modelech pro vkládání textu 3 a novějších. |
inputs |
Vstupy dovedností můžou být sloupec ve zdrojové sadě dat nebo výstup upstreamové dovednosti. |
|
modelName |
Název modelu vložení, který je nasazený na zadané cestě deploymentId. |
|
name |
string |
Název dovednosti, která ji jednoznačně identifikuje v sadě dovedností. Dovednost bez definovaného názvu bude mít výchozí název indexu založeného na 1 v poli dovedností s předponou znaku #. |
outputs |
Výstupem dovednosti je buď pole v indexu vyhledávání, nebo hodnota, kterou lze využívat jako vstup jinou dovedností. |
|
resourceUri |
string |
Identifikátor URI prostředku Azure OpenAI. |
AzureOpenAIModelName
Název modelu Azure Open AI, který se bude volat.
Name | Typ | Description |
---|---|---|
text-embedding-3-large |
string |
|
text-embedding-3-small |
string |
|
text-embedding-ada-002 |
string |
AzureOpenAIParameters
Určuje parametry pro připojení k prostředku Azure OpenAI.
Name | Typ | Description |
---|---|---|
apiKey |
string |
Klíč rozhraní API určeného prostředku Azure OpenAI |
authIdentity | SearchIndexerDataIdentity: |
Spravovaná identita přiřazená uživatelem používaná pro odchozí připojení. |
deploymentId |
string |
ID nasazení modelu Azure OpenAI v určeném prostředku |
modelName |
Název modelu vložení, který je nasazený na zadané cestě deploymentId. |
|
resourceUri |
string |
Identifikátor URI prostředku Azure OpenAI. |
AzureOpenAIVectorizer
Určuje prostředek Azure OpenAI použitý k vektorizaci řetězce dotazu.
Name | Typ | Description |
---|---|---|
azureOpenAIParameters | AzureOpenAIParameters: |
Obsahuje parametry specifické pro vektorizaci vkládání Azure OpenAI. |
kind |
string:
azure |
Název metody vektorizace, která se konfiguruje pro použití s vektorovým vyhledáváním. |
name |
string |
Název, který chcete přidružit k této konkrétní metodě vektorizace. |
BinaryQuantizationVectorSearchCompressionConfiguration
Obsahuje možnosti konfigurace specifické pro metodu komprese binárního kvantování používané při indexování a dotazování.
Name | Typ | Default value | Description |
---|---|---|---|
defaultOversampling |
number |
Výchozí faktor převzorkování Převzorkování interně vyžádá více dokumentů (určených tímto násobitelem) v počátečním hledání. Tím se zvýší sada výsledků, které se přeřadí pomocí přepočítaného skóre podobnosti z vektorů s plnou přesností. Minimální hodnota je 1, což znamená bez převzorkování (1x). Tento parametr lze nastavit pouze v případě, že je splněna hodnota rerankWithOriginalVectors. Vyšší hodnoty zlepšují úplnost na úkor latence. |
|
kind |
string:
binary |
Název typu metody komprese, která se konfiguruje pro použití s vektorovým vyhledáváním. |
|
name |
string |
Název, který chcete přidružit k této konkrétní konfiguraci. |
|
rerankWithOriginalVectors |
boolean |
True |
Pokud je nastavena hodnota true, po získání seřazené sady výsledků pomocí komprimovaných vektorů se znovu seřadí přepočtem skóre podobnosti s plnou přesností. Tím se zlepší úplnost na úkor latence. |
BM25Similarity
Funkce řazení založená na algoritmu podobnosti BM25 Okapi. BM25 je algoritmus podobný TF-IDF, který zahrnuje normalizaci délky (řízenou parametrem "b") a také sytost termínů (řízená parametrem "k1").
Name | Typ | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
|
b |
number |
Tato vlastnost určuje, jak délka dokumentu ovlivňuje skóre relevance. Ve výchozím nastavení se používá hodnota 0,75. Hodnota 0,0 znamená, že se nepoužije normalizace délky, zatímco hodnota 1,0 znamená, že skóre je plně normalizováno délkou dokumentu. |
k1 |
number |
Tato vlastnost řídí funkci škálování mezi četností termínů jednotlivých shodných termínů a konečným skóre relevance páru dotazu na dokument. Ve výchozím nastavení se používá hodnota 1,2. Hodnota 0,0 znamená, že skóre se neškupá s nárůstem četnosti období. |
CharFilterName
Definuje názvy všech filtrů znaků podporovaných vyhledávacím webem.
Name | Typ | Description |
---|---|---|
html_strip |
string |
Filtr znaků, který se pokusí odstranit konstruktory HTML. Viz https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html |
CjkBigramTokenFilter
Tvoří bigramy výrazů CJK, které se generují ze standardního tokenizátoru. Tento filtr tokenu se implementuje pomocí Apache Lucene.
Name | Typ | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ filtru tokenu. |
|
ignoreScripts |
Skripty, které se mají ignorovat. |
||
name |
string |
Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků. |
|
outputUnigrams |
boolean |
False |
Hodnota označující, jestli se mají výstupovat unigramy i bigramy (pokud je pravda), nebo jenom bigramy (pokud je false). Výchozí hodnota je false. |
CjkBigramTokenFilterScripts
Skripty, které může CjkBigramTokenFilter ignorovat.
Name | Typ | Description |
---|---|---|
han |
string |
Při vytváření velkých výrazů CJK ignorujte skript Han. |
hangul |
string |
Při vytváření bigramů výrazů CJK ignorujte skript Hangul. |
hiragana |
string |
Ignorujte skript Hiragana při vytváření bigramů výrazů CJK. |
katakana |
string |
Při vytváření bigramů výrazů CJK ignorujte skript Katakana. |
ClassicSimilarity
Starší algoritmus podobnosti, který používá implementaci TF-IDF lucene TFIDFSimilarity. Tato varianta TF-IDF představuje normalizaci délky statického dokumentu a také koordinující faktory, které postihují dokumenty, které pouze částečně odpovídají prohledáným dotazům.
Name | Typ | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
ClassicTokenizer
Tokenizátor založený na gramatikě, který je vhodný pro zpracování většiny dokumentů evropského jazyka. Tento tokenizátor se implementuje pomocí Apache Lucene.
Name | Typ | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ tokenizátoru. |
|
maxTokenLength |
integer |
255 |
Maximální délka tokenu. Výchozí hodnota je 255. Tokeny delší než maximální délka jsou rozdělené. Maximální délka tokenu, kterou lze použít, je 300 znaků. |
name |
string |
Název tokenizátoru. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků. |
CommonGramTokenFilter
Při indexování vytvořte bigramy pro často se vyskytující termíny. Jednotlivé termíny jsou stále indexované, s překryvnými bigramy. Tento filtr tokenu se implementuje pomocí Apache Lucene.
Name | Typ | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ filtru tokenu. |
|
commonWords |
string[] |
Sada běžných slov. |
|
ignoreCase |
boolean |
False |
Hodnota označující, jestli se běžná slova nebudou rozlišovat malá a velká písmena. Výchozí hodnota je false. |
name |
string |
Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků. |
|
queryMode |
boolean |
False |
Hodnota, která označuje, jestli je filtr tokenu v režimu dotazu. Když je v režimu dotazu, filtr tokenu generuje bigramy a pak odebere běžná slova a jednotlivé termíny následované běžným slovem. Výchozí hodnota je false. |
CorsOptions
Definuje možnosti pro řízení sdílení prostředků mezi zdroji (CORS) pro index.
Name | Typ | Description |
---|---|---|
allowedOrigins |
string[] |
Seznam původů, ze kterých bude kód JavaScriptu udělen přístup k vašemu indexu. Může obsahovat seznam hostitelů formuláře {protocol}://{plně kvalifikovaný-název_domény}[:{port#}] nebo jeden *, který povolí všechny zdroje (nedoporučuje se). |
maxAgeInSeconds |
integer |
Doba trvání, po kterou mají prohlížeče ukládat předběžné odpovědi CORS do mezipaměti. Výchozí hodnota je 5 minut. |
CustomAnalyzer
Umožňuje převzít kontrolu nad procesem převodu textu na indexovatelné nebo prohledávatelné tokeny. Jedná se o uživatelsky definovanou konfiguraci, která se skládá z jednoho předdefinovaného tokenizátoru a jednoho nebo více filtrů. Tokenizátor zodpovídá za dělení textu na tokeny a filtry pro úpravy tokenů vygenerovaných tokenem.
Name | Typ | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ analyzátoru. |
charFilters |
Seznam filtrů znaků sloužících k přípravě vstupního textu před zpracováním tokenizátorem. Mohou například nahradit určité znaky nebo symboly. Filtry se spouští v pořadí, v jakém jsou uvedeny. |
|
name |
string |
Název analyzátoru. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků. |
tokenFilters |
Seznam filtrů tokenů, které se používají k vyfiltrování nebo úpravě tokenů generovaných tokenizátorem. Můžete například zadat filtr malými písmeny, který převede všechny znaky na malá písmena. Filtry se spouští v pořadí, v jakém jsou uvedeny. |
|
tokenizer |
Název tokenizátoru, který se má použít k rozdělení souvislého textu do posloupnosti tokenů, například rozdělení věty na slova. |
DictionaryDecompounderTokenFilter
Rozloží složená slova nalezená v mnoha německých jazycích. Tento filtr tokenu se implementuje pomocí Apache Lucene.
Name | Typ | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ filtru tokenu. |
|
maxSubwordSize |
integer |
15 |
Maximální velikost podsloví. Vypíše se pouze podsloví kratší, než je tato. Výchozí hodnota je 15. Maximum je 300. |
minSubwordSize |
integer |
2 |
Minimální velikost podsloví. Vypíše se jenom podsloví delší, než je tento. Výchozí hodnota je 2. Maximum je 300. |
minWordSize |
integer |
5 |
Minimální velikost slova. Zpracovávají se jenom slova delší než tato. Výchozí hodnota je 5. Maximum je 300. |
name |
string |
Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků. |
|
onlyLongestMatch |
boolean |
False |
Hodnota označující, zda se má do výstupu přidat pouze nejdelší odpovídající subword. Výchozí hodnota je false. |
wordList |
string[] |
Seznam slov, která se mají shodovat. |
DistanceScoringFunction
Definuje funkci, která zvyšuje skóre na základě vzdálenosti od zeměpisného umístění.
Name | Typ | Description |
---|---|---|
boost |
number |
Násobitel pro nezpracované skóre. Musí to být kladné číslo, které se nerovná 1,0. |
distance |
Hodnoty parametrů pro funkci bodování vzdálenosti. |
|
fieldName |
string |
Název pole použitého jako vstup do funkce bodování. |
interpolation |
Hodnota označující, jak bude zvýšení interpolováno napříč skóre dokumentu; výchozí hodnota je lineární. |
|
type |
string:
distance |
Určuje typ funkce, která se má použít. Platné hodnoty zahrnují velikost, aktuálnost, vzdálenost a značku. Typ funkce musí být malé písmeno. |
DistanceScoringParameters
Poskytuje hodnoty parametrů funkci bodování vzdálenosti.
Name | Typ | Description |
---|---|---|
boostingDistance |
number |
Vzdálenost v kilometrech od referenčního umístění, kde končí rozsah zvýšení. |
referencePointParameter |
string |
Název parametru předaného vyhledávacími dotazy k určení umístění odkazu. |
EdgeNGramTokenFilter
Vygeneruje n-gramy dané velikosti počínaje přední nebo zadní částí vstupního tokenu. Tento filtr tokenu se implementuje pomocí Apache Lucene.
Name | Typ | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ filtru tokenu. |
|
maxGram |
integer |
2 |
Maximální délka n-gramu. Výchozí hodnota je 2. |
minGram |
integer |
1 |
Minimální délka n-gramu. Výchozí hodnota je 1. Musí být menší než hodnota maxGram. |
name |
string |
Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků. |
|
side | front |
Určuje, ze které strany vstupu má být vygenerován n-gram. Výchozí hodnota je "front". |
EdgeNGramTokenFilterSide
Určuje, ze které strany vstupu se má vygenerovat n-gram.
Name | Typ | Description |
---|---|---|
back |
string |
Určuje, že se má vygenerovat n-gram ze zadní části vstupu. |
front |
string |
Určuje, že se má vygenerovat n-gram před vstupem. |
EdgeNGramTokenFilterV2
Vygeneruje n-gramy dané velikosti počínaje přední nebo zadní částí vstupního tokenu. Tento filtr tokenu se implementuje pomocí Apache Lucene.
Name | Typ | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ filtru tokenu. |
|
maxGram |
integer |
2 |
Maximální délka n-gramu. Výchozí hodnota je 2. Maximum je 300. |
minGram |
integer |
1 |
Minimální délka n-gramu. Výchozí hodnota je 1. Maximum je 300. Musí být menší než hodnota maxGram. |
name |
string |
Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků. |
|
side | front |
Určuje, ze které strany vstupu má být vygenerován n-gram. Výchozí hodnota je "front". |
EdgeNGramTokenizer
Tokenizuje vstup z okraje na n-gramy dané velikosti. Tento tokenizátor se implementuje pomocí Apache Lucene.
Name | Typ | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ tokenizátoru. |
|
maxGram |
integer |
2 |
Maximální délka n-gramu. Výchozí hodnota je 2. Maximum je 300. |
minGram |
integer |
1 |
Minimální délka n-gramu. Výchozí hodnota je 1. Maximum je 300. Musí být menší než hodnota maxGram. |
name |
string |
Název tokenizátoru. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků. |
|
tokenChars |
Třídy znaků, které mají být v tokenech zachovány. |
ElisionTokenFilter
Odebere elisions. Například "l'avion" (letadlo) bude převedeno na "avion" (letadlo). Tento filtr tokenu se implementuje pomocí Apache Lucene.
Name | Typ | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ filtru tokenu. |
articles |
string[] |
Sada článků, které chcete odebrat. |
name |
string |
Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků. |
ErrorAdditionalInfo
Další informace o chybě správy prostředků
Name | Typ | Description |
---|---|---|
info |
object |
Další informace. |
type |
string |
Další typ informací. |
ErrorDetail
Podrobnosti o chybě.
Name | Typ | Description |
---|---|---|
additionalInfo |
Další informace o chybě. |
|
code |
string |
Kód chyby. |
details |
Podrobnosti o chybě. |
|
message |
string |
Chybová zpráva. |
target |
string |
Cíl chyby. |
ErrorResponse
Chybová odpověď
Name | Typ | Description |
---|---|---|
error |
Objekt chyby. |
ExhaustiveKnnParameters
Obsahuje parametry specifické pro vyčerpávající algoritmus KNN.
Name | Typ | Description |
---|---|---|
metric |
Metrika podobnosti, která se má použít pro porovnání vektorů. |
ExhaustiveKnnVectorSearchAlgorithmConfiguration
Obsahuje možnosti konfigurace specifické pro vyčerpávající algoritmus KNN použitý při dotazování, který provede vyhledávání hrubou silou v celém indexu vektoru.
Name | Typ | Description |
---|---|---|
exhaustiveKnnParameters |
Obsahuje parametry specifické pro vyčerpávající algoritmus KNN. |
|
kind |
string:
exhaustive |
Název typu algoritmu, který se konfiguruje pro použití s vektorovým vyhledáváním. |
name |
string |
Název, který chcete přidružit k této konkrétní konfiguraci. |
FreshnessScoringFunction
Definuje funkci, která zvyšuje skóre na základě hodnoty pole data a času.
Name | Typ | Description |
---|---|---|
boost |
number |
Násobitel pro nezpracované skóre. Musí to být kladné číslo, které se nerovná 1,0. |
fieldName |
string |
Název pole použitého jako vstup do funkce bodování. |
freshness |
Hodnoty parametrů pro funkci bodování aktuálnosti |
|
interpolation |
Hodnota označující, jak bude zvýšení interpolováno napříč skóre dokumentu; výchozí hodnota je lineární. |
|
type |
string:
freshness |
Určuje typ funkce, která se má použít. Platné hodnoty zahrnují velikost, aktuálnost, vzdálenost a značku. Typ funkce musí být malé písmeno. |
FreshnessScoringParameters
Poskytuje hodnoty parametrů pro funkci bodování aktuálnosti.
Name | Typ | Description |
---|---|---|
boostingDuration |
string |
Období vypršení platnosti, po kterém se u konkrétního dokumentu zastaví zvýšení. |
HnswParameters
Obsahuje parametry specifické pro algoritmus HNSW.
Name | Typ | Default value | Description |
---|---|---|---|
efConstruction |
integer |
400 |
Velikost dynamického seznamu obsahujícího nejbližší sousedy, který se používá v době indexu. Zvýšení tohoto parametru může zlepšit kvalitu indexu na úkor zvýšené doby indexování. V určitém okamžiku zvýšení tohoto parametru vede ke snížení výnosu. |
efSearch |
integer |
500 |
Velikost dynamického seznamu obsahujícího nejbližší sousedy, který se používá během hledání. Zvýšení tohoto parametru může zlepšit výsledky hledání na úkor pomalejšího hledání. V určitém okamžiku zvýšení tohoto parametru vede ke snížení výnosu. |
m |
integer |
4 |
Počet obousměrných propojení vytvořených pro každý nový prvek během výstavby. Zvýšení této hodnoty parametru může zlepšit úplnost a snížit dobu načítání datových sad s vysokou vnitřní dimenzionální hodnotou na úkor zvýšené spotřeby paměti a delší doby indexování. |
metric |
Metrika podobnosti, která se má použít pro porovnání vektorů. |
HnswVectorSearchAlgorithmConfiguration
Obsahuje možnosti konfigurace specifické pro přibližný algoritmus nejbližších sousedů HNSW, který se používá při indexování a dotazování. Algoritmus HNSW nabízí vyladěný kompromis mezi rychlostí vyhledávání a přesností.
Name | Typ | Description |
---|---|---|
hnswParameters |
Obsahuje parametry specifické pro algoritmus HNSW. |
|
kind |
string:
hnsw |
Název typu algoritmu, který se konfiguruje pro použití s vektorovým vyhledáváním. |
name |
string |
Název, který chcete přidružit k této konkrétní konfiguraci. |
InputFieldMappingEntry
Mapování vstupních polí pro dovednost
Name | Typ | Description |
---|---|---|
inputs |
Rekurzivní vstupy použité při vytváření komplexního typu. |
|
name |
string |
Název vstupu. |
source |
string |
Zdroj vstupu. |
sourceContext |
string |
Zdrojový kontext použitý pro výběr rekurzivních vstupů. |
KeepTokenFilter
Filtr tokenů, který uchovává pouze tokeny s textem obsaženým v zadaném seznamu slov. Tento filtr tokenu se implementuje pomocí Apache Lucene.
Name | Typ | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ filtru tokenu. |
|
keepWords |
string[] |
Seznam slov, která chcete zachovat. |
|
keepWordsCase |
boolean |
False |
Hodnota označující, zda se mají malá písmena nejprve všechna slova. Výchozí hodnota je false. |
name |
string |
Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků. |
KeywordMarkerTokenFilter
Označí termíny jako klíčová slova. Tento filtr tokenu se implementuje pomocí Apache Lucene.
Name | Typ | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ filtru tokenu. |
|
ignoreCase |
boolean |
False |
Hodnota označující, zda se má ignorovat malá a velká písmena. Pokud ano, všechna slova se nejprve převedou na malá písmena. Výchozí hodnota je false. |
keywords |
string[] |
Seznam slov, která se mají označit jako klíčová slova. |
|
name |
string |
Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků. |
KeywordTokenizer
Vygeneruje celý vstup jako jeden token. Tento tokenizátor se implementuje pomocí Apache Lucene.
Name | Typ | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ tokenizátoru. |
|
bufferSize |
integer |
256 |
Velikost vyrovnávací paměti pro čtení v bajtech. Výchozí hodnota je 256. |
name |
string |
Název tokenizátoru. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků. |
KeywordTokenizerV2
Vygeneruje celý vstup jako jeden token. Tento tokenizátor se implementuje pomocí Apache Lucene.
Name | Typ | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ tokenizátoru. |
|
maxTokenLength |
integer |
256 |
Maximální délka tokenu. Výchozí hodnota je 256. Tokeny delší než maximální délka jsou rozdělené. Maximální délka tokenu, kterou lze použít, je 300 znaků. |
name |
string |
Název tokenizátoru. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků. |
LengthTokenFilter
Odebere slova, která jsou příliš dlouhá nebo příliš krátká. Tento filtr tokenu se implementuje pomocí Apache Lucene.
Name | Typ | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ filtru tokenu. |
|
max |
integer |
300 |
Maximální délka znaků. Výchozí a maximální hodnota je 300. |
min |
integer |
0 |
Minimální délka znaků. Výchozí hodnota je 0. Maximum je 300. Musí být menší než hodnota max. |
name |
string |
Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků. |
LexicalAnalyzerName
Definuje názvy všech textových analyzátorů podporovaných vyhledávacím webem.
Name | Typ | Description |
---|---|---|
ar.lucene |
string |
Analyzátor Lucene pro arabštinu. |
ar.microsoft |
string |
Microsoft Analyzer pro arabštinu. |
bg.lucene |
string |
Analyzátor Lucene pro bulharštinu. |
bg.microsoft |
string |
Microsoft Analyzer pro bulharštinu. |
bn.microsoft |
string |
Microsoft analyzer for Bangla. |
ca.lucene |
string |
Analyzátor Lucene pro katalánštinu. |
ca.microsoft |
string |
Microsoft Analyzer pro katalánštinu. |
cs.lucene |
string |
Lucene analyzer pro češtinu. |
cs.microsoft |
string |
Microsoft Analyzer pro češtinu. |
da.lucene |
string |
Analyzátor Lucene pro dánštinu. |
da.microsoft |
string |
Microsoft Analyzer pro dánštinu. |
de.lucene |
string |
Lucene analyzer pro němčinu. |
de.microsoft |
string |
Microsoft Analyzer pro němčinu. |
el.lucene |
string |
Lucene analyzer pro řečtinu. |
el.microsoft |
string |
Microsoft Analyzer pro řečtinu. |
en.lucene |
string |
Lucene Analyzer pro angličtinu. |
en.microsoft |
string |
Microsoft Analyzer pro angličtinu. |
es.lucene |
string |
Lucene analyzer pro španělštinu. |
es.microsoft |
string |
Microsoft Analyzer pro španělštinu. |
et.microsoft |
string |
Microsoft analyzer for Estonian. |
eu.lucene |
string |
Analyzátor Lucene pro baskičtina. |
fa.lucene |
string |
Lucene analyzátor perský. |
fi.lucene |
string |
Lucene Analyzer pro finštinu. |
fi.microsoft |
string |
Microsoft Analyzer pro finštinu. |
fr.lucene |
string |
Lucene analyzer pro francouzštinu. |
fr.microsoft |
string |
Microsoft Analyzer pro francouzštinu. |
ga.lucene |
string |
Lucene analyzer pro irštinu. |
gl.lucene |
string |
Analyzátor Lucene pro Galicijštinu. |
gu.microsoft |
string |
Microsoft analyzer for Gujarati. |
he.microsoft |
string |
Microsoft Analyzer for Hebrejština. |
hi.lucene |
string |
Lucene analyzer for Hindi. |
hi.microsoft |
string |
Microsoft Analyzer pro hindštinu. |
hr.microsoft |
string |
Microsoft Analyzer pro chorvatštinu. |
hu.lucene |
string |
Analyzátor Lucene pro maďarštinu. |
hu.microsoft |
string |
Microsoft Analyzer pro maďarštinu. |
hy.lucene |
string |
Analyzátor Lucene pro Arménii. |
id.lucene |
string |
Analyzátor Lucene pro indonéštinu. |
id.microsoft |
string |
Microsoft analyzer for Indonéština (Bahasa). |
is.microsoft |
string |
Microsoft Analyzer pro Islandštinu. |
it.lucene |
string |
Analyzátor Lucene pro italštinu. |
it.microsoft |
string |
Microsoft Analyzer pro italštinu. |
ja.lucene |
string |
Lucene Analyzer pro japonštinu. |
ja.microsoft |
string |
Microsoft Analyzer pro japonštinu. |
keyword |
string |
Považuje celý obsah pole za jediný token. To je užitečné pro data, jako jsou PSČ, ID a některé názvy produktů. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html |
kn.microsoft |
string |
Microsoft analyzer for Kannada. |
ko.lucene |
string |
Lucene Analyzer pro korejštinu. |
ko.microsoft |
string |
Microsoft Analyzer pro korejštinu. |
lt.microsoft |
string |
Microsoft Analyzer pro litevštinu. |
lv.lucene |
string |
Analyzátor Lucene pro lotyštinu. |
lv.microsoft |
string |
Microsoft Analyzer pro lotyštinu. |
ml.microsoft |
string |
Microsoft Analyzer pro Malayalam. |
mr.microsoft |
string |
Microsoft analyzer for Marathi. |
ms.microsoft |
string |
Microsoft Analyzer for Malay (latinka). |
nb.microsoft |
string |
Microsoft Analyzer pro norštinu (Bokmål). |
nl.lucene |
string |
Analyzátor Lucene pro nizozemštinu. |
nl.microsoft |
string |
Microsoft Analyzer pro nizozemštinu. |
no.lucene |
string |
Analyzátor Lucene pro norštinu. |
pa.microsoft |
string |
Microsoft analyzer for Punjabi. |
pattern |
string |
Pružně odděluje text do termínů pomocí vzoru regulárního výrazu. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html |
pl.lucene |
string |
Analyzátor Lucene pro polštinu. |
pl.microsoft |
string |
Microsoft Analyzer pro polštinu. |
pt-BR.lucene |
string |
Analyzátor Lucene pro portugalštinu (Brazílie). |
pt-BR.microsoft |
string |
Microsoft Analyzer pro portugalštinu (Brazílie). |
pt-PT.lucene |
string |
Analyzátor Lucene pro portugalštinu (Portugalsko). |
pt-PT.microsoft |
string |
Microsoft Analyzer pro portugalštinu (Portugalsko). |
ro.lucene |
string |
Lucene analyzer pro rumunštinu. |
ro.microsoft |
string |
Microsoft Analyzer pro rumunštinu. |
ru.lucene |
string |
Lucene analyzer pro ruštinu. |
ru.microsoft |
string |
Microsoft Analyzer pro ruštinu. |
simple |
string |
Rozdělí text bez písmen a převede je na malá písmena. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html |
sk.microsoft |
string |
Microsoft Analyzer pro slovenštinu. |
sl.microsoft |
string |
Microsoft Analyzer pro slovinštinu. |
sr-cyrillic.microsoft |
string |
Microsoft Analyzer pro srbštinu (cyrilice). |
sr-latin.microsoft |
string |
Microsoft Analyzer pro srbštinu (latinka). |
standard.lucene |
string |
Standardní analyzátor Lucene. |
standardasciifolding.lucene |
string |
Standardní analyzátor ASCII Folding Lucene. Viz https://video2.skills-academy.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers |
stop |
string |
Rozdělí text bez písmen; Použije filtry tokenů s malými písmeny a stopword. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html |
sv.lucene |
string |
Lucene analyzer pro švédštinu. |
sv.microsoft |
string |
Microsoft Analyzer pro švédštinu. |
ta.microsoft |
string |
Microsoft Analyzer pro tamilštinu. |
te.microsoft |
string |
Microsoft Analyzer pro Telugu. |
th.lucene |
string |
Analyzátor Lucene pro thajštinu. |
th.microsoft |
string |
Microsoft Analyzer pro thajštinu. |
tr.lucene |
string |
Analyzátor Lucene pro turečtinu. |
tr.microsoft |
string |
Microsoft Analyzer pro turečtinu. |
uk.microsoft |
string |
Microsoft Analyzer pro ukrajinštinu. |
ur.microsoft |
string |
Microsoft analyzer for Urdu. |
vi.microsoft |
string |
Microsoft Analyzer pro vietnamštinu. |
whitespace |
string |
Analyzátor, který používá tokenizátor prázdných znaků. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html |
zh-Hans.lucene |
string |
Analyzátor Lucene pro čínštinu (zjednodušená). |
zh-Hans.microsoft |
string |
Microsoft Analyzer pro čínštinu (zjednodušená). |
zh-Hant.lucene |
string |
Analyzátor Lucene pro čínštinu (tradiční). |
zh-Hant.microsoft |
string |
Microsoft Analyzer pro čínštinu (tradiční). |
LexicalTokenizerName
Definuje názvy všech tokenizátorů podporovaných vyhledávacím webem.
LimitTokenFilter
Omezuje počet tokenů při indexování. Tento filtr tokenu se implementuje pomocí Apache Lucene.
Name | Typ | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ filtru tokenu. |
|
consumeAllTokens |
boolean |
False |
Hodnota označující, zda všechny tokeny ze vstupu musí být spotřebovány, i když je dosaženo maxTokenCount. Výchozí hodnota je false. |
maxTokenCount |
integer |
1 |
Maximální počet tokenů, které se mají vytvořit. Výchozí hodnota je 1. |
name |
string |
Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků. |
LuceneStandardAnalyzer
Standardní analyzátor Apache Lucene; Skládá se ze standardního tokenizátoru, filtru malými písmeny a filtru zastavení.
Name | Typ | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ analyzátoru. |
|
maxTokenLength |
integer |
255 |
Maximální délka tokenu. Výchozí hodnota je 255. Tokeny delší než maximální délka jsou rozdělené. Maximální délka tokenu, kterou lze použít, je 300 znaků. |
name |
string |
Název analyzátoru. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků. |
|
stopwords |
string[] |
Seznam stoper. |
LuceneStandardTokenizer
Zalomí text podle pravidel segmentace textu unicode. Tento tokenizátor se implementuje pomocí Apache Lucene.
Name | Typ | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ tokenizátoru. |
|
maxTokenLength |
integer |
255 |
Maximální délka tokenu. Výchozí hodnota je 255. Tokeny delší než maximální délka jsou rozdělené. |
name |
string |
Název tokenizátoru. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků. |
LuceneStandardTokenizerV2
Zalomí text podle pravidel segmentace textu unicode. Tento tokenizátor se implementuje pomocí Apache Lucene.
Name | Typ | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ tokenizátoru. |
|
maxTokenLength |
integer |
255 |
Maximální délka tokenu. Výchozí hodnota je 255. Tokeny delší než maximální délka jsou rozdělené. Maximální délka tokenu, kterou lze použít, je 300 znaků. |
name |
string |
Název tokenizátoru. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků. |
MagnitudeScoringFunction
Definuje funkci, která zvyšuje skóre na základě velikosti číselného pole.
Name | Typ | Description |
---|---|---|
boost |
number |
Násobitel pro nezpracované skóre. Musí to být kladné číslo, které se nerovná 1,0. |
fieldName |
string |
Název pole použitého jako vstup do funkce bodování. |
interpolation |
Hodnota označující, jak bude zvýšení interpolováno napříč skóre dokumentu; výchozí hodnota je lineární. |
|
magnitude |
Hodnoty parametrů pro funkci bodování velikosti. |
|
type |
string:
magnitude |
Určuje typ funkce, která se má použít. Platné hodnoty zahrnují velikost, aktuálnost, vzdálenost a značku. Typ funkce musí být malé písmeno. |
MagnitudeScoringParameters
Poskytuje hodnoty parametrů pro funkci bodování velikosti.
Name | Typ | Description |
---|---|---|
boostingRangeEnd |
number |
Hodnota pole, na které končí zvýšení. |
boostingRangeStart |
number |
Hodnota pole, na které začíná zvýšení. |
constantBoostBeyondRange |
boolean |
Hodnota označující, zda použít konstantní zvýšení hodnoty pole nad rámec koncové hodnoty rozsahu; výchozí hodnota je false. |
MappingCharFilter
Filtr znaků, který používá mapování definovaná pomocí možnosti mapování. Porovnávání je greedy (nejdelší porovnávání vzorů v daném bodě vyhrává). Nahrazení může být prázdný řetězec. Tento filtr znaků se implementuje pomocí Apache Lucene.
Name | Typ | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ filtru znaků. |
mappings |
string[] |
Seznam mapování následujícího formátu: "a=>b" (všechny výskyty znaku "a" budou nahrazeny znakem "b"). |
name |
string |
Název filtru znaků. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků. |
MicrosoftLanguageStemmingTokenizer
Rozdělí text pomocí pravidel specifických pro jazyk a zmenšuje slova na jejich základní formuláře.
Name | Typ | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ tokenizátoru. |
|
isSearchTokenizer |
boolean |
False |
Hodnota označující způsob použití tokenizátoru. Pokud se používá jako tokenizátor vyhledávání, nastavte hodnotu false, pokud se používá jako tokenizátor indexování. Výchozí hodnota je false. |
language |
Jazyk, který se má použít. Výchozí hodnota je angličtina. |
||
maxTokenLength |
integer |
255 |
Maximální délka tokenu. Tokeny delší než maximální délka jsou rozdělené. Maximální délka tokenu, kterou lze použít, je 300 znaků. Tokeny delší než 300 znaků se nejprve rozdělí na tokeny o délce 300 a pak se každý z těchto tokenů rozdělí na základě nastavené maximální délky tokenu. Výchozí hodnota je 255. |
name |
string |
Název tokenizátoru. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků. |
MicrosoftLanguageTokenizer
Rozdělí text pomocí pravidel specifických pro jazyk.
Name | Typ | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ tokenizátoru. |
|
isSearchTokenizer |
boolean |
False |
Hodnota označující způsob použití tokenizátoru. Pokud se používá jako tokenizátor vyhledávání, nastavte hodnotu false, pokud se používá jako tokenizátor indexování. Výchozí hodnota je false. |
language |
Jazyk, který se má použít. Výchozí hodnota je angličtina. |
||
maxTokenLength |
integer |
255 |
Maximální délka tokenu. Tokeny delší než maximální délka jsou rozdělené. Maximální délka tokenu, kterou lze použít, je 300 znaků. Tokeny delší než 300 znaků se nejprve rozdělí na tokeny o délce 300 a pak se každý z těchto tokenů rozdělí na základě nastavené maximální délky tokenu. Výchozí hodnota je 255. |
name |
string |
Název tokenizátoru. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků. |
MicrosoftStemmingTokenizerLanguage
Uvádí jazyky podporované tokenizátorem jazyka Microsoftu.
Name | Typ | Description |
---|---|---|
arabic |
string |
Vybere tokenizátor tokenizátoru microsoftu pro arabštinu. |
bangla |
string |
Vybere tokenizátor tokenizátoru microsoftu pro Bangla. |
bulgarian |
string |
Vybere tokenizátor tokenizátoru microsoftu pro bulharštinu. |
catalan |
string |
Vybere tokenizátor tokeningu Microsoftu pro katalánštinu. |
croatian |
string |
Vybere tokenizátor tokenizátoru microsoftu pro chorvatštinu. |
czech |
string |
Vybere tokenizátor microsoftu pro češtinu. |
danish |
string |
Vybere tokenizátor tokeningu Microsoftu pro dánštinu. |
dutch |
string |
Vybere tokenizátor tokenizátoru microsoftu pro nizozemštinu. |
english |
string |
Vybere tokenizátor tokenizátoru microsoftu pro angličtinu. |
estonian |
string |
Vybere tokenizátor tokenizátoru microsoftu pro estonštinu. |
finnish |
string |
Vybere tokenizátor tokeningu Microsoftu pro finštinu. |
french |
string |
Vybere tokenizátor tokenizátoru microsoftu pro francouzštinu. |
german |
string |
Vybere tokenizátor tokenizátoru microsoftu pro němčinu. |
greek |
string |
Vybere tokenizátor tokenizátoru microsoftu pro řečtinu. |
gujarati |
string |
Vybere tokenizátor tokenizace Microsoftu pro Gujarati. |
hebrew |
string |
Vybere tokenizátor microsoftu pro hebrejštinu. |
hindi |
string |
Vybere tokenizátor tokenizace Microsoftu pro hindštinu. |
hungarian |
string |
Vybere tokenizátor tokenizátoru microsoftu pro maďarštinu. |
icelandic |
string |
Vybere tokenizátor tokenizátoru microsoftu pro Islandštinu. |
indonesian |
string |
Vybere tokenizátor tokeningu Microsoftu pro indonéštinu. |
italian |
string |
Vybere tokenizátor tokenizátoru microsoftu pro italštinu. |
kannada |
string |
Vybere tokenizátor tokenizátoru microsoftu pro Kannada. |
latvian |
string |
Vybere tokenizátor tokenizátoru microsoftu pro lotyštinu. |
lithuanian |
string |
Vybere tokenizátor tokenizátoru microsoftu pro litevštinu. |
malay |
string |
Vybere tokenizátor tokenizátoru microsoftu pro Malay. |
malayalam |
string |
Vybere tokenizátor tokenizátoru microsoftu pro Malayalam. |
marathi |
string |
Vybere tokenizátor tokenizátoru microsoftu pro Marathi. |
norwegianBokmaal |
string |
Vybere tokenizátor tokenizátoru microsoftu pro norštinu (Bokmål). |
polish |
string |
Vybere tokenizátor tokenizátoru microsoftu pro polštinu. |
portuguese |
string |
Vybere tokenizátor tokenizátoru microsoftu pro portugalštinu. |
portugueseBrazilian |
string |
Vybere tokenizátor tokenizátoru microsoftu pro portugalštinu (Brazílie). |
punjabi |
string |
Vybere tokenizátor tokenizace Microsoftu pro Punjabi. |
romanian |
string |
Vybere tokenizátor tokenizátoru microsoftu pro rumunštinu. |
russian |
string |
Vybere tokenizátor tokenizátoru Microsoftu pro ruštinu. |
serbianCyrillic |
string |
Vybere tokenizátor tokeningu Microsoftu pro srbštinu (cyrilice). |
serbianLatin |
string |
Vybere tokenizátor tokeningu microsoftu pro srbštinu (latinka). |
slovak |
string |
Vybere tokenizátor tokeningu Microsoftu pro slovenskou. |
slovenian |
string |
Vybere tokenizátor tokenizátoru microsoftu pro slovinštinu. |
spanish |
string |
Vybere tokenizátor tokeningu Microsoftu pro španělštinu. |
swedish |
string |
Vybere tokenizátor tokenizátoru microsoftu pro švédštinu. |
tamil |
string |
Vybere tokenizátor tokenizátoru microsoftu pro tamilštinu. |
telugu |
string |
Vybere tokenizátor tokenizátoru microsoftu pro Telugu. |
turkish |
string |
Vybere tokenizátor tokenizátoru microsoftu pro turečtinu. |
ukrainian |
string |
Vybere tokenizátor microsoftu pro ukrajinštinu. |
urdu |
string |
Vybere tokenizátor tokeningu Microsoftu pro Urdu. |
MicrosoftTokenizerLanguage
Zobrazí seznam jazyků podporovaných tokenizátorem jazyka Microsoftu.
Name | Typ | Description |
---|---|---|
bangla |
string |
Vybere tokenizátor Microsoftu pro Bangla. |
bulgarian |
string |
Vybere tokenizátor Microsoftu pro bulharštinu. |
catalan |
string |
Vybere tokenizátor Microsoftu pro katalánštinu. |
chineseSimplified |
string |
Vybere tokenizátor Microsoftu pro čínštinu (zjednodušenou). |
chineseTraditional |
string |
Vybere tokenizátor Microsoftu pro čínštinu (tradiční). |
croatian |
string |
Vybere tokenizátor Microsoftu pro chorvatštinu. |
czech |
string |
Vybere tokenizátor Microsoftu pro češtinu. |
danish |
string |
Vybere tokenizátor Microsoftu pro dánštinu. |
dutch |
string |
Vybere tokenizátor Microsoftu pro nizozemštinu. |
english |
string |
Vybere tokenizátor Microsoftu pro angličtinu. |
french |
string |
Vybere tokenizátor Microsoftu pro francouzštinu. |
german |
string |
Vybere tokenizátor Microsoftu pro němčinu. |
greek |
string |
Vybere tokenizátor Microsoftu pro řečtinu. |
gujarati |
string |
Vybere tokenizátor Microsoftu pro Gujarati. |
hindi |
string |
Vybere tokenizátor Microsoftu pro hindštinu. |
icelandic |
string |
Vybere tokenizátor Microsoftu pro Islandštinu. |
indonesian |
string |
Vybere tokenizátor Microsoftu pro indonéštinu. |
italian |
string |
Vybere tokenizátor Microsoftu pro italštinu. |
japanese |
string |
Vybere tokenizátor Microsoftu pro japonštinu. |
kannada |
string |
Vybere tokenizátor Microsoftu pro Kannada. |
korean |
string |
Vybere tokenizátor Microsoftu pro korejštinu. |
malay |
string |
Vybere tokenizátor Microsoftu pro Malay. |
malayalam |
string |
Vybere tokenizátor Microsoftu pro Malayalam. |
marathi |
string |
Vybere tokenizátor Microsoftu pro Marathi. |
norwegianBokmaal |
string |
Vybere tokenizátor Microsoftu pro norštinu (Bokmål). |
polish |
string |
Vybere tokenizátor Microsoftu pro polštinu. |
portuguese |
string |
Vybere tokenizátor Microsoftu pro portugalštinu. |
portugueseBrazilian |
string |
Vybere tokenizátor Microsoftu pro portugalštinu (Brazílie). |
punjabi |
string |
Vybere tokenizátor Microsoftu pro Punjabi. |
romanian |
string |
Vybere tokenizátor Microsoftu pro rumunštinu. |
russian |
string |
Vybere tokenizátor Microsoftu pro ruštinu. |
serbianCyrillic |
string |
Vybere tokenizátor Microsoftu pro srbštinu (cyrilice). |
serbianLatin |
string |
Vybere tokenizátor Microsoftu pro srbštinu (latinka). |
slovenian |
string |
Vybere tokenizátor Microsoftu pro slovinštinu. |
spanish |
string |
Vybere tokenizátor Microsoftu pro španělštinu. |
swedish |
string |
Vybere tokenizátor Microsoftu pro švédštinu. |
tamil |
string |
Vybere tokenizátor Microsoftu pro tamilštinu. |
telugu |
string |
Vybere tokenizátor Microsoftu pro Telugu. |
thai |
string |
Vybere tokenizátor Microsoftu pro thajštinu. |
ukrainian |
string |
Vybere tokenizátor Microsoftu pro ukrajinštinu. |
urdu |
string |
Vybere tokenizátor Microsoftu pro Urdu. |
vietnamese |
string |
Vybere tokenizátor Microsoftu pro vietnamštinu. |
NGramTokenFilter
Vygeneruje n-gramy dané velikosti. Tento filtr tokenu se implementuje pomocí Apache Lucene.
Name | Typ | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ filtru tokenu. |
|
maxGram |
integer |
2 |
Maximální délka n-gramu. Výchozí hodnota je 2. |
minGram |
integer |
1 |
Minimální délka n-gramu. Výchozí hodnota je 1. Musí být menší než hodnota maxGram. |
name |
string |
Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků. |
NGramTokenFilterV2
Vygeneruje n-gramy dané velikosti. Tento filtr tokenu se implementuje pomocí Apache Lucene.
Name | Typ | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ filtru tokenu. |
|
maxGram |
integer |
2 |
Maximální délka n-gramu. Výchozí hodnota je 2. Maximum je 300. |
minGram |
integer |
1 |
Minimální délka n-gramu. Výchozí hodnota je 1. Maximum je 300. Musí být menší než hodnota maxGram. |
name |
string |
Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků. |
NGramTokenizer
Tokenizuje vstup na n-gramy dané velikosti. Tento tokenizátor se implementuje pomocí Apache Lucene.
Name | Typ | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ tokenizátoru. |
|
maxGram |
integer |
2 |
Maximální délka n-gramu. Výchozí hodnota je 2. Maximum je 300. |
minGram |
integer |
1 |
Minimální délka n-gramu. Výchozí hodnota je 1. Maximum je 300. Musí být menší než hodnota maxGram. |
name |
string |
Název tokenizátoru. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků. |
|
tokenChars |
Třídy znaků, které mají být v tokenech zachovány. |
OutputFieldMappingEntry
Mapování výstupních polí pro dovednost
Name | Typ | Description |
---|---|---|
name |
string |
Název výstupu definovaného dovedností. |
targetName |
string |
Cílový název výstupu. Je nepovinný a výchozí název. |
PathHierarchyTokenizerV2
Tokenizátor pro hierarchie podobné cestě. Tento tokenizátor se implementuje pomocí Apache Lucene.
Name | Typ | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ tokenizátoru. |
|
delimiter |
string |
/ |
Znak oddělovače, který se má použít. Výchozí hodnota je /. |
maxTokenLength |
integer |
300 |
Maximální délka tokenu. Výchozí a maximální hodnota je 300. |
name |
string |
Název tokenizátoru. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků. |
|
replacement |
string |
/ |
Hodnota, která v případě nastavení nahradí znak oddělovače. Výchozí hodnota je /. |
reverse |
boolean |
False |
Hodnota označující, zda se mají generovat tokeny v obráceném pořadí. Výchozí hodnota je false. |
skip |
integer |
0 |
Počet počátečních tokenů, které se mají přeskočit. Výchozí hodnota je 0. |
PatternAnalyzer
Pružně odděluje text do termínů pomocí vzoru regulárního výrazu. Tento analyzátor se implementuje pomocí Apache Lucene.
Name | Typ | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ analyzátoru. |
|
flags |
Příznaky regulárního výrazu |
||
lowercase |
boolean |
True |
Hodnota označující, jestli mají být termíny malé. Výchozí hodnota je true. |
name |
string |
Název analyzátoru. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků. |
|
pattern |
string |
\W+ |
Vzor regulárního výrazu, který odpovídá oddělovačům tokenů. Výchozí je výraz, který odpovídá jednomu nebo více neslovným znakům. |
stopwords |
string[] |
Seznam stoper. |
PatternCaptureTokenFilter
Používá regulární výrazy Java k vygenerování více tokenů – jeden pro každou skupinu zachycení v jednom nebo více vzorech. Tento filtr tokenu se implementuje pomocí Apache Lucene.
Name | Typ | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ filtru tokenu. |
|
name |
string |
Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků. |
|
patterns |
string[] |
Seznam vzorů, které se mají shodovat s každým tokenem. |
|
preserveOriginal |
boolean |
True |
Hodnota označující, zda se má vrátit původní token, i když některý ze vzorů odpovídá. Výchozí hodnota je true. |
PatternReplaceCharFilter
Filtr znaků, který nahradí znaky ve vstupním řetězci. Používá regulární výraz k identifikaci sekvencí znaků k zachování a nahrazení vzoru pro identifikaci znaků, které se mají nahradit. Například při zadání textu "aa bb aa bb", vzoru "(aa)\s+(bb)" a nahrazení "$1#$2" bude výsledkem "aa#bb aa#bb". Tento filtr znaků se implementuje pomocí Apache Lucene.
Name | Typ | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ filtru znaků. |
name |
string |
Název filtru znaků. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků. |
pattern |
string |
Vzor regulárního výrazu. |
replacement |
string |
Náhradní text. |
PatternReplaceTokenFilter
Filtr znaků, který nahradí znaky ve vstupním řetězci. Používá regulární výraz k identifikaci sekvencí znaků k zachování a nahrazení vzoru pro identifikaci znaků, které se mají nahradit. Například při zadání textu "aa bb aa bb", vzoru "(aa)\s+(bb)" a nahrazení "$1#$2" bude výsledkem "aa#bb aa#bb". Tento filtr tokenu se implementuje pomocí Apache Lucene.
Name | Typ | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ filtru tokenu. |
name |
string |
Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků. |
pattern |
string |
Vzor regulárního výrazu. |
replacement |
string |
Náhradní text. |
PatternTokenizer
Tokenizátor, který používá porovnávání vzorů regulárních výrazů k vytvoření jedinečných tokenů. Tento tokenizátor se implementuje pomocí Apache Lucene.
Name | Typ | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ tokenizátoru. |
|
flags |
Příznaky regulárního výrazu |
||
group |
integer |
-1 |
Pořadové číslo založené na nule odpovídající skupiny v modelu regulárního výrazu, které se mají extrahovat do tokenů. Pokud chcete použít celý vzor k rozdělení vstupu na tokeny bez ohledu na odpovídající skupiny, použijte -1. Výchozí hodnota je -1. |
name |
string |
Název tokenizátoru. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků. |
|
pattern |
string |
\W+ |
Vzor regulárního výrazu, který odpovídá oddělovačům tokenů. Výchozí je výraz, který odpovídá jednomu nebo více neslovným znakům. |
PhoneticEncoder
Identifikuje typ fonetického kodéru, který se má použít s fonetickým Filtrem.
Name | Typ | Description |
---|---|---|
beiderMorse |
string |
Zakóduje token do Beider-Morse hodnoty. |
caverphone1 |
string |
Kóduje token do hodnoty Caverphone 1,0. |
caverphone2 |
string |
Kóduje token do hodnoty Caverphone 2.0. |
cologne |
string |
Zakóduje token do fonetické hodnoty Kolín nad Rýnem. |
doubleMetaphone |
string |
Zakóduje token do dvojité hodnoty metafonu. |
haasePhonetik |
string |
Kóduje token pomocí upřesňujícího algoritmu Kölner Phonetik. |
koelnerPhonetik |
string |
Kóduje token pomocí algoritmu Kölner Phonetik. |
metaphone |
string |
Zakóduje token do hodnoty metafonu. |
nysiis |
string |
Kóduje token do hodnoty NYSIIS. |
refinedSoundex |
string |
Zakóduje token do hodnoty Refined Soundex. |
soundex |
string |
Zakóduje token do hodnoty Soundex. |
PhoneticTokenFilter
Vytváření tokenů pro fonetické shody Tento filtr tokenu se implementuje pomocí Apache Lucene.
Name | Typ | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ filtru tokenu. |
|
encoder | metaphone |
Fonetický kodér, který se má použít. Výchozí hodnota je "metafon". |
|
name |
string |
Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků. |
|
replace |
boolean |
True |
Hodnota označující, jestli mají kódované tokeny nahradit původní tokeny. Pokud je false, kódované tokeny se přidají jako synonyma. Výchozí hodnota je true. |
PrioritizedFields
Popisuje pole nadpisu, obsahu a klíčových slov, která se mají použít pro sémantické řazení, titulky, zvýraznění a odpovědi.
Name | Typ | Description |
---|---|---|
prioritizedContentFields |
Definuje pole obsahu, která se mají použít pro sémantické řazení, titulky, zvýraznění a odpovědi. Pro nejlepší výsledek by vybraná pole měla obsahovat text ve formátu přirozeného jazyka. Pořadí polí v poli představuje jejich prioritu. Pole s nižší prioritou se můžou zkrátit, pokud je obsah dlouhý. |
|
prioritizedKeywordsFields |
Definuje pole klíčových slov, která se mají použít pro sémantické řazení, titulky, zvýraznění a odpovědi. Pro nejlepší výsledek by vybraná pole měla obsahovat seznam klíčových slov. Pořadí polí v poli představuje jejich prioritu. Pole s nižší prioritou se můžou zkrátit, pokud je obsah dlouhý. |
|
titleField |
Definuje pole názvu, které se má použít pro sémantické řazení, titulky, zvýraznění a odpovědi. Pokud v indexu nemáte pole názvu, nechejte toto pole prázdné. |
RegexFlags
Definuje příznaky, které lze kombinovat a řídit způsob použití regulárních výrazů v analyzátoru vzorů a tokenizátoru vzorů.
Name | Typ | Description |
---|---|---|
CANON_EQ |
string |
Umožňuje kanonickou ekvivalenci. |
CASE_INSENSITIVE |
string |
Povolí porovnávání nerozlišující malá a velká písmena. |
COMMENTS |
string |
Povoluje prázdné znaky a komentáře ve vzoru. |
DOTALL |
string |
Povolí režim dotall. |
LITERAL |
string |
Povolí analýzu vzoru literálem. |
MULTILINE |
string |
Povolí víceřádkový režim. |
UNICODE_CASE |
string |
Umožňuje posouvání písmen s kódováním Unicode. |
UNIX_LINES |
string |
Povolí režim čar unixu. |
ScalarQuantizationParameters
Obsahuje parametry specifické pro skalární kvantování.
Name | Typ | Description |
---|---|---|
quantizedDataType |
Kvantovaný datový typ komprimovaných vektorových hodnot. |
ScalarQuantizationVectorSearchCompressionConfiguration
Obsahuje možnosti konfigurace specifické pro metodu komprese skalární quantizace, která se používá při indexování a dotazování.
Name | Typ | Default value | Description |
---|---|---|---|
defaultOversampling |
number |
Výchozí faktor převzorkování Převzorkování interně vyžádá více dokumentů (určených tímto násobitelem) v počátečním hledání. Tím se zvýší sada výsledků, které se přeřadí pomocí přepočítaného skóre podobnosti z vektorů s plnou přesností. Minimální hodnota je 1, což znamená bez převzorkování (1x). Tento parametr lze nastavit pouze v případě, že je splněna hodnota rerankWithOriginalVectors. Vyšší hodnoty zlepšují úplnost na úkor latence. |
|
kind |
string:
scalar |
Název typu metody komprese, která se konfiguruje pro použití s vektorovým vyhledáváním. |
|
name |
string |
Název, který chcete přidružit k této konkrétní konfiguraci. |
|
rerankWithOriginalVectors |
boolean |
True |
Pokud je nastavena hodnota true, po získání seřazené sady výsledků pomocí komprimovaných vektorů se znovu seřadí přepočtem skóre podobnosti s plnou přesností. Tím se zlepší úplnost na úkor latence. |
scalarQuantizationParameters |
Obsahuje parametry specifické pro skalární kvantování. |
ScoringFunctionAggregation
Definuje agregační funkci použitou ke kombinování výsledků všech hodnoticích funkcí v bodovacím profilu.
Name | Typ | Description |
---|---|---|
average |
string |
Zvyšte skóre průměrem všech výsledků bodovací funkce. |
firstMatching |
string |
Zvyšte skóre pomocí první použitelné funkce bodování v profilu bodování. |
maximum |
string |
Zvyšte skóre maximálním počtem výsledků všech výsledků funkce bodování. |
minimum |
string |
Zvyšte skóre o minimum všech výsledků funkce bodování. |
sum |
string |
Zvyšte skóre součtem všech výsledků funkce bodování. |
ScoringFunctionInterpolation
Definuje funkci použitou k interpolaci zvýšení skóre napříč celou řadou dokumentů.
Name | Typ | Description |
---|---|---|
constant |
string |
Zvyšuje skóre konstantním faktorem. |
linear |
string |
Zvyšuje skóre lineárním snížením množství. Toto je výchozí interpolace pro bodovací funkce. |
logarithmic |
string |
Zvyšuje skóre o množství, které snižuje logaritmicky. Zvyšuje se rychle pro vyšší skóre a pomaleji s poklesem skóre. Tato možnost interpolace není povolena ve funkcích bodování značek. |
quadratic |
string |
Zvyšuje skóre o množství, které se snižuje kvadraticky. Zvyšuje se pomalu pro vyšší skóre a rychleji s poklesem skóre. Tato možnost interpolace není povolena ve funkcích bodování značek. |
ScoringProfile
Definuje parametry indexu vyhledávání, které ovlivňují bodování ve vyhledávacích dotazech.
Name | Typ | Description |
---|---|---|
functionAggregation |
Hodnota označující způsob kombinování výsledků jednotlivých hodnoticích funkcí. Výchozí hodnota je Sum. Ignorováno, pokud neexistují žádné bodovací funkce. |
|
functions | ScoringFunction[]: |
Kolekce funkcí, které ovlivňují bodování dokumentů. |
name |
string |
Název hodnoticího profilu. |
text |
Parametry, které zvyšují bodování na základě shody textu v určitých polích indexu. |
SearchField
Představuje pole v definici indexu, které popisuje název, datový typ a chování hledání pole.
Name | Typ | Description |
---|---|---|
analyzer |
Název analyzátoru, který se má pro dané pole použít. Tuto možnost lze použít pouze s prohledávatelnými poli a nelze ji nastavit společně s funkcí searchAnalyzer nebo indexAnalyzer. Jakmile vyberete analyzátor, nelze ho pro dané pole změnit. Pro složitá pole musí být null. |
|
dimensions |
integer |
Rozměrnost vektorového pole. |
facetable |
boolean |
Hodnota označující, jestli se má na pole odkazovat v dotazech omezující vlastnosti. Obvykle se používá v prezentaci výsledků hledání, která zahrnuje počet přístupů podle kategorií (například hledání digitálních fotoaparátů a zobrazení hitů podle značky, podle megapixelů, podle ceny atd.). Tato vlastnost musí mít hodnotu null pro složitá pole. Pole typu Edm.GeographyPoint nebo Collection(Edm.GeographyPoint) nelze identifikovat. Výchozí hodnota platí pro všechna ostatní jednoduchá pole. |
fields |
Seznam dílčích polí, pokud se jedná o pole typu Edm.ComplexType nebo Collection(Edm.ComplexType). Pro jednoduchá pole musí být null nebo prázdná. |
|
filterable |
boolean |
Hodnota označující, zda má být pole odkazováno v $filter dotazech. Filtrovatelné se liší od prohledávatelného způsobu zpracování řetězců. Pole typu Edm.String nebo Collection(Edm.String), která jsou filtrovatelná, neprocházejí dělením slov, takže porovnání jsou pouze pro přesné shody. Pokud například nastavíte takové pole f na "slunečný den", $filter=f eq 'sunny' nenajde žádné shody, ale $filter=f eq 'sunny day' bude. Tato vlastnost musí mít hodnotu null pro složitá pole. Výchozí hodnota platí pro jednoduchá pole a hodnotu null pro složitá pole. |
indexAnalyzer |
Název analyzátoru použitého při indexování pole. Tuto možnost lze použít pouze s prohledávatelnými poli. Musí být nastaven společně s searchAnalyzer a nelze jej nastavit společně s možností analyzátoru. Tuto vlastnost nelze nastavit na název analyzátoru jazyka; Pokud potřebujete analyzátor jazyka, použijte místo toho vlastnost analyzátoru. Jakmile vyberete analyzátor, nelze ho pro dané pole změnit. Pro složitá pole musí být null. |
|
key |
boolean |
Hodnota označující, zda pole jednoznačně identifikuje dokumenty v indexu. Jako klíčové pole musí být vybráno přesně jedno pole nejvyšší úrovně v každém indexu a musí být typu Edm.String. Klíčová pole se dají použít k přímému vyhledání dokumentů a aktualizaci nebo odstranění konkrétních dokumentů. Výchozí hodnota je false pro jednoduchá pole a hodnotu null pro složitá pole. |
name |
string |
Název pole, které musí být jedinečné v rámci kolekce polí indexu nebo nadřazeného pole. |
retrievable |
boolean |
Hodnota označující, zda pole může být vráceno ve výsledku hledání. Tuto možnost můžete zakázat, pokud chcete použít pole (například okraj) jako filtr, řazení nebo bodovací mechanismus, ale nechcete, aby bylo pole viditelné pro koncového uživatele. Tato vlastnost musí být pravdivá pro klíčová pole a pro složitá pole musí mít hodnotu null. Tuto vlastnost lze změnit u existujících polí. Povolení této vlastnosti nezpůsobí žádné zvýšení požadavků na úložiště indexů. Výchozí hodnota platí pro jednoduchá pole, false pro vektorová pole a hodnotu null pro složitá pole. |
searchAnalyzer |
Název analyzátoru použitého při hledání pole. Tuto možnost lze použít pouze s prohledávatelnými poli. Musí být nastaven společně s parametrem indexAnalyzer a nelze jej nastavit společně s možností analyzátoru. Tuto vlastnost nelze nastavit na název analyzátoru jazyka; Pokud potřebujete analyzátor jazyka, použijte místo toho vlastnost analyzátoru. Tento analyzátor lze aktualizovat u existujícího pole. Pro složitá pole musí být null. |
|
searchable |
boolean |
Hodnota označující, zda je pole prohledávatelné fulltextové. To znamená, že během indexování projde analýzou, jako je například dělení slov. Pokud nastavíte prohledávatelné pole na hodnotu jako "slunečný den", interně se rozdělí na jednotlivé tokeny "sunny" a "day". To umožňuje fulltextové vyhledávání těchto termínů. Pole typu Edm.String nebo Collection(Edm.String) jsou ve výchozím nastavení prohledávatelná. Tato vlastnost musí být false pro jednoduchá pole jiných datových typů, které nejsou řetězcové, a musí mít hodnotu null pro složitá pole. Poznámka: Prohledávatelná pole spotřebovávají nadbytečné místo v indexu, aby vyhovovala dalším tokenizovaným verzím hodnoty pole pro fulltextová vyhledávání. Pokud chcete ušetřit místo v indexu a nepotřebujete pole, které by se mělo zahrnout do hledání, nastavte prohledávatelné na false. |
sortable |
boolean |
Hodnota označující, zda má být pole odkazováno ve výrazech $orderby. Ve výchozím nastavení vyhledávací web seřadí výsledky podle skóre, ale v mnoha prostředích budou uživatelé chtít řadit podle polí v dokumentech. Jednoduché pole lze řadit pouze v případě, že je jednohodnotové (má jednu hodnotu v oboru nadřazeného dokumentu). Jednoduchá pole kolekce nelze seřadit, protože jsou vícehodnotová. Jednoduchá dílčí pole komplexních kolekcí jsou také vícehodnotová, a proto nelze řadit. To platí bez ohledu na to, jestli se jedná o okamžité nadřazené pole nebo nadřazené pole, což je složitá kolekce. Složitá pole nelze seřadit a vlastnost řazení musí mít pro tato pole hodnotu null. Výchozí hodnota pro řazení je true pro jednoduchá pole s jednou hodnotou, false pro jednoduchá pole s více hodnotami a null pro složitá pole. |
stored |
boolean |
Neměnná hodnota označující, jestli se pole bude uchovávat samostatně na disku, který se má vrátit ve výsledku hledání. Tuto možnost můžete zakázat, pokud neplánujete vrátit obsah pole v odpovědi hledání, abyste ušetřili režii úložiště. To lze nastavit pouze při vytváření indexu a pouze pro vektorová pole. Tuto vlastnost nelze změnit pro existující pole nebo nastavit jako false pro nová pole. Pokud je tato vlastnost nastavena jako false, vlastnost 'retrievable' musí být také nastavena na false. Tato vlastnost musí být true nebo unset pro klíčová pole, pro nová pole a pro pole bez vektoru a musí mít hodnotu null pro složitá pole. Zakázáním této vlastnosti snížíte požadavky na úložiště indexu. Výchozí hodnota je true pro vektorová pole. |
synonymMaps |
string[] |
Seznam názvů map synonym, které se mají přidružit k tomuto poli. Tuto možnost lze použít pouze s prohledávatelnými poli. V současné době je podporováno pouze jedno mapování synonym pro každé pole. Přiřazení mapování synonym k poli zajišťuje, aby se termíny dotazu, které cílí na toto pole, rozšířily v době dotazu pomocí pravidel v mapě synonym. Tento atribut lze změnit u existujících polí. Pro složitá pole musí být null nebo prázdná kolekce. |
type |
Datový typ pole. |
|
vectorEncoding |
Formát kódování pro interpretaci obsahu pole. |
|
vectorSearchProfile |
string |
Název profilu vektorového vyhledávání, který určuje algoritmus a vektorizátor, který se má použít při prohledávání vektorového pole. |
SearchFieldDataType
Definuje datový typ pole v indexu vyhledávání.
Name | Typ | Description |
---|---|---|
Edm.Boolean |
string |
Označuje, že pole obsahuje logickou hodnotu (true nebo false). |
Edm.Byte |
string |
Označuje, že pole obsahuje 8bitové celé číslo bez znaménka. To platí pouze při použití s kolekcí (Edm.Byte). |
Edm.ComplexType |
string |
Označuje, že pole obsahuje jeden nebo více složitých objektů, které mají následně dílčí pole jiných typů. |
Edm.DateTimeOffset |
string |
Označuje, že pole obsahuje hodnotu data a času včetně informací o časovém pásmu. |
Edm.Double |
string |
Označuje, že pole obsahuje číslo s plovoucí desetinnou čárkou s dvojitou přesností IEEE. |
Edm.GeographyPoint |
string |
Označuje, že pole obsahuje geografické umístění z hlediska zeměpisné délky a zeměpisné šířky. |
Edm.Half |
string |
Označuje, že pole obsahuje číslo s plovoucí desetinnou čárkou s poloviční přesností. To platí jenom při použití s kolekcí (Edm.Half). |
Edm.Int16 |
string |
Označuje, že pole obsahuje 16bitové celé číslo se znaménkem. To platí jenom při použití s kolekcí (Edm.Int16). |
Edm.Int32 |
string |
Označuje, že pole obsahuje 32bitové celé číslo se znaménkem. |
Edm.Int64 |
string |
Označuje, že pole obsahuje 64bitové celé číslo se znaménkem. |
Edm.SByte |
string |
Označuje, že pole obsahuje 8bitové celé číslo se znaménkem. To platí jenom při použití s kolekcí (Edm.SByte). |
Edm.Single |
string |
Označuje, že pole obsahuje číslo s plovoucí desetinnou čárkou s jednou přesností. To platí jenom v případě, že se používá s kolekcí (Edm.Single). |
Edm.String |
string |
Označuje, že pole obsahuje řetězec. |
SearchIndex
Představuje definici indexu vyhledávání, která popisuje pole a chování vyhledávání indexu.
Name | Typ | Description |
---|---|---|
@odata.etag |
string |
ETag indexu. |
analyzers | LexicalAnalyzer[]: |
Analyzátory indexu. |
charFilters | CharFilter[]: |
Filtry znaků pro index. |
corsOptions |
Možnosti řízení sdílení prostředků mezi zdroji (CORS) pro index |
|
defaultScoringProfile |
string |
Název bodovacího profilu, který se má použít, pokud není v dotazu zadán žádný. Pokud tato vlastnost není nastavena a v dotazu není zadán žádný bodovací profil, použije se výchozí bodování (tf-idf). |
encryptionKey |
Popis šifrovacího klíče, který vytvoříte ve službě Azure Key Vault. Tento klíč se používá k zajištění další úrovně neaktivních uložených šifrování pro vaše data, pokud chcete mít plnou jistotu, že vaše data může dešifrovat nikdo, ani Microsoft. Jakmile data zašifrujete, zůstane vždy zašifrovaná. Vyhledávací služba bude ignorovat pokusy o nastavení této vlastnosti na hodnotu null. Tuto vlastnost můžete podle potřeby změnit, pokud chcete šifrovací klíč otočit; Vaše data nebudou ovlivněna. Šifrování pomocí klíčů spravovaných zákazníkem není k dispozici pro bezplatné vyhledávací služby a je k dispozici pouze pro placené služby vytvořené 1. ledna 2019 nebo po 1. lednu 2019. |
|
fields |
Pole indexu. |
|
name |
string |
Název indexu. |
scoringProfiles |
Profily bodování indexu. |
|
semantic |
Definuje parametry indexu vyhledávání, které ovlivňují sémantické schopnosti. |
|
similarity | Similarity: |
Typ algoritmu podobnosti, který se má použít při bodování a řazení dokumentů odpovídajících vyhledávacímu dotazu. Algoritmus podobnosti lze definovat pouze při vytváření indexu a nelze ho upravovat u existujících indexů. Pokud má hodnotu null, použije se algoritmus ClassicSimilarity. |
suggesters |
Návrhy indexu. |
|
tokenFilters |
TokenFilter[]:
|
Filtry tokenů pro index. |
tokenizers | LexicalTokenizer[]: |
Tokenizátory indexu. |
vectorSearch |
Obsahuje možnosti konfigurace související s vektorové vyhledávání. |
SearchIndexerDataNoneIdentity
Vymaže vlastnost identity zdroje dat.
Name | Typ | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ identity. |
SearchIndexerDataUserAssignedIdentity
Určuje identitu zdroje dat, která se má použít.
Name | Typ | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ identity. |
userAssignedIdentity |
string |
Plně kvalifikované ID prostředku Azure spravované identity přiřazené uživatelem obvykle ve formátu /subscriptions/12345678-1234-1234-1234-1234-1234567890ab/resourceGroups/rg/providers/Microsoft.ManagedIdentity/userAssignedIdentities/myId, které by měly být přiřazeny vyhledávací službě. |
SearchResourceEncryptionKey
Šifrovací klíč spravovaný zákazníkem ve službě Azure Key Vault. Klíče, které vytvoříte a spravujete, se dají použít k šifrování nebo dešifrování neaktivních uložených dat, jako jsou indexy a mapy synonym.
Name | Typ | Description |
---|---|---|
accessCredentials |
Volitelné přihlašovací údaje Azure Active Directory používané pro přístup ke službě Azure Key Vault. Nevyžaduje se, pokud místo toho používáte spravovanou identitu. |
|
keyVaultKeyName |
string |
Název klíče služby Azure Key Vault, který se má použít k šifrování neaktivních uložených dat. |
keyVaultKeyVersion |
string |
Verze klíče služby Azure Key Vault, která se má použít k šifrování neaktivních uložených dat. |
keyVaultUri |
string |
Identifikátor URI služby Azure Key Vault, označovaný také jako název DNS, který obsahuje klíč, který se má použít k šifrování neaktivních uložených dat. Příkladem identifikátoru URI může být |
SemanticConfiguration
Definuje konkrétní konfiguraci, která se má použít v kontextu sémantických funkcí.
Name | Typ | Description |
---|---|---|
name |
string |
Název sémantické konfigurace. |
prioritizedFields |
Popisuje pole názvu, obsahu a klíčových slov, která se mají použít pro sémantické řazení, titulky, zvýraznění a odpovědi. Je potřeba nastavit aspoň jednu ze tří dílčích vlastností (titleField, prioritizedKeywordsFields a prioritizedContentFields). |
SemanticField
Pole, které se používá jako součást sémantické konfigurace.
Name | Typ | Description |
---|---|---|
fieldName |
string |
SemanticSettings
Definuje parametry indexu vyhledávání, které ovlivňují sémantické schopnosti.
Name | Typ | Description |
---|---|---|
configurations |
Sémantické konfigurace indexu. |
|
defaultConfiguration |
string |
Umožňuje nastavit název výchozí sémantické konfigurace v indexu, takže je volitelný předat jako parametr dotazu pokaždé. |
ShingleTokenFilter
Vytvoří kombinace tokenů jako jeden token. Tento filtr tokenu se implementuje pomocí Apache Lucene.
Name | Typ | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ filtru tokenu. |
|
filterToken |
string |
_ |
Řetězec, který se má vložit pro každou pozici, ve které není token. Výchozí hodnota je podtržítko (_). |
maxShingleSize |
integer |
2 |
Maximální velikost shingle. Výchozí a minimální hodnota je 2. |
minShingleSize |
integer |
2 |
Minimální velikost shingle. Výchozí a minimální hodnota je 2. Musí být menší než hodnota maxShingleSize. |
name |
string |
Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků. |
|
outputUnigrams |
boolean |
True |
Hodnota označující, zda výstupní datový proud bude obsahovat vstupní tokeny (jednogramy) a také shingles. Výchozí hodnota je true. |
outputUnigramsIfNoShingles |
boolean |
False |
Hodnota označující, jestli se mají pro tyto časy výstupovat jednogramy, pokud nejsou k dispozici žádné shingles. Tato vlastnost má přednost, pokud je outputUnigrams nastavena na false. Výchozí hodnota je false. |
tokenSeparator |
string |
Řetězec, který se má použít při připojování sousedních tokenů k vytvoření shingle. Výchozí hodnota je jedna mezera (" "). |
SnowballTokenFilter
Filtr, který vychází ze slov pomocí vygenerovaného smyšlí snowballu. Tento filtr tokenu se implementuje pomocí Apache Lucene.
Name | Typ | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ filtru tokenu. |
language |
Jazyk, který se má použít. |
|
name |
string |
Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků. |
SnowballTokenFilterLanguage
Jazyk, který se má použít pro filtr tokenů Snowball.
Name | Typ | Description |
---|---|---|
armenian |
string |
Vybere Lucene Snowball stemming tokenizer pro Arménské. |
basque |
string |
Vybere Lucene Snowball stemming tokenizer pro Baskičtina. |
catalan |
string |
Vybere Lucene Snowball stemming tokenizer pro katalánštinu. |
danish |
string |
Vybere Lucene Snowball tokenizátor pro dánštinu. |
dutch |
string |
Vybere Lucene Snowball stemming tokenizer pro nizozemštinu. |
english |
string |
Vybere Lucene Snowball tokenizátor pro angličtinu. |
finnish |
string |
Vybere Lucene Snowball tokenizátor pro finštinu. |
french |
string |
Vybere Lucene Snowball tokenizátor pro francouzštinu. |
german |
string |
Vybere Lucene Snowball tokenizátor pro němčinu. |
german2 |
string |
Vybere tokenizátor Lucene Snowball, který používá německý variantní algoritmus. |
hungarian |
string |
Vybere Lucene Snowball tokenizátor pro maďarštinu. |
italian |
string |
Vybere Lucene Snowball tokenizátor pro italštinu. |
kp |
string |
Vybere lucene Snowball stemming tokenizátor pro holandštinu, který používá Kraaij-Pohlmann stemming algoritmu. |
lovins |
string |
Vybere lucene Snowball stemming tokenizer pro angličtinu, která používá Lovins stemming algoritmus. |
norwegian |
string |
Vybere Lucene Snowball tokenizátor pro norštinu. |
porter |
string |
Vybere lucene Snowball stemming tokenizer pro angličtinu, která používá Porter stemming algoritmu. |
portuguese |
string |
Vybere Lucene Snowball stemming tokenizer pro portugalštinu. |
romanian |
string |
Vybere Lucene Snowball stemming tokenizer pro rumunštinu. |
russian |
string |
Vybere Lucene Snowball stemming tokenizer pro ruštinu. |
spanish |
string |
Vybere Lucene Snowball tokenizátor pro španělštinu. |
swedish |
string |
Vybere Lucene Snowball stemming tokenizer pro švédštinu. |
turkish |
string |
Vybere Lucene Snowball stemming tokenizer pro turečtinu. |
StemmerOverrideTokenFilter
Poskytuje možnost přepsat další stemmingové filtry pomocí vlastních slovníkových stemmingů. Všechny termíny založené na slovníku budou označeny jako klíčová slova, aby se nezvolily pomocí stemmerů v řetězci. Musí být umístěny před všemi filtry pro vytváření. Tento filtr tokenu se implementuje pomocí Apache Lucene.
Name | Typ | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ filtru tokenu. |
name |
string |
Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků. |
rules |
string[] |
Seznam pravidel stemmingu v následujícím formátu: "word => stem", například: "ran => run". |
StemmerTokenFilter
Filtr pro konkrétní jazyk. Tento filtr tokenu se implementuje pomocí Apache Lucene.
Name | Typ | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ filtru tokenu. |
language |
Jazyk, který se má použít. |
|
name |
string |
Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků. |
StemmerTokenFilterLanguage
Jazyk, který se má použít pro filtr tokenů stemmeru.
Name | Typ | Description |
---|---|---|
arabic |
string |
Vybere tokenizátor lucene pro arabštinu. |
armenian |
string |
Vybere tokenizátor Lucene pro Arméni. |
basque |
string |
Vybere tokenizátor lucene pro baskičtina. |
brazilian |
string |
Vybere tokenizátor lucene stemming pro portugalštinu (Brazílie). |
bulgarian |
string |
Vybere lucene stemming tokenizer pro bulharštinu. |
catalan |
string |
Vybere tokenizátor lucene pro katalánštinu. |
czech |
string |
Vybere lucene stemming tokenizátor pro češtinu. |
danish |
string |
Vybere tokenizátor lucene pro dánštinu. |
dutch |
string |
Vybere tokenizátor lucene pro nizozemštinu. |
dutchKp |
string |
Vybere tokenizátor lucene stemming pro holandštinu, který používá Kraaij-Pohlmann stemming algoritmu. |
english |
string |
Vybere tokenizátor lucene pro angličtinu. |
finnish |
string |
Vybere tokenizátor lucene pro finštinu. |
french |
string |
Vybere tokenizátor lucene pro francouzštinu. |
galician |
string |
Vybere lucene stemming tokenizátor pro Galicijštinu. |
german |
string |
Vybere tokenizátor lucene pro němčinu. |
german2 |
string |
Vybere tokenizátor lucene stemming, který používá německý variantní algoritmus. |
greek |
string |
Vybere tokenizátor lucene pro řečtinu. |
hindi |
string |
Vybere tokenizátor lucene pro hindštinu. |
hungarian |
string |
Vybere tokenizátor lucene pro maďarštinu. |
indonesian |
string |
Vybere tokenizátor lucene stemming pro indonéštinu. |
irish |
string |
Vybere tokenizátor Lucene pro irštinu. |
italian |
string |
Vybere tokenizátor Lucene pro italštinu. |
latvian |
string |
Vybere tokenizátor lucene stemming pro lotyštinu. |
lightEnglish |
string |
Vybere tokenizátor lucene stemming pro angličtinu, který dělá světlo stemming. |
lightFinnish |
string |
Vybere tokenizátor lucene stemming pro finštinu, který dělá lehké stemming. |
lightFrench |
string |
Vybere tokenizátor lucene stemming pro francouzštinu, který dělá lehké stemming. |
lightGerman |
string |
Vybere tokenizátor lucene stemming pro němčinu, který dělá světlo stemming. |
lightHungarian |
string |
Vybere lucene stemming tokenizer pro maďarštinu, která dělá lehké stemming. |
lightItalian |
string |
Vybere lucene stemming tokenizátor pro italštinu, který dělá světlé stemming. |
lightNorwegian |
string |
Vybere tokenizátor Lucene stemming pro norštinu (Bokmål), který dělá světlé stemming. |
lightNynorsk |
string |
Vybere tokenizátor lucene stemming pro norštinu (Nynorsk), který dělá světlo stemming. |
lightPortuguese |
string |
Vybere lucene stemming tokenizer pro portugalštinu, která dělá světlo stemming. |
lightRussian |
string |
Vybere lucene stemming tokenizer pro Ruštinu, která dělá světlo stemming. |
lightSpanish |
string |
Vybere tokenizátor lucene stemming pro španělštinu, který dělá světlé stemming. |
lightSwedish |
string |
Vybere tokenizátor lucene stemming pro švédštinu, která dělá lehké stemming. |
lovins |
string |
Vybere tokenizátor lucene stemming pro angličtinu, který používá Lovins stemming algoritmus. |
minimalEnglish |
string |
Vybere tokenizátor lucene stemming pro angličtinu, který dělá minimální stemming. |
minimalFrench |
string |
Vybere tokenizátor lucene stemming pro francouzštinu, který dělá minimální stemming. |
minimalGalician |
string |
Vybere tokenizátor Lucene stemming pro Galicijštinu, který dělá minimální stemming. |
minimalGerman |
string |
Vybere tokenizátor lucene stemming pro němčinu, který dělá minimální stemming. |
minimalNorwegian |
string |
Vybere tokenizátor Lucene stemming pro norštinu (Bokmål), který dělá minimální stemming. |
minimalNynorsk |
string |
Vybere tokenizátor lucene stemming pro norštinu (Nynorsk), který dělá minimální stemming. |
minimalPortuguese |
string |
Vybere tokenizátor lucene stemming pro portugalštinu, který dělá minimální stemming. |
norwegian |
string |
Vybere tokenizátor lucene pro norštinu (Bokmål). |
porter2 |
string |
Vybere tokenizátor lucene stemming pro angličtinu, který používá algoritmus vytváření porter2. |
portuguese |
string |
Vybere tokenizátor lucene stemming pro portugalštinu. |
portugueseRslp |
string |
Vybere tokenizátor lucene stemming pro portugalštinu, který používá algoritmus rsLP stemming. |
possessiveEnglish |
string |
Vybere tokenizátor lucene stemming pro angličtinu, který odebere koncové přivlastňovací výrazy ze slov. |
romanian |
string |
Vybere lucene stemming tokenizer pro rumunštinu. |
russian |
string |
Vybere tokenizátor Lucene pro ruštinu. |
sorani |
string |
Vybere tokenizátor lucene pro Sorani. |
spanish |
string |
Vybere tokenizátor lucene pro španělštinu. |
swedish |
string |
Vybere tokenizátor lucene pro švédštinu. |
turkish |
string |
Vybere tokenizátor lucene pro turečtinu. |
StopAnalyzer
Rozdělí text bez písmen; Použije filtry tokenů s malými písmeny a stopword. Tento analyzátor se implementuje pomocí Apache Lucene.
Name | Typ | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ analyzátoru. |
name |
string |
Název analyzátoru. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků. |
stopwords |
string[] |
Seznam stoper. |
StopwordsList
Identifikuje předdefinovaný seznam stop slov specifických pro jazyk.
Name | Typ | Description |
---|---|---|
arabic |
string |
Vybere seznam zarážek pro arabštinu. |
armenian |
string |
Vybere seznam stopword pro Arménii. |
basque |
string |
Vybere seznam stopword pro baskičtina. |
brazilian |
string |
Vybere seznam stopword pro portugalštinu (Brazílie). |
bulgarian |
string |
Vybere seznam stopword pro bulharštinu. |
catalan |
string |
Vybere seznam stopword pro katalánštinu. |
czech |
string |
Vybere seznam stopword pro češtinu. |
danish |
string |
Vybere seznam stopword pro dánštinu. |
dutch |
string |
Vybere seznam stopword pro nizozemštinu. |
english |
string |
Vybere seznam stopword pro angličtinu. |
finnish |
string |
Vybere seznam stopword pro finštinu. |
french |
string |
Vybere seznam stopword pro francouzštinu. |
galician |
string |
Vybere seznam stopek pro Galicijštinu. |
german |
string |
Vybere seznam stopword pro němčinu. |
greek |
string |
Vybere seznam zarážek pro řečtinu. |
hindi |
string |
Vybere seznam stopword pro hindštinu. |
hungarian |
string |
Vybere seznam stopword pro maďarštinu. |
indonesian |
string |
Vybere seznam stopword pro indonézštinu. |
irish |
string |
Vybere seznam stopword pro irštinu. |
italian |
string |
Vybere seznam stopword pro italštinu. |
latvian |
string |
Vybere seznam stopword pro lotyštinu. |
norwegian |
string |
Vybere seznam stopword pro norštinu. |
persian |
string |
Vybere seznam stopword pro Perštinu. |
portuguese |
string |
Vybere seznam stopword pro portugalštinu. |
romanian |
string |
Vybere seznam stopword pro rumunštinu. |
russian |
string |
Vybere seznam stopword pro ruštinu. |
sorani |
string |
Vybere seznam stopword pro Sorani. |
spanish |
string |
Vybere seznam stopword pro španělštinu. |
swedish |
string |
Vybere seznam stopword pro švédštinu. |
thai |
string |
Vybere seznam stopword pro thajštinu. |
turkish |
string |
Vybere seznam stopword pro turečtinu. |
StopwordsTokenFilter
Odebere slova ze streamu tokenu. Tento filtr tokenu se implementuje pomocí Apache Lucene.
Name | Typ | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ filtru tokenu. |
|
ignoreCase |
boolean |
False |
Hodnota označující, zda se má ignorovat malá a velká písmena. Pokud ano, všechna slova se nejprve převedou na malá písmena. Výchozí hodnota je false. |
name |
string |
Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků. |
|
removeTrailing |
boolean |
True |
Hodnota označující, jestli se má poslední hledaný termín ignorovat, pokud se jedná o slovo stop. Výchozí hodnota je true. |
stopwords |
string[] |
Seznam stoper. Tuto vlastnost a vlastnost seznamu stopwords nelze nastavit. |
|
stopwordsList | english |
Předdefinovaný seznam slov, které se mají použít. Tuto vlastnost i vlastnost stopwords nelze nastavit. Výchozí hodnota je angličtina. |
Suggester
Definuje, jak se má rozhraní API navrhnout na skupinu polí v indexu.
Name | Typ | Description |
---|---|---|
name |
string |
Název směšovače. |
searchMode |
Hodnota označující možnosti souzence. |
|
sourceFields |
string[] |
Seznamnázvůch Každé pole musí být prohledávatelné. |
SuggesterSearchMode
Hodnota označující možnosti souzence.
Name | Typ | Description |
---|---|---|
analyzingInfixMatching |
string |
Odpovídá po sobě jdoucím celým termínům a předponám v poli. Například pro pole "Nejrychlejší hnědá liška", dotazy "fast" a "nejrychlejší brow" by se shodovaly. |
SynonymTokenFilter
Porovná jednoslovné nebo víceslovné synonyma v datovém proudu tokenů. Tento filtr tokenu se implementuje pomocí Apache Lucene.
Name | Typ | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ filtru tokenu. |
|
expand |
boolean |
True |
Hodnota označující, zda se všechna slova v seznamu synonym (pokud => notace nepoužívá) se mapují na sebe navzájem. Pokud je pravda, budou se všechna slova v seznamu synonym (pokud => notace nepoužívá) mapovat na sebe navzájem. Následující seznam: neuvěřitelné, neuvěřitelné, úžasné, úžasné, je ekvivalentní: neuvěřitelné, neuvěřitelné, úžasné, úžasné => neuvěřitelné, neuvěřitelné, úžasné, úžasné. Pokud je false, následující seznam: neuvěřitelné, neuvěřitelné, báječné, úžasné bude ekvivalentní: neuvěřitelné, neuvěřitelné, úžasné, úžasné => neuvěřitelné. Výchozí hodnota je true. |
ignoreCase |
boolean |
False |
Hodnota označující, zda se má vstup skládat malá a velká písmena pro porovnávání. Výchozí hodnota je false. |
name |
string |
Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků. |
|
synonyms |
string[] |
Seznam synonym v následujících dvou formátech: 1. neuvěřitelné, neuvěřitelné, báječné => úžasné - všechny termíny na levé straně => symbol budou nahrazeny všemi výrazy na jeho pravé straně; 2. neuvěřitelné, neuvěřitelné, úžasné, úžasné - čárkami oddělený seznam ekvivalentních slov. Nastavte možnost rozbalení a změňte způsob interpretace tohoto seznamu. |
TagScoringFunction
Definuje funkci, která zvyšuje skóre dokumentů s řetězcovými hodnotami odpovídajícími danému seznamu značek.
Name | Typ | Description |
---|---|---|
boost |
number |
Násobitel pro nezpracované skóre. Musí to být kladné číslo, které se nerovná 1,0. |
fieldName |
string |
Název pole použitého jako vstup do funkce bodování. |
interpolation |
Hodnota označující, jak bude zvýšení interpolováno napříč skóre dokumentu; výchozí hodnota je lineární. |
|
tag |
Hodnoty parametrů pro funkci bodování značek. |
|
type |
string:
tag |
Určuje typ funkce, která se má použít. Platné hodnoty zahrnují velikost, aktuálnost, vzdálenost a značku. Typ funkce musí být malé písmeno. |
TagScoringParameters
Poskytuje hodnoty parametrů funkci bodování značek.
Name | Typ | Description |
---|---|---|
tagsParameter |
string |
Název parametru předaného ve vyhledávacích dotazech, který určuje seznam značek, které se mají porovnat s cílovým polem. |
TextWeights
Definuje váhy u polí indexu, u kterých by se mělo zvýšit bodování ve vyhledávacích dotazech.
Name | Typ | Description |
---|---|---|
weights |
object |
Slovník hmotností pro jednotlivá pole pro zvýšení bodování dokumentu. Klíče jsou názvy polí a hodnoty jsou váhy pro každé pole. |
TokenCharacterKind
Představuje třídy znaků, na kterých může fungovat filtr tokenů.
Name | Typ | Description |
---|---|---|
digit |
string |
Uchovává číslice v tokenech. |
letter |
string |
Uchovává písmena v tokenech. |
punctuation |
string |
Udržuje interpunkci v tokenech. |
symbol |
string |
Uchovává symboly v tokenech. |
whitespace |
string |
Udržuje prázdné znaky v tokenech. |
TokenFilterName
Definuje názvy všech filtrů tokenů podporovaných vyhledávacím webem.
TruncateTokenFilter
Zkracuje termíny na určitou délku. Tento filtr tokenu se implementuje pomocí Apache Lucene.
Name | Typ | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ filtru tokenu. |
|
length |
integer |
300 |
Délka termínů bude zkrácena. Výchozí a maximální hodnota je 300. |
name |
string |
Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků. |
UaxUrlEmailTokenizer
Tokenizuje adresy URL a e-maily jako jeden token. Tento tokenizátor se implementuje pomocí Apache Lucene.
Name | Typ | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ tokenizátoru. |
|
maxTokenLength |
integer |
255 |
Maximální délka tokenu. Výchozí hodnota je 255. Tokeny delší než maximální délka jsou rozdělené. Maximální délka tokenu, kterou lze použít, je 300 znaků. |
name |
string |
Název tokenizátoru. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků. |
UniqueTokenFilter
Vyfiltruje tokeny se stejným textem jako předchozí token. Tento filtr tokenu se implementuje pomocí Apache Lucene.
Name | Typ | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ filtru tokenu. |
|
name |
string |
Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků. |
|
onlyOnSamePosition |
boolean |
False |
Hodnota označující, zda chcete odebrat duplicity pouze na stejné pozici. Výchozí hodnota je false. |
VectorEncodingFormat
Formát kódování pro interpretaci obsahu vektorového pole.
Name | Typ | Description |
---|---|---|
packedBit |
string |
Formát kódování představující bity zabalené do širšího datového typu |
VectorSearch
Obsahuje možnosti konfigurace související s vektorové vyhledávání.
Name | Typ | Description |
---|---|---|
algorithms | VectorSearchAlgorithmConfiguration[]: |
Obsahuje možnosti konfigurace specifické pro algoritmus použitý při indexování nebo dotazování. |
compressions | VectorSearchCompressionConfiguration[]: |
Obsahuje možnosti konfigurace specifické pro metodu komprese použitou při indexování nebo dotazování. |
profiles |
Definuje kombinace konfigurací, které se mají použít s vektorovým vyhledáváním. |
|
vectorizers | VectorSearchVectorizer[]: |
Obsahuje možnosti konfigurace, jak vektorizovat textové vektorové dotazy. |
VectorSearchAlgorithmKind
Algoritmus použitý k indexování a dotazování.
Name | Typ | Description |
---|---|---|
exhaustiveKnn |
string |
Vyčerpávající algoritmus KNN, který provede vyhledávání hrubou silou. |
hnsw |
string |
HNSW (Hierarchical Navigable Small World), typ přibližného algoritmu nejbližších sousedů. |
VectorSearchAlgorithmMetric
Metrika podobnosti, která se má použít pro porovnání vektorů. Doporučujeme zvolit stejnou metriku podobnosti, na které byl model vkládání trénován.
Name | Typ | Description |
---|---|---|
cosine |
string |
Měří úhel mezi vektory a kvantifikuje jejich podobnost a ignoruje velikost. Čím menší úhel, tím blíže je podobnost. |
dotProduct |
string |
Vypočítá součet produktů moudrých prvků k měření zarovnání a velikosti podobnosti. Čím větší a pozitivnější, tím blíže je podobnost. |
euclidean |
string |
Vypočítá přímočarou vzdálenost mezi vektory v multidimenzionálním prostoru. Čím menší je vzdálenost, tím blíže je podobnost. |
hamming |
string |
Platí pouze pro bitové binární datové typy. Určuje rozdílnost počítáním různých pozic v binárních vektorech. Čím méně rozdílů, tím blíže je podobnost. |
VectorSearchCompressionKind
Metoda komprese použitá k indexování a dotazování.
Name | Typ | Description |
---|---|---|
binaryQuantization |
string |
Binární kvantování, typ metody komprese. V binárním kvantování se hodnoty původních vektorů komprimují na užší binární typ diskretizací a představující každou komponentu vektoru pomocí binárních hodnot, čímž se zmenší celková velikost dat. |
scalarQuantization |
string |
Skalární kvantování, typ metody komprese. V skalárním kvantování se původní hodnoty vektorů komprimují na užší typ diskretizací a představují každou komponentu vektoru pomocí snížené množiny kvantovaných hodnot, čímž se zmenší celková velikost dat. |
VectorSearchCompressionTargetDataType
Kvantovaný datový typ komprimovaných vektorových hodnot.
Name | Typ | Description |
---|---|---|
int8 |
string |
VectorSearchProfile
Definuje kombinaci konfigurací, které se mají použít s vektorovým vyhledáváním.
Name | Typ | Description |
---|---|---|
algorithm |
string |
Název konfigurace algoritmu vektorového vyhledávání, který určuje algoritmus a volitelné parametry. |
compression |
string |
Název konfigurace metody komprese, která určuje metodu komprese a volitelné parametry. |
name |
string |
Název, který chcete přidružit k tomuto konkrétnímu profilu vektorového vyhledávání. |
vectorizer |
string |
Název vektorizace, která se konfiguruje pro použití s vektorovým vyhledáváním. |
VectorSearchVectorizerKind
Metoda vektorizace, která se má použít během dotazu.
Name | Typ | Description |
---|---|---|
azureOpenAI |
string |
Generování vkládání pomocí prostředku Azure OpenAI v době dotazu |
customWebApi |
string |
Generování vkládání pomocí vlastního webového koncového bodu v době dotazu |
WebApiParameters
Určuje vlastnosti pro připojení k vektorizátoru definovanému uživatelem.
Name | Typ | Description |
---|---|---|
authIdentity | SearchIndexerDataIdentity: |
Spravovaná identita přiřazená uživatelem používaná pro odchozí připojení. Pokud je zadaný identifikátor authResourceId a není zadaný, použije se spravovaná identita přiřazená systémem. Při aktualizacích indexeru, pokud není zadána identita, zůstane hodnota beze změny. Pokud je nastavena hodnota none, hodnota této vlastnosti je vymazána. |
authResourceId |
string |
Platí pro vlastní koncové body, které se připojují k externímu kódu ve funkci Azure nebo v jiné aplikaci poskytující transformace. Tato hodnota by měla být ID aplikace vytvořené pro funkci nebo aplikaci při registraci v Azure Active Directory. Při zadání se vektorizace připojí k funkci nebo aplikaci pomocí spravovaného ID (systému nebo přiřazeného uživatelem) vyhledávací služby a přístupového tokenu funkce nebo aplikace. Tato hodnota se použije jako ID prostředku pro vytvoření oboru přístupového tokenu. |
httpHeaders |
object |
Hlavičky vyžadované k provedení požadavku HTTP. |
httpMethod |
string |
Metoda požadavku HTTP. |
timeout |
string |
Požadovaný časový limit požadavku Výchozí hodnota je 30 sekund. |
uri |
string |
Identifikátor URI webového rozhraní API poskytující vektorizátor. |
WebApiVectorizer
Určuje vektorizátor definovaný uživatelem pro generování vektorového vkládání řetězce dotazu. Integrace externí vektorizátoru se dosahuje pomocí vlastního rozhraní webového rozhraní API sady dovedností.
Name | Typ | Description |
---|---|---|
customWebApiParameters |
Určuje vlastnosti vektorizátoru definovaného uživatelem. |
|
kind |
string:
custom |
Název metody vektorizace, která se konfiguruje pro použití s vektorovým vyhledáváním. |
name |
string |
Název, který chcete přidružit k této konkrétní metodě vektorizace. |
WordDelimiterTokenFilter
Rozdělí slova do dílčích slov a provede volitelné transformace skupin podwordů. Tento filtr tokenu se implementuje pomocí Apache Lucene.
Name | Typ | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ filtru tokenu. |
|
catenateAll |
boolean |
False |
Hodnota označující, zda budou všechny části podwordu catenated. Pokud je například nastavená hodnota true, azure-Search-1 se změní na AzureSearch1. Výchozí hodnota je false. |
catenateNumbers |
boolean |
False |
Hodnota označující, zda budou maximální spuštění číselných částí catenated. Pokud je například nastavená hodnota true, "1-2" se změní na "12". Výchozí hodnota je false. |
catenateWords |
boolean |
False |
Hodnota označující, zda bude maximální počet spuštění částí slova catenated. Pokud je například nastavená hodnota true, azure-Search se změní na AzureSearch. Výchozí hodnota je false. |
generateNumberParts |
boolean |
True |
Hodnota označující, zda se mají generovat podsložky čísel. Výchozí hodnota je true. |
generateWordParts |
boolean |
True |
Hodnota označující, zda se mají generovat slova částí. Pokud je nastavena, způsobí vygenerování částí slov; Například "AzureSearch" se stane "Azure" "Search". Výchozí hodnota je true. |
name |
string |
Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků. |
|
preserveOriginal |
boolean |
False |
Hodnota označující, zda se původní slova zachovají a přidají do seznamu podwordů. Výchozí hodnota je false. |
protectedWords |
string[] |
Seznam tokenů, které chcete chránit před oddělovači. |
|
splitOnCaseChange |
boolean |
True |
Hodnota označující, zda chcete rozdělit slova v caseChange. Pokud je například nastavená hodnota true, "AzureSearch" se stane "Azure" "Search". Výchozí hodnota je true. |
splitOnNumerics |
boolean |
True |
Hodnota označující, zda se má rozdělit na čísla. Pokud je například nastavená hodnota true, azure1Search se stane "Azure" "1" "Search". Výchozí hodnota je true. |
stemEnglishPossessive |
boolean |
True |
Hodnota označující, zda se má odebrat koncové slovo "'s" pro každý podword. Výchozí hodnota je true. |