Formati di dati accettati dalla comprensione del linguaggio di conversazione
Se si stanno caricando i dati in comprensione del linguaggio di conversazione, sarà necessario seguire un formato specifico. Usare questo articolo per scoprire di più sui formati di dati accettati.
Importare il formato del file di progetto
Se si sta importando un progetto in comprensione del linguaggio di conversazione, il file caricato deve essere nel formato seguente:
{
"projectFileVersion": "2022-10-01-preview",
"stringIndexType": "Utf16CodeUnit",
"metadata": {
"projectKind": "Conversation",
"projectName": "{PROJECT-NAME}",
"multilingual": true,
"description": "DESCRIPTION",
"language": "{LANGUAGE-CODE}",
"settings": {
"confidenceThreshold": 0
}
},
"assets": {
"projectKind": "Conversation",
"intents": [
{
"category": "intent1"
}
],
"entities": [
{
"category": "entity1",
"compositionSetting": "{COMPOSITION-SETTING}",
"list": {
"sublists": [
{
"listKey": "list1",
"synonyms": [
{
"language": "{LANGUAGE-CODE}",
"values": [
"{VALUES-FOR-LIST}"
]
}
]
}
]
},
"prebuilts": [
{
"category": "{PREBUILT-COMPONENTS}"
}
],
"regex": {
"expressions": [
{
"regexKey": "regex1",
"language": "{LANGUAGE-CODE}",
"regexPattern": "{REGEX-PATTERN}"
}
]
},
"requiredComponents": [
"{REQUIRED-COMPONENTS}"
]
}
],
"utterances": [
{
"text": "utterance1",
"intent": "intent1",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"category": "ENTITY1",
"offset": 6,
"length": 4
}
]
}
]
}
}
Chiave | Segnaposto | Valore | Esempio |
---|---|---|---|
{API-VERSION} |
La versione dell'API che viene richiamata. | 2023-04-01 |
|
confidenceThreshold |
{CONFIDENCE-THRESHOLD} |
Si tratta del punteggio di soglia al di sotto del quale l'intento viene stimato come Nessun intento. I valori vanno da 0 a 1 . |
0.7 |
projectName |
{PROJECT-NAME} |
Il nome del progetto. Per questo valore viene applicata la distinzione tra maiuscole e minuscole. | EmailApp |
multilingual |
true |
Valore booleano che consente di avere espressioni in diversi linguaggi nel set di dati. Quando il modello viene distribuito, è possibile eseguire query sul linguaggio supportato (non necessariamente inclusi nei documenti di training). Per altre informazioni sui codici della lingua supportati, vedere Supporto linguistico. | true |
sublists |
[] |
Matrice contenente elenchi secondari. Ogni elenco secondario è una chiave con i relativi valori associati. | [] |
compositionSetting |
{COMPOSITION-SETTING} |
Regola che definisce come gestire più componenti nell'entità. Le opzioni disponibili sono combineComponents o separateComponents . |
combineComponents |
synonyms |
[] |
Matrice contenente tutti i sinonimi. | sinonimo |
language |
{LANGUAGE-CODE} |
Una stringa che specifica il codice lingua per le espressioni,i sinonimi e le espressioni regolari usate nel progetto. Se il progetto è un progetto multilingue, scegliere il codice della lingua della maggior parte delle espressioni. | en-us |
intents |
[] |
Matrice contenente tutti gli intenti del progetto. Questi intenti vengono classificati dalle espressioni. | [] |
entities |
[] |
Matrice contenente tutte le entità nel progetto. Queste entità vengono estratte dalle espressioni. Ogni entità può comprendere altri componenti facoltativi definiti: elenco, predefinito o regex. | [] |
dataset |
{DATASET} |
Il set di test a cui verrà sottoposta questa espressione quando verrà separata prima del training. Per scoprire di più sulla separazione dei dati, vedere Eseguire il training del modello di comprensione del linguaggio di conversazione. I valori possibili per questo campo sono Train e Test . |
Train |
category |
|
Il tipo di entità associata all'intervallo di testo specificato. | Entity1 |
offset |
|
La posizione del carattere inclusivo dell'inizio dell'entità. | 5 |
length |
|
La lunghezza in caratteri dell'entità. | 5 |
listKey |
|
Un valore normalizzato per l'elenco di sinonimi a cui eseguire il mapping nella stima. | Microsoft |
values |
{VALUES-FOR-LIST} |
Un elenco di stringhe separate da virgole che corrisponde perfettamente per l'estrazione e il mapping alla chiave dell’elenco. | "msft", "microsoft", "MS" |
regexKey |
{REGEX-PATTERN} |
Un valore normalizzato per l'espressione regolare a cui eseguire il mapping nella stima. | ProductPattern1 |
regexPattern |
{REGEX-PATTERN} |
un'espressione regolare. | ^pre |
prebuilts |
{PREBUILT-COMPONENTS} |
I componenti predefiniti che possono estrarre tipi comuni. Per un elenco dei componenti predefiniti che è possibile aggiungere, vedere Componenti delle entità predefiniti supportati. | Quantity.Number |
requiredComponents |
{REQUIRED-COMPONENTS} |
Impostazione che specifica un requisito secondo cui deve essere presente un componente specifico per restituire l'entità. Per altre informazioni, vedere Componenti delle entità. I valori possibili sono learned , regex , list o prebuilts . |
"learned", "prebuilt" |
Formato del file di espressione
La comprensione del linguaggio di conversazione offre la possibilità di caricare le espressioni direttamente nel progetto anziché digitarle una alla volta. È possibile trovare questa opzione nella pagina di etichettatura dei dati per il progetto.
[
{
"text": "{Utterance-Text}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"intent": "{intent}",
"entities": [
{
"category": "{entity}",
"offset": 19,
"length": 10
}
]
},
{
"text": "{Utterance-Text}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"intent": "{intent}",
"entities": [
{
"category": "{entity}",
"offset": 20,
"length": 10
},
{
"category": "{entity}",
"offset": 31,
"length": 5
}
]
}
]
Chiave | Segnaposto | Valore | Esempio |
---|---|---|---|
text |
{Utterance-Text} |
Il testo dell'espressione. | Test |
language |
{LANGUAGE-CODE} |
Una stringa che specifica il codice della lingua per le espressioni usate nel progetto. Se il progetto è un progetto multilingue, scegliere il codice della lingua della maggior parte delle espressioni. Per altre informazioni sui codici della lingua supportati, vedere Supporto linguistico. | en-us |
dataset |
{DATASET} |
Il set di test a cui verrà sottoposta questa espressione quando verrà separata prima del training. Per scoprire di più sulla separazione dei dati, vedere Eseguire il training del modello di comprensione del linguaggio di conversazione. I valori possibili per questo campo sono Train e Test . |
Train |
intent |
{intent} |
L'intento assegnato. | intent1 |
entity |
{entity} |
L'entità da estrarre. | entity1 |
category |
|
Il tipo di entità associata all'intervallo di testo specificato. | Entity1 |
offset |
|
La posizione del carattere inclusivo dell'inizio del testo. | 0 |
length |
|
La lunghezza del rettangolo di selezione in termini di caratteri UTF16. Il training considera solo i dati in quest’area. | 500 |
Contenuto correlato
- Per altre informazioni sull'importazione dei dati etichettati direttamente nel progetto, vedere Importare progetto.
- Per altre informazioni sull'assegnazione di un'etichetta ai dati, vedere Assegnare un'etichetta alle espressioni in Language Studio. Dopo aver assegnato un'etichetta ai dati, è possibile eseguire il training del modello.