Formati di dati accettati dalla comprensione del linguaggio di conversazione

Se si stanno caricando i dati in comprensione del linguaggio di conversazione, sarà necessario seguire un formato specifico. Usare questo articolo per scoprire di più sui formati di dati accettati.

Importare il formato del file di progetto

Se si sta importando un progetto in comprensione del linguaggio di conversazione, il file caricato deve essere nel formato seguente:

{
  "projectFileVersion": "2022-10-01-preview",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "Conversation",
    "projectName": "{PROJECT-NAME}",
    "multilingual": true,
    "description": "DESCRIPTION",
    "language": "{LANGUAGE-CODE}",
    "settings": {
            "confidenceThreshold": 0
        }
  },
  "assets": {
    "projectKind": "Conversation",
    "intents": [
      {
        "category": "intent1"
      }
    ],
    "entities": [
      {
        "category": "entity1",
        "compositionSetting": "{COMPOSITION-SETTING}",
        "list": {
          "sublists": [
            {
              "listKey": "list1",
              "synonyms": [
                {
                  "language": "{LANGUAGE-CODE}",
                  "values": [
                    "{VALUES-FOR-LIST}"
                  ]
                }
              ]
            }            
          ]
        },
        "prebuilts": [
          {
            "category": "{PREBUILT-COMPONENTS}"
          }
        ],
        "regex": {
          "expressions": [
              {
                  "regexKey": "regex1",
                  "language": "{LANGUAGE-CODE}",
                  "regexPattern": "{REGEX-PATTERN}"
              }
          ]
        },
        "requiredComponents": [
            "{REQUIRED-COMPONENTS}"
        ]
      }
    ],
    "utterances": [
      {
        "text": "utterance1",
        "intent": "intent1",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "category": "ENTITY1",
            "offset": 6,
            "length": 4
          }
        ]
      }
    ]
  }
}

Chiave Segnaposto Valore Esempio
{API-VERSION} La versione dell'API che viene richiamata. 2023-04-01
confidenceThreshold {CONFIDENCE-THRESHOLD} Si tratta del punteggio di soglia al di sotto del quale l'intento viene stimato come Nessun intento. I valori vanno da 0 a 1. 0.7
projectName {PROJECT-NAME} Il nome del progetto. Per questo valore viene applicata la distinzione tra maiuscole e minuscole. EmailApp
multilingual true Valore booleano che consente di avere espressioni in diversi linguaggi nel set di dati. Quando il modello viene distribuito, è possibile eseguire query sul linguaggio supportato (non necessariamente inclusi nei documenti di training). Per altre informazioni sui codici della lingua supportati, vedere Supporto linguistico. true
sublists [] Matrice contenente elenchi secondari. Ogni elenco secondario è una chiave con i relativi valori associati. []
compositionSetting {COMPOSITION-SETTING} Regola che definisce come gestire più componenti nell'entità. Le opzioni disponibili sono combineComponents o separateComponents. combineComponents
synonyms [] Matrice contenente tutti i sinonimi. sinonimo
language {LANGUAGE-CODE} Una stringa che specifica il codice lingua per le espressioni,i sinonimi e le espressioni regolari usate nel progetto. Se il progetto è un progetto multilingue, scegliere il codice della lingua della maggior parte delle espressioni. en-us
intents [] Matrice contenente tutti gli intenti del progetto. Questi intenti vengono classificati dalle espressioni. []
entities [] Matrice contenente tutte le entità nel progetto. Queste entità vengono estratte dalle espressioni. Ogni entità può comprendere altri componenti facoltativi definiti: elenco, predefinito o regex. []
dataset {DATASET} Il set di test a cui verrà sottoposta questa espressione quando verrà separata prima del training. Per scoprire di più sulla separazione dei dati, vedere Eseguire il training del modello di comprensione del linguaggio di conversazione. I valori possibili per questo campo sono Train e Test. Train
category Il tipo di entità associata all'intervallo di testo specificato. Entity1
offset La posizione del carattere inclusivo dell'inizio dell'entità. 5
length La lunghezza in caratteri dell'entità. 5
listKey Un valore normalizzato per l'elenco di sinonimi a cui eseguire il mapping nella stima. Microsoft
values {VALUES-FOR-LIST} Un elenco di stringhe separate da virgole che corrisponde perfettamente per l'estrazione e il mapping alla chiave dell’elenco. "msft", "microsoft", "MS"
regexKey {REGEX-PATTERN} Un valore normalizzato per l'espressione regolare a cui eseguire il mapping nella stima. ProductPattern1
regexPattern {REGEX-PATTERN} un'espressione regolare. ^pre
prebuilts {PREBUILT-COMPONENTS} I componenti predefiniti che possono estrarre tipi comuni. Per un elenco dei componenti predefiniti che è possibile aggiungere, vedere Componenti delle entità predefiniti supportati. Quantity.Number
requiredComponents {REQUIRED-COMPONENTS} Impostazione che specifica un requisito secondo cui deve essere presente un componente specifico per restituire l'entità. Per altre informazioni, vedere Componenti delle entità. I valori possibili sono learned, regex, list o prebuilts. "learned", "prebuilt"

Formato del file di espressione

La comprensione del linguaggio di conversazione offre la possibilità di caricare le espressioni direttamente nel progetto anziché digitarle una alla volta. È possibile trovare questa opzione nella pagina di etichettatura dei dati per il progetto.

[
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 19,
                "length": 10
            }
        ]
    },
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 20,
                "length": 10
            },
            {
                "category": "{entity}",
                "offset": 31,
                "length": 5
            }
        ]
    }
]

Chiave Segnaposto Valore Esempio
text {Utterance-Text} Il testo dell'espressione. Test
language {LANGUAGE-CODE} Una stringa che specifica il codice della lingua per le espressioni usate nel progetto. Se il progetto è un progetto multilingue, scegliere il codice della lingua della maggior parte delle espressioni. Per altre informazioni sui codici della lingua supportati, vedere Supporto linguistico. en-us
dataset {DATASET} Il set di test a cui verrà sottoposta questa espressione quando verrà separata prima del training. Per scoprire di più sulla separazione dei dati, vedere Eseguire il training del modello di comprensione del linguaggio di conversazione. I valori possibili per questo campo sono Train e Test. Train
intent {intent} L'intento assegnato. intent1
entity {entity} L'entità da estrarre. entity1
category Il tipo di entità associata all'intervallo di testo specificato. Entity1
offset La posizione del carattere inclusivo dell'inizio del testo. 0
length La lunghezza del rettangolo di selezione in termini di caratteri UTF16. Il training considera solo i dati in quest’area. 500