Formatos de dados aceitos pela compreensão da linguagem coloquial

Se você estiver carregando seus dados na compreensão da linguagem coloquial, ele precisará seguir um formato específico. Use este artigo para saber mais sobre os formatos de dados aceitos.

Importar formato de arquivo de projeto

Se você estiver importando um projeto para a compreensão da linguagem coloquial, o arquivo carregado precisará estar no seguinte formato:

{
  "projectFileVersion": "2022-10-01-preview",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "Conversation",
    "projectName": "{PROJECT-NAME}",
    "multilingual": true,
    "description": "DESCRIPTION",
    "language": "{LANGUAGE-CODE}",
    "settings": {
            "confidenceThreshold": 0
        }
  },
  "assets": {
    "projectKind": "Conversation",
    "intents": [
      {
        "category": "intent1"
      }
    ],
    "entities": [
      {
        "category": "entity1",
        "compositionSetting": "{COMPOSITION-SETTING}",
        "list": {
          "sublists": [
            {
              "listKey": "list1",
              "synonyms": [
                {
                  "language": "{LANGUAGE-CODE}",
                  "values": [
                    "{VALUES-FOR-LIST}"
                  ]
                }
              ]
            }            
          ]
        },
        "prebuilts": [
          {
            "category": "{PREBUILT-COMPONENTS}"
          }
        ],
        "regex": {
          "expressions": [
              {
                  "regexKey": "regex1",
                  "language": "{LANGUAGE-CODE}",
                  "regexPattern": "{REGEX-PATTERN}"
              }
          ]
        },
        "requiredComponents": [
            "{REQUIRED-COMPONENTS}"
        ]
      }
    ],
    "utterances": [
      {
        "text": "utterance1",
        "intent": "intent1",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "category": "ENTITY1",
            "offset": 6,
            "length": 4
          }
        ]
      }
    ]
  }
}

Chave Espaço reservado Valor Exemplo
{API-VERSION} A versão da API que você está chamando. 2023-04-01
confidenceThreshold {CONFIDENCE-THRESHOLD} Abaixo desta pontuação limite, a intenção é prevista como Nenhuma intenção. Os valores vão de 0 a 1. 0.7
projectName {PROJECT-NAME} O nome do seu projeto. Esse valor diferencia maiúsculas de minúsculas. EmailApp
multilingual true Um valor booliano que permite que você tenha enunciados em vários idiomas no seu conjunto de dados. Quando o modelo é implantado, você pode consultar o modelo em qualquer idioma com suporte (não necessariamente incluído em seus documentos de treinamento). Para obter mais informações sobre códigos de idioma com suporte, confira Suporte de idioma. true
sublists [] Matriz que contém sublistas. Cada sublista é uma chave e os valores associados. []
compositionSetting {COMPOSITION-SETTING} Regra que define como gerenciar vários componentes na entidade. As opções são combineComponents ou separateComponents. combineComponents
synonyms [] Matriz que contém todos os sinônimos. sinônimo
language {LANGUAGE-CODE} Uma cadeia de caracteres que especifica o código de idioma dos enunciados, das expressões regulares e dos sinônimos usados no projeto. Se o projeto for multilíngue, escolha o código de idioma da maioria dos enunciados. en-us
intents [] Matriz que contém todas as intenções que você tem no projeto. Essas intenções são classificadas com base nos seus enunciados. []
entities [] Matriz que contém todas as entidades do seu projeto. Essas entidades são extraídas dos seus enunciados. Cada entidade pode ter outros componentes opcionais definidos: lista, predefinido ou regex. []
dataset {DATASET} O conjunto de teste para o qual esse enunciado será exibido, quando ele é dividido antes do treinamento. Para saber mais sobre a divisão de dados, confira Treinar seu modelo da compreensão da linguagem coloquial. Os valores possíveis para esse campo são Train e Test. Train
category O tipo de entidade associada ao intervalo de texto especificado. Entity1
offset A posição inclusiva de caractere do início da entidade. 5
length O comprimento de caracteres da entidade. 5
listKey Um valor normalizado para a lista de sinônimos a serem mapeados novamente na previsão. Microsoft
values {VALUES-FOR-LIST} Uma lista de cadeias de caracteres separadas por vírgula que têm uma correspondência exata para extração e são mapeadas para a chave de lista. "msft", "microsoft", "MS"
regexKey {REGEX-PATTERN} Um valor normalizado para a expressão regular a ser mapeada para a previsão. ProductPattern1
regexPattern {REGEX-PATTERN} uma expressão regular. ^pre
prebuilts {PREBUILT-COMPONENTS} Os componentes predefinidos que podem extrair tipos comuns. Para obter a lista de predefinições que você pode adicionar, confira Componentes de entidade predefinidos com suporte. Quantity.Number
requiredComponents {REQUIRED-COMPONENTS} Uma configuração que especifica um requisito de que um componente específico precise esteja presente para retornar a entidade. Para saber mais, confira Componentes da entidade. Os valores possíveis são learned, regex, list ou prebuilts. "learned", "prebuilt"

Formato de arquivo do enunciado

A compreensão da linguagem coloquial oferece a opção de carregar seus enunciados diretamente no projeto, em vez de digitá-los um a um. Encontre essa opção na página Rotulagem de dados do projeto.

[
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 19,
                "length": 10
            }
        ]
    },
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 20,
                "length": 10
            },
            {
                "category": "{entity}",
                "offset": 31,
                "length": 5
            }
        ]
    }
]

Chave Espaço reservado Valor Exemplo
text {Utterance-Text} O texto do seu enunciado. Testando
language {LANGUAGE-CODE} Uma cadeia de caracteres que especifica o código de idioma dos enunciados usados no projeto. Se o projeto for multilíngue, escolha o código de idioma da maioria dos enunciados. Para obter mais informações sobre códigos de idioma com suporte, confira Suporte de idioma. en-us
dataset {DATASET} O conjunto de teste para o qual esse enunciado será exibido, quando ele é dividido antes do treinamento. Para saber mais sobre a divisão de dados, confira Treinar seu modelo da compreensão da linguagem coloquial. Os valores possíveis para esse campo são Train e Test. Train
intent {intent} A intenção atribuída. intent1
entity {entity} A entidade a ser extraída. entity1
category O tipo de entidade associada ao intervalo de texto especificado. Entity1
offset A posição inclusiva de caractere do início do texto. 0
length O tamanho da caixa delimitadora em termos de caracteres UTF-16. O treinamento só considera os dados nessa região. 500