Formatos de dados aceitos pela compreensão da linguagem coloquial

Artigo
09/03/2024

Se você estiver carregando seus dados na compreensão da linguagem coloquial, ele precisará seguir um formato específico. Use este artigo para saber mais sobre os formatos de dados aceitos.

Importar formato de arquivo de projeto

Se você estiver importando um projeto para a compreensão da linguagem coloquial, o arquivo carregado precisará estar no seguinte formato:

{
  "projectFileVersion": "2022-10-01-preview",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "Conversation",
    "projectName": "{PROJECT-NAME}",
    "multilingual": true,
    "description": "DESCRIPTION",
    "language": "{LANGUAGE-CODE}",
    "settings": {
            "confidenceThreshold": 0
        }
  },
  "assets": {
    "projectKind": "Conversation",
    "intents": [
      {
        "category": "intent1"
      }
    ],
    "entities": [
      {
        "category": "entity1",
        "compositionSetting": "{COMPOSITION-SETTING}",
        "list": {
          "sublists": [
            {
              "listKey": "list1",
              "synonyms": [
                {
                  "language": "{LANGUAGE-CODE}",
                  "values": [
                    "{VALUES-FOR-LIST}"
                  ]
                }
              ]
            }            
          ]
        },
        "prebuilts": [
          {
            "category": "{PREBUILT-COMPONENTS}"
          }
        ],
        "regex": {
          "expressions": [
              {
                  "regexKey": "regex1",
                  "language": "{LANGUAGE-CODE}",
                  "regexPattern": "{REGEX-PATTERN}"
              }
          ]
        },
        "requiredComponents": [
            "{REQUIRED-COMPONENTS}"
        ]
      }
    ],
    "utterances": [
      {
        "text": "utterance1",
        "intent": "intent1",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "category": "ENTITY1",
            "offset": 6,
            "length": 4
          }
        ]
      }
    ]
  }
}

Chave	Espaço reservado	Valor	Exemplo
`{API-VERSION}`	A versão da API que você está chamando.	`2023-04-01`
`confidenceThreshold`	`{CONFIDENCE-THRESHOLD}`	Abaixo desta pontuação limite, a intenção é prevista como Nenhuma intenção. Os valores vão de `0` a `1`.	`0.7`
`projectName`	`{PROJECT-NAME}`	O nome do seu projeto. Esse valor diferencia maiúsculas de minúsculas.	`EmailApp`
`multilingual`	`true`	Um valor booliano que permite que você tenha enunciados em vários idiomas no seu conjunto de dados. Quando o modelo é implantado, você pode consultar o modelo em qualquer idioma com suporte (não necessariamente incluído em seus documentos de treinamento). Para obter mais informações sobre códigos de idioma com suporte, confira Suporte de idioma.	`true`
`sublists`	`[]`	Matriz que contém sublistas. Cada sublista é uma chave e os valores associados.	`[]`
`compositionSetting`	`{COMPOSITION-SETTING}`	Regra que define como gerenciar vários componentes na entidade. As opções são `combineComponents` ou `separateComponents`.	`combineComponents`
`synonyms`	`[]`	Matriz que contém todos os sinônimos.	sinônimo
`language`	`{LANGUAGE-CODE}`	Uma cadeia de caracteres que especifica o código de idioma dos enunciados, das expressões regulares e dos sinônimos usados no projeto. Se o projeto for multilíngue, escolha o código de idioma da maioria dos enunciados.	`en-us`
`intents`	`[]`	Matriz que contém todas as intenções que você tem no projeto. Essas intenções são classificadas com base nos seus enunciados.	`[]`
`entities`	`[]`	Matriz que contém todas as entidades do seu projeto. Essas entidades são extraídas dos seus enunciados. Cada entidade pode ter outros componentes opcionais definidos: lista, predefinido ou regex.	`[]`
`dataset`	`{DATASET}`	O conjunto de teste para o qual esse enunciado será exibido, quando ele é dividido antes do treinamento. Para saber mais sobre a divisão de dados, confira Treinar seu modelo da compreensão da linguagem coloquial. Os valores possíveis para esse campo são `Train` e `Test`.	`Train`
`category`		O tipo de entidade associada ao intervalo de texto especificado.	`Entity1`
`offset`		A posição inclusiva de caractere do início da entidade.	`5`
`length`		O comprimento de caracteres da entidade.	`5`
`listKey`		Um valor normalizado para a lista de sinônimos a serem mapeados novamente na previsão.	`Microsoft`
`values`	`{VALUES-FOR-LIST}`	Uma lista de cadeias de caracteres separadas por vírgula que têm uma correspondência exata para extração e são mapeadas para a chave de lista.	`"msft", "microsoft", "MS"`
`regexKey`	`{REGEX-PATTERN}`	Um valor normalizado para a expressão regular a ser mapeada para a previsão.	`ProductPattern1`
`regexPattern`	`{REGEX-PATTERN}`	uma expressão regular.	`^pre`
`prebuilts`	`{PREBUILT-COMPONENTS}`	Os componentes predefinidos que podem extrair tipos comuns. Para obter a lista de predefinições que você pode adicionar, confira Componentes de entidade predefinidos com suporte.	`Quantity.Number`
`requiredComponents`	`{REQUIRED-COMPONENTS}`	Uma configuração que especifica um requisito de que um componente específico precise esteja presente para retornar a entidade. Para saber mais, confira Componentes da entidade. Os valores possíveis são `learned`, `regex`, `list` ou `prebuilts`.	`"learned", "prebuilt"`

Formato de arquivo do enunciado

A compreensão da linguagem coloquial oferece a opção de carregar seus enunciados diretamente no projeto, em vez de digitá-los um a um. Encontre essa opção na página Rotulagem de dados do projeto.

[
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 19,
                "length": 10
            }
        ]
    },
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 20,
                "length": 10
            },
            {
                "category": "{entity}",
                "offset": 31,
                "length": 5
            }
        ]
    }
]

Chave	Espaço reservado	Valor	Exemplo
`text`	`{Utterance-Text}`	O texto do seu enunciado.	Testando
`language`	`{LANGUAGE-CODE}`	Uma cadeia de caracteres que especifica o código de idioma dos enunciados usados no projeto. Se o projeto for multilíngue, escolha o código de idioma da maioria dos enunciados. Para obter mais informações sobre códigos de idioma com suporte, confira Suporte de idioma.	`en-us`
`dataset`	`{DATASET}`	O conjunto de teste para o qual esse enunciado será exibido, quando ele é dividido antes do treinamento. Para saber mais sobre a divisão de dados, confira Treinar seu modelo da compreensão da linguagem coloquial. Os valores possíveis para esse campo são `Train` e `Test`.	`Train`
`intent`	`{intent}`	A intenção atribuída.	intent1
`entity`	`{entity}`	A entidade a ser extraída.	entity1
`category`		O tipo de entidade associada ao intervalo de texto especificado.	`Entity1`
`offset`		A posição inclusiva de caractere do início do texto.	`0`
`length`		O tamanho da caixa delimitadora em termos de caracteres UTF-16. O treinamento só considera os dados nessa região.	`500`

Para obter mais informações sobre como importar seus dados rotulados diretamente para seu projeto, confira Importar projeto.
Para obter mais informações sobre como rotular seus dados, confira Rotular seus enunciados no Language Studio. Depois de rotular seus dados, você pode treinar seu modelo.

Partilhar via

Formatos de dados aceitos pela compreensão da linguagem coloquial

Importar formato de arquivo de projeto

Formato de arquivo do enunciado

Comentários

Recursos adicionais

Partilhar via

Formatos de dados aceitos pela compreensão da linguagem coloquial

Importar formato de arquivo de projeto

Formato de arquivo do enunciado

Conteúdo relacionado

Comentários

Recursos adicionais