대화 언어 이해에서 허용되는 데이터 서식

데이터를 대화 언어 이해에 업로드하는 경우 특정 형식을 따라야 합니다. 이 문서를 사용하여 허용되는 데이터 형식에 대해 자세히 알아보세요.

프로젝트 파일 형식 가져오기

대화 언어 이해로 프로젝트를 가져오는 경우 업로드되는 파일은 다음 형식이어야 합니다.

{
  "projectFileVersion": "2022-10-01-preview",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "Conversation",
    "projectName": "{PROJECT-NAME}",
    "multilingual": true,
    "description": "DESCRIPTION",
    "language": "{LANGUAGE-CODE}",
    "settings": {
            "confidenceThreshold": 0
        }
  },
  "assets": {
    "projectKind": "Conversation",
    "intents": [
      {
        "category": "intent1"
      }
    ],
    "entities": [
      {
        "category": "entity1",
        "compositionSetting": "{COMPOSITION-SETTING}",
        "list": {
          "sublists": [
            {
              "listKey": "list1",
              "synonyms": [
                {
                  "language": "{LANGUAGE-CODE}",
                  "values": [
                    "{VALUES-FOR-LIST}"
                  ]
                }
              ]
            }            
          ]
        },
        "prebuilts": [
          {
            "category": "{PREBUILT-COMPONENTS}"
          }
        ],
        "regex": {
          "expressions": [
              {
                  "regexKey": "regex1",
                  "language": "{LANGUAGE-CODE}",
                  "regexPattern": "{REGEX-PATTERN}"
              }
          ]
        },
        "requiredComponents": [
            "{REQUIRED-COMPONENTS}"
        ]
      }
    ],
    "utterances": [
      {
        "text": "utterance1",
        "intent": "intent1",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "category": "ENTITY1",
            "offset": 6,
            "length": 4
          }
        ]
      }
    ]
  }
}

자리 표시자 예제
{API-VERSION} 호출하는 API의 버전입니다. 2023-04-01
confidenceThreshold {CONFIDENCE-THRESHOLD} 의도가 의도 없음으로 예측되는 임계값 점수입니다. 값은 0에서 1 사이입니다. 0.7
projectName {PROJECT-NAME} 프로젝트의 이름입니다. 이 값은 대/소문자를 구분합니다. EmailApp
multilingual true 데이터 세트의 여러 언어로 발화를 사용할 수 있는 부울 값입니다. 모델이 배포되면 해당 모델을 지원되는 모든 언어로 쿼리할 수 있습니다(반드시 학습 문서에 포함되지는 않음). 지원되는 언어 코드에 대한 자세한 내용은 언어 지원을 참조하세요. true
sublists [] 하위 목록을 포함하는 배열입니다. 각 하위 목록은 키 및 관련 값입니다. []
compositionSetting {COMPOSITION-SETTING} 엔터티에서 여러 구성 요소를 관리하는 방법을 정의하는 규칙입니다. 옵션은 combineComponents 또는 separateComponents입니다. combineComponents
synonyms [] 모든 동의어를 포함하는 배열입니다. 동의어
language {LANGUAGE-CODE} 프로젝트에 사용된 발화, 동의어 및 정규식의 언어 코드를 지정하는 문자열입니다. 프로젝트가 다국어 프로젝트인 경우 대부분의 발화에 대한 언어 코드를 선택합니다. en-us
intents [] 프로젝트에 있는 모든 의도를 포함하는 배열입니다. 이러한 의도는 발화에서 분류됩니다. []
entities [] 프로젝트의 모든 엔터티를 포함하는 배열입니다. 이러한 엔터티는 발화에서 추출됩니다. 모든 엔터티에는 목록, 미리 빌드된 구성 요소 또는 정규식과 같은 다른 선택적 구성 요소가 정의되어 있을 수 있습니다. []
dataset {DATASET} 학습 전에 분할할 때 이 발화가 적용되는 테스트 집합입니다. 데이터 분할에 대한 자세한 내용은 대화형 언어 이해 모델 학습을 참조하세요. 이 필드에 사용할 수 있는 값은 TrainTest입니다. Train
category 지정된 텍스트 범위와 연결된 엔터티 형식입니다. Entity1
offset 엔터티 시작의 포함 문자 위치입니다. 5
length 엔터티의 문자 길이입니다. 5
listKey 예측에서 다시 매핑할 동의어 목록에 대한 정규화된 값입니다. Microsoft
values {VALUES-FOR-LIST} 추출을 위해 정확히 일치되고 목록 키에 매핑되는 쉼표로 구분된 문자열 목록입니다. "msft", "microsoft", "MS"
regexKey {REGEX-PATTERN} 예측에서 다시 매핑할 정규화된 정규식 값입니다. ProductPattern1
regexPattern {REGEX-PATTERN} 정규식입니다. ^pre
prebuilts {PREBUILT-COMPONENTS} 공통 형식을 추출할 수 있는 미리 빌드된 구성 요소입니다. 추가할 수 있는 미리 빌드된 목록의 경우 지원되는 미리 빌드된 엔터티 구성 요소를 참조하세요. Quantity.Number
requiredComponents {REQUIRED-COMPONENTS} 엔터티를 반환하기 위해 특정 구성 요소가 있어야 하는 요구 사항을 지정하는 설정입니다. 자세한 내용은 엔터티 구성 요소를 참조하세요. 가능한 값은 learned, regex, list 또는 prebuilts입니다. "learned", "prebuilt"

발화 파일 형식

대화 언어 이해는 발화를 하나씩 입력하는 대신 프로젝트에 직접 업로드하는 옵션을 제공합니다. 프로젝트의 데이터 레이블 지정 페이지에서 이 옵션을 찾을 수 있습니다.

[
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 19,
                "length": 10
            }
        ]
    },
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 20,
                "length": 10
            },
            {
                "category": "{entity}",
                "offset": 31,
                "length": 5
            }
        ]
    }
]

자리 표시자 예시
text {Utterance-Text} 당신의 발화 텍스트. 테스팅
language {LANGUAGE-CODE} 프로젝트에 사용된 발화의 언어 코드를 지정하는 문자열입니다. 프로젝트가 다국어 프로젝트인 경우 대부분의 발화에 대한 언어 코드를 선택합니다. 지원되는 언어 코드에 대한 자세한 내용은 언어 지원을 참조하세요. en-us
dataset {DATASET} 학습 전에 분할할 때 이 발화가 적용되는 테스트 집합입니다. 데이터 분할에 대한 자세한 내용은 대화형 언어 이해 모델 학습을 참조하세요. 이 필드에 사용할 수 있는 값은 TrainTest입니다. Train
intent {intent} 할당된 의도. intent1
entity {entity} 추출할 엔터티입니다. entity1
category 지정된 텍스트 범위와 연결된 엔터티 형식입니다. Entity1
offset 텍스트 시작의 포함 문자 위치입니다. 0
length UTF16 문자로 나타낸 경계 상자의 길이입니다. 학습은 이 지역의 데이터만 고려합니다. 500