대화 언어 이해에서 허용되는 데이터 서식

아티클
09/03/2024

데이터를 대화 언어 이해에 업로드하는 경우 특정 형식을 따라야 합니다. 이 문서를 사용하여 허용되는 데이터 형식에 대해 자세히 알아보세요.

프로젝트 파일 형식 가져오기

대화 언어 이해로 프로젝트를 가져오는 경우 업로드되는 파일은 다음 형식이어야 합니다.

{
  "projectFileVersion": "2022-10-01-preview",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "Conversation",
    "projectName": "{PROJECT-NAME}",
    "multilingual": true,
    "description": "DESCRIPTION",
    "language": "{LANGUAGE-CODE}",
    "settings": {
            "confidenceThreshold": 0
        }
  },
  "assets": {
    "projectKind": "Conversation",
    "intents": [
      {
        "category": "intent1"
      }
    ],
    "entities": [
      {
        "category": "entity1",
        "compositionSetting": "{COMPOSITION-SETTING}",
        "list": {
          "sublists": [
            {
              "listKey": "list1",
              "synonyms": [
                {
                  "language": "{LANGUAGE-CODE}",
                  "values": [
                    "{VALUES-FOR-LIST}"
                  ]
                }
              ]
            }            
          ]
        },
        "prebuilts": [
          {
            "category": "{PREBUILT-COMPONENTS}"
          }
        ],
        "regex": {
          "expressions": [
              {
                  "regexKey": "regex1",
                  "language": "{LANGUAGE-CODE}",
                  "regexPattern": "{REGEX-PATTERN}"
              }
          ]
        },
        "requiredComponents": [
            "{REQUIRED-COMPONENTS}"
        ]
      }
    ],
    "utterances": [
      {
        "text": "utterance1",
        "intent": "intent1",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "category": "ENTITY1",
            "offset": 6,
            "length": 4
          }
        ]
      }
    ]
  }
}

키	자리 표시자	값	예제
`{API-VERSION}`	호출하는 API의 버전입니다.	`2023-04-01`
`confidenceThreshold`	`{CONFIDENCE-THRESHOLD}`	의도가 의도 없음으로 예측되는 임계값 점수입니다. 값은 `0`에서 `1` 사이입니다.	`0.7`
`projectName`	`{PROJECT-NAME}`	프로젝트의 이름입니다. 이 값은 대/소문자를 구분합니다.	`EmailApp`
`multilingual`	`true`	데이터 세트의 여러 언어로 발화를 사용할 수 있는 부울 값입니다. 모델이 배포되면 해당 모델을 지원되는 모든 언어로 쿼리할 수 있습니다(반드시 학습 문서에 포함되지는 않음). 지원되는 언어 코드에 대한 자세한 내용은 언어 지원을 참조하세요.	`true`
`sublists`	`[]`	하위 목록을 포함하는 배열입니다. 각 하위 목록은 키 및 관련 값입니다.	`[]`
`compositionSetting`	`{COMPOSITION-SETTING}`	엔터티에서 여러 구성 요소를 관리하는 방법을 정의하는 규칙입니다. 옵션은 `combineComponents` 또는 `separateComponents`입니다.	`combineComponents`
`synonyms`	`[]`	모든 동의어를 포함하는 배열입니다.	동의어
`language`	`{LANGUAGE-CODE}`	프로젝트에 사용된 발화, 동의어 및 정규식의 언어 코드를 지정하는 문자열입니다. 프로젝트가 다국어 프로젝트인 경우 대부분의 발화에 대한 언어 코드를 선택합니다.	`en-us`
`intents`	`[]`	프로젝트에 있는 모든 의도를 포함하는 배열입니다. 이러한 의도는 발화에서 분류됩니다.	`[]`
`entities`	`[]`	프로젝트의 모든 엔터티를 포함하는 배열입니다. 이러한 엔터티는 발화에서 추출됩니다. 모든 엔터티에는 목록, 미리 빌드된 구성 요소 또는 정규식과 같은 다른 선택적 구성 요소가 정의되어 있을 수 있습니다.	`[]`
`dataset`	`{DATASET}`	학습 전에 분할할 때 이 발화가 적용되는 테스트 집합입니다. 데이터 분할에 대한 자세한 내용은 대화형 언어 이해 모델 학습을 참조하세요. 이 필드에 사용할 수 있는 값은 `Train` 및 `Test`입니다.	`Train`
`category`		지정된 텍스트 범위와 연결된 엔터티 형식입니다.	`Entity1`
`offset`		엔터티 시작의 포함 문자 위치입니다.	`5`
`length`		엔터티의 문자 길이입니다.	`5`
`listKey`		예측에서 다시 매핑할 동의어 목록에 대한 정규화된 값입니다.	`Microsoft`
`values`	`{VALUES-FOR-LIST}`	추출을 위해 정확히 일치되고 목록 키에 매핑되는 쉼표로 구분된 문자열 목록입니다.	`"msft", "microsoft", "MS"`
`regexKey`	`{REGEX-PATTERN}`	예측에서 다시 매핑할 정규화된 정규식 값입니다.	`ProductPattern1`
`regexPattern`	`{REGEX-PATTERN}`	정규식입니다.	`^pre`
`prebuilts`	`{PREBUILT-COMPONENTS}`	공통 형식을 추출할 수 있는 미리 빌드된 구성 요소입니다. 추가할 수 있는 미리 빌드된 목록의 경우 지원되는 미리 빌드된 엔터티 구성 요소를 참조하세요.	`Quantity.Number`
`requiredComponents`	`{REQUIRED-COMPONENTS}`	엔터티를 반환하기 위해 특정 구성 요소가 있어야 하는 요구 사항을 지정하는 설정입니다. 자세한 내용은 엔터티 구성 요소를 참조하세요. 가능한 값은 `learned`, `regex`, `list` 또는 `prebuilts`입니다.	`"learned", "prebuilt"`

발화 파일 형식

대화 언어 이해는 발화를 하나씩 입력하는 대신 프로젝트에 직접 업로드하는 옵션을 제공합니다. 프로젝트의 데이터 레이블 지정 페이지에서 이 옵션을 찾을 수 있습니다.

[
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 19,
                "length": 10
            }
        ]
    },
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 20,
                "length": 10
            },
            {
                "category": "{entity}",
                "offset": 31,
                "length": 5
            }
        ]
    }
]

키	자리 표시자	값	예시
`text`	`{Utterance-Text}`	당신의 발화 텍스트.	테스팅
`language`	`{LANGUAGE-CODE}`	프로젝트에 사용된 발화의 언어 코드를 지정하는 문자열입니다. 프로젝트가 다국어 프로젝트인 경우 대부분의 발화에 대한 언어 코드를 선택합니다. 지원되는 언어 코드에 대한 자세한 내용은 언어 지원을 참조하세요.	`en-us`
`dataset`	`{DATASET}`	학습 전에 분할할 때 이 발화가 적용되는 테스트 집합입니다. 데이터 분할에 대한 자세한 내용은 대화형 언어 이해 모델 학습을 참조하세요. 이 필드에 사용할 수 있는 값은 `Train` 및 `Test`입니다.	`Train`
`intent`	`{intent}`	할당된 의도.	intent1
`entity`	`{entity}`	추출할 엔터티입니다.	entity1
`category`		지정된 텍스트 범위와 연결된 엔터티 형식입니다.	`Entity1`
`offset`		텍스트 시작의 포함 문자 위치입니다.	`0`
`length`		UTF16 문자로 나타낸 경계 상자의 길이입니다. 학습은 이 지역의 데이터만 고려합니다.	`500`

레이블이 지정된 데이터를 프로젝트로 직접 가져오는 방법에 대한 자세한 내용은 프로젝트 가져오기를 참조하세요.
데이터 레이블 지정에 대한 자세한 내용은 Language Studio에서 발화 레이블 지정을 참조하세요. 데이터에 레이블을 지정한 후 모델을 학습시킬 수 있습니다.

다음을 통해 공유

대화 언어 이해에서 허용되는 데이터 서식

프로젝트 파일 형식 가져오기

발화 파일 형식

피드백

추가 리소스

다음을 통해 공유

대화 언어 이해에서 허용되는 데이터 서식

프로젝트 파일 형식 가져오기

발화 파일 형식

관련 콘텐츠

피드백

추가 리소스