휴먼 레이블 대화 기록을 만드는 방법

휴먼 레이블 대화 기록은 오디오 파일의 단어별 대화 내용 기록입니다. 특히 단어가 삭제되거나 잘못 바뀐 경우 인간이 레이블을 붙인 대화 내용 기록을 사용하여 모델 정확도를 평가하고 인식 정확도를 개선합니다. 이 가이드는 고품질 대화 내용 기록을 만드는 데 도움이 될 수 있습니다.

모델 정확도를 평가하려면 대화 내용 기록 데이터의 대표 샘플을 사용하는 것이 좋습니다. 데이터는 사용자가 애플리케이션에 말하는 내용을 대표하는 다양한 화자와 발화를 포함해야 합니다. 테스트 데이터의 경우 각 개별 오디오 파일의 최대 지속 시간은 2시간입니다.

인식을 개선하려면 대화 내용 기록 데이터의 많은 샘플이 필요합니다. 1 ~ 100시간의 오디오 데이터를 제공하는 것이 좋습니다. 음성 서비스는 학습을 위해 최대 100시간의 오디오를 사용합니다(학습 요금을 청구하지 않는 구형 모델의 경우 최대 20시간). 각 개별 오디오 파일은 40초(위스퍼 사용자 지정의 경우 최대 30초)를 초과할 수 없습니다.

이 가이드에는 미국 영어, 표준 중국어, 독일어 로캘 섹션이 있습니다.

모든 WAV 파일의 대화 내용 기록은 단일 일반 텍스트 파일(.txt 또는 .tsv)에 포함됩니다. 대화 내용 기록 파일의 각 줄에는 한 오디오 파일의 이름 다음에 해당 대화 기록 이름이 옵니다. 파일 이름과 대화 내용 기록은 탭(\t)으로 구분해야 합니다.

예시:

speech01.wav	speech recognition is awesome
speech02.wav	the quick brown fox jumped all over the place
speech03.wav	the lazy dog was not amused

대화 내용 기록은 텍스트로 정규화되므로 시스템에서 처리할 수 있습니다. 그러나 데이터 세트를 업로드하기 전에 몇 가지 중요한 정규화를 수행해야 합니다.

비영어 또는 북경어 중국어에 대한 휴먼 레이블 대화 기록은 바이트 순서 표식을 사용하여 UTF-8로 인코딩해야 합니다. 다른 로캘의 대화 내용 기록 요구 사항은 다음 섹션을 참조하세요.

en-US

영어 오디오의 휴먼 레이블 대화 기록은 ASCII 문자만 사용하여 일반 텍스트로 제공되어야 합니다. Latin-1 또는 유니코드 문장 부호를 사용하지 않도록 합니다. 이러한 문자는 워드 프로세싱 애플리케이션에서 텍스트를 복사하거나 웹 페이지에서 데이터를 스크랩할 때 실수로 추가되는 경우가 많습니다. 이러한 문자가 있으면 적절한 ASCII 대체를 사용하여 업데이트해야 합니다.

다음은 몇 가지 예입니다.

피할 문자 대체 주의
"Hello world" "Hello world" 여는 따옴표와 닫는 따옴표가 적절한 ASCII 문자로 대체됩니다.
John’s day John's day 아포스트로피가 적절한 ASCII 문자로 대체됩니다.
It was good—no, it was great! it was good--no, it was great! em 대시가 하이픈 두 개로 대체됩니다.

미국 영어에 대한 텍스트 정규화

텍스트 정규화는 모델을 학습하는 데 사용되는 일관된 형식으로 단어를 변환하는 것입니다. 일부 정규화 규칙은 텍스트에 자동으로 적용되지만 휴먼 레이블 대화 기록 데이터를 준비할 때 이러한 지침을 사용하는 것이 좋습니다.

  • 약어를 단어로 작성합니다.
  • 비표준 숫자 문자열을 단어로 작성합니다(예: 회계 용어).
  • 영문자가 아닌 문자 또는 혼합 영숫자 문자는 발음되는 대로 전사해야 합니다.
  • 단어로 발음된 약어는 편집할 수 없습니다(예: "레이더", "레이저", "RAM" 또는 "NATO").
  • 각 문자가 공백으로 구분되는 별도의 문자로 발음되는 약어를 작성합니다.
  • 오디오를 사용하는 경우 오디오와 일치하는 단어(예: "101"을 "one oh one" 또는 "one hundred and one"으로 발음할 수 있음)로 숫자를 기록합니다.
  • 반복되는 문자, 단어 또는 단어 그룹을 세 번보다 많이(예: "yeah yeah yeah yeah") 반복하지 않습니다. Speech Service는 반복되는 줄을 삭제할 수 있습니다.

다음은 대화 내용 기록에서 수행해야 하는 정규화의 몇 가지 예제입니다.

Original text 정규화 후 텍스트(사람)
Dr. Bruce Banner Doctor Bruce Banner
James Bond, 007 James Bond, double oh seven
Ke$ha Kesha
How long is the 2x4 How long is the two by four
The meeting goes from 1-3pm The meeting goes from one to three pm
My blood type is O+ My blood type is O positive
Water is H20 Water is H 2 O
Play OU812 by Van Halen Play O U 8 1 2 by Van Halen
UTF-8(BOM 포함) U T F 8 with BOM
It costs $3.14 It costs three fourteen

다음 정규화 규칙은 자동으로 대화 내용 기록에 적용됩니다.

  • 소문자를 사용합니다.
  • 단어 내에서 아포스트로피를 제외한 모든 문장 부호를 제거합니다.
  • 숫자를 달러 양과 같은 단어/발성 형식으로 확장합니다.

다음은 대화 내용 기록에 대해 자동으로 수행되는 정규화의 몇 가지 예제입니다.

Original text 정규화 후 텍스트(자동)
"Holy cow!" said Batman. holy cow said batman
"What?" said Batman's sidekick, Robin. what said batman's sidekick robin
Go get -em! go get em
I'm double-jointed I'm double jointed
104 Elm Street one oh four Elm street
Tune to 102.7 tune to one oh two point seven
Pi is about 3.14 pi is about three point one four

de-DE

독일어 오디오의 휴먼 레이블 대화 기록은 바이트 순서 표식을 사용하여 UTF-8로 인코딩해야 합니다.

독일어에 대한 텍스트 정규화

텍스트 정규화는 모델을 학습하는 데 사용되는 일관된 형식으로 단어를 변환하는 것입니다. 일부 정규화 규칙은 텍스트에 자동으로 적용되지만 휴먼 레이블 대화 기록 데이터를 준비할 때 이러한 지침을 사용하는 것이 좋습니다.

  • "."가 아닌 ","로 소수점을 작성합니다.
  • "."가 아닌 ":"로 시간 구분 기호를 작성합니다(예: 12:00 Uhr).
  • "ca"와 같은 약어는 대체되지 않습니다. 전체 발성 형식을 사용하는 것이 좋습니다.
  • 네 개의 기본 수학 연산자(+, -, * 및 /)를 제거합니다. "plus", "minus", "mal" 및 "geteilt"와 같은 작성 형식으로 바꾸는 것이 좋습니다.
  • 비교 연산자가 제거됩니다(=, < 및 >). "gleich", "kleiner als" 및 "grösser als"로 바꾸는 것이 좋습니다.
  • 3/4과 같은 분수는 작성 형식(예: 3/4 대신 "drei viertel")으로 작성합니다.
  • "€" 기호를 작성 형식 "유로"로 바꿉니다.

다음은 대화 내용 기록에서 수행해야 하는 정규화의 몇 가지 예제입니다.

Original text 사용자 정규화 후 텍스트 시스템 정규화 후 텍스트
Es ist 12.23 Uhr Es ist 12:23 Uhr es ist zwölf uhr drei und zwanzig uhr
{12.45} {12,45} zwölf komma vier fünf
2 + 3 - 4 2 plus 3 minus 4 zwei plus drei minus vier

다음 정규화 규칙은 자동으로 대화 내용 기록에 적용됩니다.

  • 모든 텍스트에 소문자를 사용합니다.
  • 다양한 유형의 따옴표를 포함하여 모든 문장 부호를 제거합니다("테스트", '테스트', "테스트„ 및 «테스트»는 허용됨).
  • 이 집합 ¢ ¤ ¥ ¦ § © ª ¬ ® ° ± ² µ × ÿ ج¬의 특수 문자를 포함하는 행을 버립니다.
  • 달러 또는 유로 금액을 포함하여 숫자를 발성 형식으로 확장합니다.
  • a, o 및 u에 대해서만 움라우트를 허용합니다. 다른 항목은 "th"로 바뀌거나 삭제됩니다.

다음은 대화 내용 기록에 대해 자동으로 수행되는 정규화의 몇 가지 예제입니다.

Original text 정규화 후 텍스트
Frankfurter Ring frankfurter ring
¡Eine Frage! eine frage
Wir, haben wir haben

ja-JP

일본어(ja-JP)에서 각 문장의 최대 길이는 90자입니다. 문장이 이보다 더 긴 줄은 무시됩니다. 긴 텍스트를 추가하려면 사이에 마침표를 삽입합니다.

zh-CN

북경어 중국어 오디오의 휴먼 레이블 대화 기록은 바이트 순서 표식을 사용하여 UTF-8로 인코딩해야 합니다. 반자 문장 부호 문자를 사용하지 않아야 합니다. 이러한 문자는 워드 프로세싱 프로그램에서 데이터를 준비하거나 웹 페이지에서 데이터를 스크랩할 때 실수로 포함될 수 있습니다. 이러한 문자가 있으면 적절한 전자 대체를 사용하여 업데이트해야 합니다.

다음은 몇 가지 예입니다.

피할 문자 대체 주의
"你好" "你好" 여는 따옴표와 닫는 따옴표가 적절한 문자로 대체됩니다.
需要什么帮助? 需要什么帮助? 물음표가 적절한 문자로 대체됩니다.

북경어 중국어에 대한 텍스트 정규화

텍스트 정규화는 모델을 학습하는 데 사용되는 일관된 형식으로 단어를 변환하는 것입니다. 일부 정규화 규칙은 텍스트에 자동으로 적용되지만 휴먼 레이블 대화 기록 데이터를 준비할 때 이러한 지침을 사용하는 것이 좋습니다.

  • 약어를 단어로 작성합니다.
  • 숫자 문자열은 음성 형식으로 기록합니다.

다음은 대화 내용 기록에서 수행해야 하는 정규화의 몇 가지 예제입니다.

Original text 정규화 후 텍스트
我今年 21 我今年二十一
3 号楼 504 三号 楼 五 零 四

다음 정규화 규칙은 자동으로 대화 내용 기록에 적용됩니다.

  • 모든 문장 부호 제거
  • 숫자를 음성 형식으로 확장
  • 전자 문자를 반자 문자로 변환
  • 모든 영어 단어에 대문자 사용

자동 대화 내용 기록 정규화의 몇 가지 예제는 다음과 같습니다.

Original text 정규화 후 텍스트
3.1415 三 点 一 四 一 五
¥ 3.5 三 元 五 角
w f y z W F Y Z
1992 年 8 月 8 日 一 九 九 二 年 八 月 八 日
你吃饭了吗? 你 吃饭 了 吗
下午 5:00 的航班 下午 五点 的 航班
我今年 21 岁 我 今年 二十 一 岁

다음 단계