음성 텍스트 변환 FAQ

이 문서에서는 음성 텍스트 변환 기능의 일반적인 질문에 대한 답변을 제공합니다. 여기서 질문에 대한 답변을 찾을 수 없는 경우 다른 지원 옵션을 확인하세요.

일반

기본 모델과 사용자 지정 음성 텍스트 변환 모델의 차이는 무엇인가요?

기준 음성 텍스트 변환 모델은 Microsoft에서 소유한 데이터를 사용하여 학습되며 클라우드에 이미 배포되어 있습니다. 특정 주변 소음 또는 언어가 있는 환경에 더 잘 맞도록 사용자 지정 모델을 만들고 사용할 수 있습니다. 공장 현장, 자동차 또는 소음이 많은 거리에 적응형 음향 모델이 필요합니다. 생물학, 물리학, 방사선학, 제품 이름 및 머리글자어와 같은 주제에는 적응형 언어 모델이 필요합니다. 사용자 지정 모델을 학습시키려면 관련 텍스트로 시작하여 특별한 용어 및 구의 인식을 향상시켜야 합니다.

기본 모델 사용을 시작하려면 어떻게 해야 하나요?

먼저, Azure Portal에서 Speech 리소스 키 및 지역을 가져옵니다. 미리 배포된 기본 모델에 대해 REST를 호출하려면 REST API 설명서를 참조하세요. WebSocket을 사용하려면 Speech SDK를 다운로드합니다.

사용자 지정 음성 모델을 항상 작성해야 하나요?

아니요. 애플리케이션에서 일반적인 일상 언어를 사용하는 경우라면 모델을 사용자 지정할 필요가 없습니다. 배경 소음이 거의 또는 전혀 없는 환경에서 애플리케이션을 사용하는 경우 모델을 사용자 지정할 필요가 없습니다.

포털에서 기준 모델 및 사용자 지정 모델을 배포하고 그에 대한 정확도 테스트를 실행할 수 있습니다. 이러한 기능을 사용하여 기본 모델과 사용자 지정 모델의 정확성을 측정할 수 있습니다.

데이터 세트 또는 모델에 대한 처리가 완료되면 어떻게 알 수 있나요?

현재 알 수 있는 유일한 방법은 테이블에서 모델 또는 데이터 세트의 상태를 확인하는 것입니다. 처리가 완료되면 성공 상태가 됩니다.

모델을 여러 개 만들 수 있나요?

컬렉션에 포함할 수 있는 모델 수에는 제한이 없습니다.

모델을 잘못 만든 경우, 진행 중인 데이터 가져오기 또는 모델 만들기를 취소하려면 어떻게 하나요?

현재는 음향 적응 또는 언어 적응 프로세스를 롤백할 수 없습니다. 종료 상태에 있을 때 가져온 데이터와 모델을 삭제할 수 있습니다.

자세한 출력 형식으로 각 구에 대한 몇 가지 결과를 얻었습니다. 어느 것을 사용해야 합니까?

다른 결과("N-Best")가 더 높은 신뢰도 값을 가질 수 있는 경우에도 항상 첫 번째 결과를 사용합니다. Speech Service는 첫 번째 결과를 가장 적합한 것으로 간주합니다. 또한 인식된 음성이 없는 경우 결과는 빈 문자열일 수 있습니다.

다른 결과는 더 나빠질 수 있으며 전체 대문자화 및 문장 부호가 적용되지 않을 수 있습니다. 이러한 결과는 목록에서 수정을 선택할 수 있는 옵션을 사용자에게 제공하거나 잘못 인식된 명령을 처리하는 것과 같은 특별한 시나리오에서 가장 유용합니다.

여러 기본 모델이 있는 이유는 무엇인가요?

Speech Service에서 둘 이상의 기본 모델 중에서 선택할 수 있습니다. 각 모델 이름은 추가된 날짜를 포함합니다. 사용자 지정 모델 학습을 시작할 때 가장 최신 모델을 사용하여 최고의 정확도를 얻습니다. 새 모델을 사용할 수 있게 되면 이전 기본 모델은 한동안 계속 사용할 수 있습니다. 사용한 모델은 사용 중지될 때까지 계속 사용할 수 있습니다(모델 및 엔드포인트 수명 주기 참조). 정확도를 높이기 위해 여전히 최신 기본 모델로 전환하는 것이 좋습니다.

기존 모델(모델 스태킹)을 업데이트할 수 있나요?

기존 모델을 업데이트할 수는 없습니다. 해결 방안은 이전 데이터 세트를 새 데이터 세트와 결합하여 다시 적응시키는 것입니다.

이전 데이터 세트 및 새 데이터 세트를 단일 .zip 파일(음향 데이터) 또는 .txt 파일(언어 데이터)에 결합해야 합니다. 적응이 완료되면 업데이트된 새 모델을 다시 배포하여 새 엔드포인트를 얻습니다.

새 버전의 기본 모델을 사용할 수 있게 되면 배포가 자동으로 업데이트되나요?

배포는 자동으로 업데이트되지 않습니다.

모델을 적응시키고 배포한 경우 기존 배포는 그대로 유지됩니다. 배포된 모델의 서비스를 해제하고, 기본 모델의 최신 버전을 사용하여 다시 적응시키고, 더 나은 정확도를 위해 다시 배포할 수 있습니다.

기본 모델과 사용자 지정 모델은 모두 일정 시간이 지나면 사용 중지됩니다(모델 및 엔드포인트 수명 주기 참조).

모델을 다운로드하여 로컬에서 실행할 수 있나요?

Docker 컨테이너에서 로컬로 사용자 지정 모델을 실행할 수 있습니다.

내 데이터 세트, 모델 및 배포를 다른 지역 또는 구독으로 복사하거나 이동할 수 있나요?

Models_Copy REST API를 사용하여 사용자 지정 모델을 다른 지역이나 구독에 복사할 수 있습니다. 데이터 세트 및 배포는 복사할 수 없습니다. 다른 구독에서 데이터 세트를 다시 가져오고 모델 복사본을 사용하여 엔드포인트를 만들 수 있습니다.

요청은 기록되나요?

기본적으로 요청은 기록되지 않습니다(오디오 또는 대화 내용 기록이 아님). 필요한 경우 사용자 지정 엔드포인트를 만들이 엔드포인트에서 콘텐츠 기록 옵션을 선택할 수 있습니다. 또한 사용자 지정 엔드포인트를 만들지 않고 Speech SDK에서 요청별로 오디오 로깅을 사용하도록 설정할 수 있습니다. 두 경우 모두 요청의 오디오 및 인식 결과가 보안 스토리지에 저장됩니다. Microsoft 소유 스토리지를 사용하는 구독은 30일 동안 사용할 수 있습니다.

이 엔드포인트의 로그 콘텐츠를 사용하는 사용자 지정 엔드포인트를 사용하는 경우 Speech Studio의 배포 페이지에서 로깅되는 파일을 내보낼 수 있습니다. SDK를 통해 오디오 로깅이 사용되는 경우 API를 호출하여 파일에 액세스합니다. API를 사용하여 언제든지 로그를 삭제할 수도 있습니다.

요청에 제한이 있나요?

자세한 내용은 Speech Service 할당량 및 제한을 참조하세요.

이중 채널 오디오에 대한 요금은 어떻게 청구되나요?

각 채널을 별도로(자체 파일에서) 제출하는 경우 각 파일의 오디오 기간에 대해 요금이 청구됩니다. 채널이 모두 멀티플렉싱된 단일 파일을 제출하는 경우 단일 파일의 기간에 대한 요금이 청구됩니다. 가격 책정에 대한 자세한 내용은 AAzure AI 서비스 가격 책정 페이지를 참조하세요.

Important

Custom Speech Service를 사용할 수 없는 추가 개인 정보 보호 문제가 있는 경우 지원 채널 중 하나에 문의하세요.

동시성 증대

자세한 내용은 Speech Service 할당량 및 제한을 참조하세요.

데이터 가져오기

데이터 세트의 크기 제한은 무엇이며, 왜 제한되나요?

이 제한은 HTTP 업로드에 대한 파일 크기 제한 때문입니다. 실제 제한은 Speech Service 할당량 및 제한을 참조하세요. 데이터를 여러 데이터 세트로 분할하고 모든 데이터 세트를 선택하여 모델을 학습시킬 수 있습니다.

텍스트 파일을 압축하여 더 큰 텍스트 파일을 업로드할 수 있나요?

아니요. 현재는 압축되지 않은 텍스트 파일만 허용됩니다.

데이터 보고서에 발화 실패가 기록되어 있습니다. 문제가 무엇인가요?

파일의 모든 발화를 업로드하지 못하는 것은 문제가 되지 않습니다. 음향 데이터 세트나 언어 데이터 세트에서 대부분의 음성(예: 95% 초과)을 가져온 경우에는 데이터 세트를 사용할 수 있습니다. 그러나 발화가 실패한 이유를 파악한 다음, 문제를 해결하는 것이 좋습니다. 가장 일반적인 문제(예: 서식 오류)는 쉽게 해결할 수 있습니다.

음향 모델 만들기

음향 데이터는 어느 정도나 필요한가요?

30분~1시간의 음향 데이터로 시작하는 것이 좋습니다.

어떤 데이터를 수집해야 하나요?

애플리케이션 시나리오 및 사용 사례와 최대한 유사한 데이터를 수집합니다. 데이터 컬렉션은 디바이스, 환경 및 화자 유형과 관련하여 대상 애플리케이션 및 사용자와 일치해야 합니다. 일반적으로 최대한 광범위한 화자의 데이터를 수집해야 합니다.

음향 데이터는 어떻게 수집해야 하나요?

독립 실행형 데이터 수집 애플리케이션을 만들거나 기존 오디오 녹음 소프트웨어를 사용하면 됩니다. 오디오 데이터를 기록한 다음, 해당 데이터를 사용하는 버전의 애플리케이션을 만들 수도 있습니다.

적응 데이터를 직접 전사해야 하나요?

예. 직접 전사하거나 전문적인 전사 서비스를 사용할 수 있습니다. 일부 사용자는 전문 전사기를 선호하고, 다른 일부 사용자는 크라우드소싱을 사용하거나 데이터를 직접 전사합니다.

오디오 데이터를 사용하여 사용자 지정 모델을 학습시키는 데 얼마나 걸리나요?

오디오 데이터를 사용하여 모델을 학습하는 과정은 시간이 오래 걸릴 수 있습니다. 데이터 양에 따라 사용자 지정 모델을 만드는 데 며칠이 걸릴 수 있습니다. 1주일 이내에 완료할 수 없는 경우 서비스에서 학습 작업을 중단하고 모델을 실패한 것으로 보고할 수 있습니다.

일반적으로 전용 하드웨어가 있는 지역에서 Speech Service는 하루에 약 10시간의 오디오 데이터를 처리합니다. 텍스트만 사용하는 학습은 더 빠르며 일반적으로 몇 분 안에 완료됩니다.

전용 하드웨어를 학습에 사용할 수 있는 지역 중 하나를 사용합니다. Speech Service는 해당 지역의 학습을 위해 최대 100시간 분량의 오디오를 사용합니다.

정확도 테스트

WER(단어 오류 비율)은 무엇이며, 어떻게 계산되나요?

WER은 음성 인식을 위한 평가 메트릭입니다. WER은 총 오류(삽입, 삭제 및 대체) 수를 참조 대화 내용 기록의 총 단어 수로 나눈 값으로 계산됩니다. 자세한 내용은 정량적으로 모델 테스트를 참조하세요.

정확도 테스트의 결과가 양호한지 여부는 어떻게 판단하나요?

결과에는 기본 모델과 사용자 지정 모델을 비교한 내용이 표시됩니다. 사용자 지정을 가치 있게 만들려면 기본 모델의 수준 이상으로 높이는 것을 목표로 해야 합니다.

개선되었는지 여부를 확인하기 위해 기본 모델의 WER을 확인하려면 어떻게 할까요?

오프라인 테스트 결과에는 사용자 지정 모델의 기준 정확도와 기준 모델에 비해 사용자 지정 모델에서 개선된 부분이 표시됩니다.

언어 모델 만들기

텍스트 데이터는 어느 정도나 업로드해야 하나요?

애플리케이션에서 사용되는 어휘/구문과 시작 언어 모델의 어휘/구문 간 차이 정도에 따라 다릅니다. 모든 새 단어에 대해 예제를 가능한 한 많이 제공하는 것이 유용합니다. 언어 데이터의 구를 포함하여 애플리케이션에서 사용되는 일반적인 구의 경우 이러한 용어도 수신 대기하도록 시스템에 지시하므로 많은 예제를 제공하는 것이 유용합니다. 일반적으로 언어 데이터 세트에는 100개 이상, 일반적으로 수백 개 이상의 발화가 있습니다. 또한 일부 유형의 쿼리가 다른 쿼리 유형보다 일반적일 것으로 예상되는 경우 데이터 세트에 일반적인 쿼리의 복사본을 여러 개 삽입할 수 있습니다.

단어 목록만 업로드할 수 있나요?

단어 목록을 업로드하면 이러한 단어가 어휘에 추가되지만, 해당 단어가 일반적으로 사용되는 방식을 시스템에 알려주지는 않습니다. 전체 또는 부분 발화(사용자가 말할 가능성이 높은 문장 또는 구)를 제공하면 언어 모델에서 새 단어와 이를 사용하는 방법을 학습할 수 있습니다. 사용자 지정 언어 모델은 시스템에 새 단어를 추가하는 것뿐만 아니라 애플리케이션에서 알려진 단어가 나타날 가능성을 조정하는 데에도 적합합니다. 전체 음성을 제공하면 시스템 학습 성능이 좋아집니다.