텍스트 음성 변환이란?

아티클
10/16/2024

이 개요에서는 Azure AI 서비스의 일부인 음성 서비스의 텍스트 음성 변환 기능의 이점과 기능에 대해 알아봅니다.

텍스트 음성 변환을 사용하면 애플리케이션, 도구 또는 디바이스에서 텍스트를 인간과 유사한 합성된 음성으로 변환할 수 있습니다. 텍스트 음성 변환 기능은 음성 합성이라고도 합니다. 즉시 사용 가능한 인간과 유사한 미리 빌드된 신경망 음성을 사용하거나 제품 또는 브랜드에 고유한 사용자 지정 신경망 음성을 만듭니다. 지원되는 음성, 언어 및 로캘의 전체 목록은 Speech Service에 대한 언어 및 음성 지원을 참조하세요.

핵심 기능

텍스트 음성 변환에는 다음 기능이 포함됩니다.

기능	요약	데모
미리 빌드된 인공신경망 음성(가격 책정 페이지에서 신경망이라고 함)	매우 자연스러운 즉시 사용 가능한 음성. Azure 구독과 Speech 리소스를 만든 다음 Speech SDK를 사용하거나 Speech Studio 포털을 방문하여 미리 빌드된 인공신경망 음성을 선택하여 시작합니다. 가격 책정 세부 정보를 확인하세요.	음성 갤러리를 확인하고 귀하의 비즈니스 요구에 적합한 음성을 결정하세요.
사용자 지정 신경망 음성(가격 책정 페이지에서 사용자 지정 신경망이라고 함)	책임감 있는 사용을 위해 제한된 액세스로 자연스러운 브랜드 보이스를 만들기 위한 사용하기 쉬운 셀프 서비스입니다. Azure 구독과 Speech 리소스(S0 계층 포함)를 만들고, 사용자 지정 음성 기능을 사용하도록 신청합니다. 액세스 권한을 부여받은 후 Speech Studio 포털을 방문하여 사용자 지정 음성을 선택하여 시작합니다. 가격 책정 세부 정보를 확인하세요.	음성 샘플을 확인하세요.

인공신경망 텍스트 음성 변환 기능에 대한 추가 정보

텍스트 음성 변환은 심층 신경망을 사용하여 컴퓨터의 음성을 사람의 녹음과 거의 구분할 수 없도록 만듭니다. 단어의 명확한 표현을 통해 인공신경망 텍스트 음성 변환은 사용자가 AI 시스템과 상호 작용할 때 청취 피로를 크게 줄여줍니다.

구어의 강세와 억양 패턴을 운율이라고 합니다. 기존의 TTS(텍스트 음성 변환) 시스템은 운율을 독립적인 모델에 의해 관리되는 별도의 언어 분석 및 음향 예측 단계로 나눕니다. 그 결과 희미하고 윙윙거리는 음성 합성이 발생할 수 있습니다.

음성 서비스의 인공신경망 텍스트 음성 변환 기능과 이러한 기능이 기존 텍스트 음성 변환 시스템의 한계를 극복하는 방법에 대한 자세한 내용은 다음과 같습니다.

실시간 음성 합성: 음성 SDK 또는 REST API를 사용하여 사전 구축된 신경 음성 또는 사용자 지정 인공신경망 음성을 사용하여 텍스트를 음성으로 변환합니다.
긴 오디오의 비동기 합성: 10분보다 긴 텍스트 음성 변환 파일(예: 오디오북 또는 오디오 강의)을 비동기적으로 합성하려면 일괄 처리 합성 API를 사용합니다. Speech SDK 또는 음성 텍스트 변환 REST API를 통해 수행한 합성과 달리 응답은 실시간으로 반환되지 않습니다. 요청이 비동기적으로 전송되고, 응답이 폴링되며, 서비스에서 사용할 수 있을 때 합성된 오디오가 다운로드될 것으로 예상됩니다.
미리 빌드된 인공신경망 음성: Azure AI 음성은 심층 신경망을 사용하여 구어의 강세 및 억양과 관련하여 기존 음성 합성의 한계를 극복합니다. 운율 예측 및 음성 합성은 동시에 발생하여 더 부드럽고 자연스럽게 들리는 출력이 생성됩니다. 미리 빌드된 각 신경망 음성 모델은 24kHz 및 고충실도 48kHz에서 사용할 수 있습니다. 인공신경망 음성을 사용하여 다음을 수행할 수 있습니다.
- 챗봇 및 음성 도우미와의 상호 작용을 보다 자연스럽고 매력적으로 만듭니다.
- 전자책과 같은 디지털 텍스트를 오디오북으로 변환합니다.
- 차량 내 내비게이션 시스템을 개선합니다.
플랫폼 인공신경망 음성의 전체 목록은 Speech Service에 대한 언어 및 음성 지원을 참조하세요.
SSML을 사용하여 텍스트 음성 변환 출력 개선: SSML(Speech Synthesis Markup Language)은 텍스트 음성 변환 출력을 사용자 지정하는 데 사용되는 XML 기반 생성 언어입니다. SSML을 사용하면 피치를 조정하고, 중단을 추가하고, 발음을 개선하고, 말하는 속도를 변경하고, 볼륨을 조정하고, 단일 문서에 여러 음성을 지정할 수 있습니다.

SSML을 사용하여 고유한 어휘를 정의하거나 다른 말하기 스타일로 전환할 수 있습니다. 다국어 음성 기능을 사용하면 SSML을 통해 말하는 언어를 조정할 수도 있습니다. 시나리오에 대한 음성 출력을 개선하려면 Speech Synthesis Markup Language를 사용하여 합성 향상 및 오디오 콘텐츠 만들기 도구를 사용한 음성 합성을 참조하세요.
Visemes: Viseme는 특정 음소를 생성할 때 입술, 턱 및 혀의 위치를 포함하여 관찰된 음성의 주요 포즈입니다. Viseme는 음성 및 음소와 강력한 상관 관계가 있습니다.

Speech SDK에서 viseme 이벤트를 사용하여 얼굴 애니메이션 데이터를 생성할 수 있습니다. 이런 데이터는 독화술 커뮤니케이션, 교육, 엔터테인먼트 및 고객 서비스에서 얼굴 애니메이션에 사용할 수 있습니다. Viseme은 현재 en-US(미국 영어) 인공신경망 음성에 대해서만 지원됩니다.

참고 항목

2024년에는 기존/표준 음성 및 비신경망 사용자 지정 음성을 사용 중지할 계획입니다. 그 후에는 더 이상 지원하지 않습니다.

애플리케이션, 도구 또는 제품이 표준 음성 및 Custom Voice를 사용하는 경우 인공신경망 버전으로 마이그레이션해야 합니다. 자세한 내용은 인공신경망 음성으로 마이그레이션을 참조하세요.

시작하기

텍스트 음성 변환을 시작하려면 빠른 시작을 참조하세요. 텍스트 음성 변환은 Speech SDK, REST API 및 Speech CLI를 통해 사용할 수 있습니다.

팁

코드 없는 접근 방식으로 텍스트를 음성으로 변환하려면 Speech Studio에서 오디오 콘텐츠 만들기 도구를 사용해 보세요.

샘플 코드

텍스트 음성 변환을 위한 샘플 코드는 GitHub에서 사용할 수 있습니다. 다음 샘플은 가장 널리 사용되는 프로그래밍 언어의 텍스트 음성 변환을 다룹니다.

사용자 지정 신경망 음성

미리 빌드된 인공신경망 음성 외에도 제품 또는 브랜드 고유의 사용자 지정 신경망 음성을 만들 수 있습니다. 몇 가지 오디오 파일과 연결된 대화 내용 기록만 있으면 시작할 수 있습니다. 자세한 내용은 사용자 지정 신경망 음성 시작을 참조하세요.

가격 책정 메모

청구 가능 문자

텍스트 음성 변환 기능을 사용하면 구두점을 포함하여 음성으로 변환된 각 문자에 대해 요금이 청구됩니다. SSML 문서 자체에는 요금이 청구되지 않지만 음소 및 피치 같이 텍스트가 음성으로 변환되는 방법을 조정하는 데 사용되는 선택적 요소는 청구 대상 문자로 계산됩니다. 청구 대상 항목 목록은 다음과 같습니다.

요청의 SSML 본문에 있는 텍스트 음성 변환 기능에 전달된 텍스트
<speak> 및 <voice> 태그를 제외한 SSML 형식의 요청 본문 텍스트 필드에 있는 모든 태그
문자, 문장 부호, 공백, 탭, 태그 및 모든 공백 문자
유니코드에 정의된 모든 코드 포인트

자세한 내용은 Speech Service 가격 책정을 참조하세요.

Important

각 한자는 2자로 계산되어 청구됩니다(일본어에서 사용되는 한자, 한국어에서 사용되는 한자 또는 다른 언어에서 사용되는 한자를 포함).

사용자 지정 신경망 음성에 대한 모델 학습 및 호스팅 시간

사용자 지정 신경망 음성 학습 및 호스팅은 시간별로 계산되며 초당 요금이 청구됩니다. 청구 단가는 Speech Service 가격 책정을 참조하세요.

CNV(사용자 지정 신경망 음성) 학습 시간은 ‘컴퓨팅 시간‘(컴퓨터 실행 시간을 측정하는 단위)으로 측정됩니다. 일반적으로 음성 모델을 학습시킬 때 두 개의 컴퓨팅 작업이 병렬로 실행됩니다. 따라서 계산된 컴퓨팅 시간은 실제 학습 시간보다 깁니다. 평균적으로 CNV Lite 음성을 학습하는 데 1시간 미만의 컴퓨팅 시간이 걸립니다. 하지만 CNV Pro의 경우 일반적으로 단일 스타일 음성을 학습하는 데 20~40시간의 컴퓨팅 시간, 다중 스타일 음성을 학습하는 데 약 90시간의 컴퓨팅 시간이 걸립니다. CNV 학습 시간은 최대 96시간의 컴퓨팅 시간에 대한 요금이 청구됩니다. 따라서 음성 모델이 98시간으로 학습되는 경우 96시간의 컴퓨팅 시간으로만 요금이 청구됩니다.

CNV(사용자 지정 신경망 음성) 엔드포인트 호스팅은 실제 시간(시간)으로 측정됩니다. 각 엔드포인트의 호스팅 시간(시간)은 이전 24시간 동안 매일 00:00 UTC에 계산됩니다. 예를 들어 엔드포인트가 첫날 24시간 동안 활성화된 경우 두 번째 날 00:00 UTC에 24시간에 대한 요금이 청구됩니다. 하루 동안 엔드포인트가 새로 만들어지거나 일시 중단된 경우 둘째 날 00:00 UTC까지의 누적 실행 시간에 대해 요금이 청구됩니다. 엔드포인트가 현재 호스트되지 않으면 요금이 청구되지 않습니다. 매일 00:00 UTC의 일일 계산 외에도 엔드포인트가 삭제되거나 일시 중단될 때 청구가 즉시 트리거됩니다. 예를 들어 12월 1일 08:00 UTC에 생성된 엔드포인트의 경우 호스팅 시간은 12월 2일 00:00 UTC에 16시간으로, 12월 3일 00:00 UTC에 24시간으로 계산됩니다. 사용자가 12월 3일 16:30 UTC에 엔드포인트 호스팅을 일시 중단하면 12월 3일 00:00에서 16:30 UTC까지 기간(16.5시간)이 청구를 위해 계산됩니다.

개인 음성

개인 음성 기능을 사용하면 프로필 스토리지 및 합성 비용이 모두 청구됩니다.

프로필 스토리지: 개인 음성 프로필이 만들어지면 시스템에서 제거될 때까지 요금이 청구됩니다. 일별 음성 단위로 청구됩니다. 음성 스토리지 기간이 24시간 미만인 경우 하루 종일 요금이 청구됩니다.
종합: 문자별로 요금이 청구됩니다. 청구 가능 문자에 대한 자세한 내용은 위의 청구 가능 문자를 참조하세요.

텍스트 음성 변환 아바타

문자 음성 변환 아바타 기능을 사용할 경우, 동영상 출력 길이에 따라 요금이 부과되며, 초당 요금이 발생합니다. 단, 실시간 아바타의 경우, 말을 하든, 침묵하든 상관없이 아바타가 활성화된 시간을 기준으로 요금이 부과되며, 초당 요금이 청구됩니다. 실시간 아바타 사용에 대한 비용을 최적화하려면 샘플 코드("유휴 상태에 로컬 동영상 사용" 검색)에 제공된 팁을 참조하세요. 아바타 호스팅은 엔드포인트별로 초당 요금이 청구됩니다. 비용을 절약하기 위해 엔드포인트를 일시 중단할 수 있습니다. 엔드포인트를 일시 중단하려면 직접 삭제할 수 있습니다. 다시 사용하려면 엔드포인트를 다시 배포하면 됩니다.

Azure 텍스트 음성 변환 메트릭 모니터링

텍스트 음성 변환 서비스와 관련된 주요 메트릭을 모니터링하는 것은 리소스 사용량을 관리하고 비용을 제어하는 데 매우 중요합니다. 이 섹션에서는 Azure Portal에서 사용량 정보를 찾고 주요 메트릭에 대한 자세한 정의를 제공하는 방법을 안내합니다. Azure Monitor 메트릭에 대한 자세한 내용은 Azure Monitor 메트릭 개요를 참조하세요.

Azure Portal에서 사용량 정보를 찾는 방법

Azure 리소스를 효과적으로 관리하려면 정기적으로 사용량 정보에 액세스하고 검토해야 합니다. 사용량 정보를 찾는 방법은 다음과 같습니다.

Azure Portal로 이동하여 Azure 계정으로 로그인합니다.
리소스로 이동하고 모니터링할 리소스를 선택합니다.
왼쪽 메뉴의 모니터링 아래에서 메트릭을 선택합니다.
메트릭 보기를 사용자 지정합니다.

리소스 종류, 메트릭 형식, 시간 범위 및 기타 매개 변수를 기준으로 데이터를 필터링하여 모니터링 요구 사항에 맞는 사용자 지정 보기를 만들 수 있습니다. 또한 대시보드에 저장을 선택하여 메트릭 보기를 대시보드에 저장하면 자주 사용하는 메트릭에 쉽게 액세스할 수 있습니다.
경고 설정.

사용량을 좀 더 효과적으로 관리하려면 왼쪽 메뉴에서 모니터링 아래의 경고 탭으로 이동하여 경고를 설정합니다. 경고는 사용량이 특정 임계값에 도달하면 알려 예기치 않은 비용을 방지할 수 있습니다.

메트릭 정의

다음은 Azure 텍스트 음성 변환 서비스에 대한 주요 메트릭을 요약한 표입니다.

메트릭 이름	설명
합성 문자	미리 빌드된 인공신경망 음성 및 사용자 지정 인공공신경망 음성을 포함하여 음성으로 변환된 문자 수를 추적합니다. 청구 가능 문자에 대한 자세한 내용은 청구 가능 문자를 참조하세요.
비디오 초 합성	일괄 처리 아바타 합성, 실시간 아바타 합성 및 사용자 지정 아바타 합성을 포함하여 합성된 비디오의 총 기간을 측정합니다.
아바타 모델 호스팅 초	사용자 지정 아바타 모델이 호스트되는 총 시간(초)을 추적합니다.
음성 모델 호스팅 시간	사용자 지정 신경망 음성 모델이 호스트되는 총 시간(시간)을 추적합니다.
음성 모델 학습(분)	사용자 지정 신경망 음성 모델을 학습하기 위한 총 시간(분)을 측정합니다.

참조 문서

책임 있는 AI

AI 시스템에는 기술뿐만 아니라 이를 사용하는 사람, 영향을 받는 사람, 배포되는 환경도 포함됩니다. 시스템에서의 책임감 있는 AI 사용 및 배포에 대해 알아보려면 투명성 참고 사항을 읽어보세요.

다음을 통해 공유