전문 보이스 프로젝트에 성우 동의 추가

성우는 음성이 녹음되어 신경망 음성 모델을 만드는 데 사용되는 개인 또는 대상 화자입니다.

신경망 음성을 학습하려면 먼저 성우의 동의 설명 녹음을 제출해야 합니다. 성우 설명은 성우가 음성 데이터를 사용하여 사용자 지정 음성 모델을 학습시키는 데 동의한다는 설명을 읽는 녹음입니다. 동의 문은 성우가 학습 데이터의 화자와 동일한 사람인지 확인하는 데도 사용됩니다.

Speech Studio를 시작하기 전에 음성 가상 사용자를 정의하고 올바른 성우를 선택합니다.

GitHub에서 여러 언어로 된 음성 동의 설명을 찾을 수 있습니다. 구두 문장의 언어는 녹음 내용과 동일해야 합니다. 성우에 대한 공개도 참조하세요.

성우 추가

성우 프로필을 추가하고 동의 설명을 업로드하려면 다음 단계를 수행합니다.

  1. Speech Studio에 로그인합니다.
  2. Custom Voice> 프로젝트 이름 >성우 설정>성우 추가를 선택합니다.
  3. 새 성우 추가 마법사에서 만들려는 음성의 특징을 설명합니다. 여기서 지정하는 시나리오는 애플리케이션 양식에서 제공한 시나리오와 일치해야 합니다.
  4. 다음을 선택합니다.
  5. 성우 설명 업로드 페이지에서 지침에 따라 미리 녹음한 성우 설명을 업로드합니다. 음성 설명이 학습 데이터와 동일한 설정, 환경 및 말하기 스타일로 기록되었는지 확인합니다. 성우 설명 업로드 대화 상자의 스크린샷
  6. 성우 이름 및 회사 이름을 입력합니다. 성우 이름은 동의 설명을 녹음한 사람의 이름이어야 합니다. 녹음된 설명에 사용된 것과 동일한 언어로 이름을 입력합니다. 회사 이름은 녹음된 설명에서 말한 회사 이름과 일치해야 합니다. 회사 이름이 녹음된 설명과 동일한 언어로 입력되었는지 확인합니다.
  7. 다음을 선택합니다.
  8. 성우 및 가상 사용자 세부 정보를 검토하고 제출을 선택합니다.

성우 상태가 성공이면 사용자 지정 음성 모델 학습을 진행할 수 있습니다.

다음 단계

전문 보이스 기능을 사용하려면 모든 음성을 사용자의 명시적 동의로 만들어야 합니다. 사용자의 기록된 문은 고객(Azure AI 음성 리소스 소유자)이 음성을 만들고 사용할 것임을 인정하는 데 필요합니다.

전문 보이스 프로젝트에 성우 동의를 추가하려면 공개적으로 액세스할 수 있는 URL(Consents_Create)에서 사전 녹음된 동의 오디오 파일을 가져오거나 오디오 파일(Consents_Post)을 업로드합니다. 이 문서에서는 URL에서 동의를 추가합니다.

동의 문을 말하는 사용자의 오디오 녹음이 필요합니다.

텍스트 음성 변환 GitHub 리포지토리로 각 로캘에 대한 동의 문 텍스트를 가져올 수 있습니다. en-US 로캘에 대한 동의 문은 SpeakerAuthorization.txt를 참조하세요.

"I  [state your first and last name] am aware that recordings of my voice will be used by [state the name of the company] to create and use a synthetic version of my voice."

오디오 파일의 URL에서 전문 보이스 프로젝트에 대한 동의를 추가하려면 사용자 지정 음성 API의 Consents_Create 작업을 사용합니다. 다음 지침에 따라 요청 본문을 생성합니다.

  • 필수 projectId 속성을 설정합니다. 프로젝트 만들기를 참조하세요.
  • 필수 voiceTalentName 속성을 설정합니다. 성우 이름은 동의 설명을 녹음한 사람의 이름이어야 합니다. 녹음된 설명에 사용된 것과 동일한 언어로 이름을 입력합니다. 성우 이름은 나중에 변경할 수 없습니다.
  • 필수 companyName 속성을 설정합니다. 회사 이름은 녹음된 설명에서 말한 회사 이름과 일치해야 합니다. 회사 이름이 녹음된 설명과 동일한 언어로 입력되었는지 확인합니다. 회사 이름은 나중에 변경할 수 없습니다.
  • 필수 audioUrl 속성을 설정합니다. 성우 동의 오디오 파일의 URL입니다. SAS(공유 액세스 서명) 토큰과 함께 URI를 사용합니다.
  • 필수 locale 속성을 설정합니다. 동의의 로캘이어야 합니다. 로캘은 나중에 변경할 수 없습니다. 여기에서 텍스트 음성 변환 로캘 목록을 찾을 수 있습니다.

다음 Consents_Create 예제와 같이 URI를 사용하여 HTTP PUT 요청을 수행합니다.

  • YourResourceKey를 Speech 리소스 키로 바꿉니다.
  • YourResourceRegion을 음성 리소스 지역으로 바꿉니다.
  • JessicaConsentId를 선택한 동의 ID로 대체합니다. 대/소문자 구분 ID는 동의 URI에 사용되며 나중에 변경할 수 없습니다.
curl -v -X PUT -H "Ocp-Apim-Subscription-Key: YourResourceKey" -H "Content-Type: application/json" -d '{
  "description": "Consent for Jessica voice",
  "projectId": "ProjectId",
  "voiceTalentName": "Jessica Smith",
  "companyName": "Contoso",
  "audioUrl": "https://contoso.blob.core.windows.net/public/jessica-consent.wav?mySasToken",
  "locale": "en-US"
} '  "https://YourResourceRegion.api.cognitive.microsoft.com/customvoice/consents/JessicaConsentId?api-version=2024-02-01-preview"

응답 본문은 다음 형식으로 표시되어야 합니다.

{
  "id": "JessicaConsentId",
  "description": "Consent for Jessica voice",
  "projectId": "ProjectId",
  "voiceTalentName": "Jessica Smith",
  "companyName": "Contoso",
  "locale": "en-US",
  "status": "NotStarted",
  "createdDateTime": "2023-04-01T05:30:00.000Z",
  "lastActionDateTime": "2023-04-02T10:15:30.000Z"
}

응답 헤더에는 Operation-Location 속성이 포함되어 있습니다. 이 URI를 사용하여 Consents_Create 작업에 대한 세부 정보를 가져옵니다. 응답 헤더의 예는 다음과 같습니다.

Operation-Location: https://eastus.api.cognitive.microsoft.com/customvoice/operations/070f7986-ef17-41d0-ba2b-907f0f28e314?api-version=2024-02-01-preview
Operation-Id: 070f7986-ef17-41d0-ba2b-907f0f28e314

다음 단계