Treinar seu modelo de voz profissional

Artigo
09/23/2024

Neste artigo, você vai aprender a treinar a Sintetização de Voz Personalizada por meio do portal do Speech Studio.

Importante

O treinamento da voz neural personalizada só está disponível em algumas regiões. Depois que seu modelo de voz está treinado em uma região com suporte, você pode copiá-lo para um recurso de Fala em outra região, conforme necessário. Para obter mais informações, confira as notas de rodapé na tabela do serviço de Fala.

A duração do treinamento varia dependendo da quantidade de dados que você usa. Em média, o treinamento de uma sintetização de voz personalizada leva cerca de 40 horas de computação. Usuários com assinatura Standard (S0) podem treinar até quatro vozes simultaneamente. Se o limite for alcançado, aguarde até que pelo menos um dos modelos de voz termine o treinamento; em seguida, tente novamente.

Observação

Embora o número total de horas necessárias por método de treinamento varie, o mesmo preço unitário se aplica a cada um. Para mais informações, confira os detalhes de preços de treinamento neural personalizado.

Escolher um método de treinamento

Após validar seus arquivos de dados, use-os para criar seu modelo de voz neural personalizada. Ao criar uma sintetização de voz personalizada, você pode optar por treiná-la com um dos seguintes métodos:

Neural: crie uma voz na mesma linguagem dos dados de treinamento.
Neural – multilíngue: crie uma voz que fale um idioma diferente dos dados de treinamento. Por exemplo, com os dados de treinamento zh-CN, é possível criar uma voz que fale en-US.

O idioma dos dados de treinamento e o idioma de destino devem ser um dos idiomas com suporte para treinamento de voz entre idiomas. Você não precisa preparar dados de treinamento no idioma de destino, mas seu script de teste precisa estar no idioma de destino.
Neural – vários estilos: crie uma voz neural personalizada que fale com vários estilos e emoções sem adicionar novos dados de treinamento. Vozes de vários estilos são úteis para personagens de videogame, chatbots de conversa, livros de áudio, leitores de conteúdo e muito mais.

Para criar uma voz de vários estilos, você precisa preparar um conjunto de dados de treinamento geral, pelo menos 300 enunciados. Selecione um ou mais dos estilos de fala de destino predefinidos. Também é possível criar até dez estilos personalizados fornecendo exemplos de estilo, de pelo menos cem enunciados por estilo, como dados de treinamento extras para a mesma voz. Os estilos predefinidos com suporte variam em idiomas diferentes. Confira Estilos predefinidos disponíveis em diferentes idiomas.

O idioma dos dados de treinamento deve ser um dos idiomas com suporte para treinamento neural de voz personalizada, entre idiomas ou de vários estilos.

Treinar o modelo de sintetização de voz personalizada

Para criar uma sintetização de voz personalizada no Speech Studio, siga estas etapas para um dos seguintes métodos:

Entre no Speech Studio.
Selecione Voz personalizada><Nome do seu projeto>>Treinar modelo>Treinar um novo modelo.
Selecione Neural como o método de treinamento para seu modelo e selecione Avançar. Para usar um método de treinamento diferente, confira Neural – multilíngue ou Neural – vários estilos.
Selecione uma versão da receita de treinamento para seu modelo. A versão mais recente é selecionada por padrão. Os recursos com suporte e o tempo de treinamento podem variar de acordo com a versão. Normalmente, recomendamos a versão mais recente. Em alguns casos, você pode escolher uma versão mais antiga para reduzir o tempo de treinamento. Confira o Treinamento bilíngue para obter mais informações sobre treinamento bilíngue e diferenças entre localidades.

Observação

As versões de modelo V2.2021.07, V4.2021.10, V5.2022.05, V6.2022.11 e V9.2023.10 serão desativadas até 1º de outubro de 2024. Os modelos de voz já criados nessas versões desativadas não serão afetados.
Selecione os dados que você deseja usar para treinamento. Nomes de áudio duplicados são removidos do treinamento. Certifique-se de que os dados selecionados não contenham os mesmos nomes de áudio em vários arquivos .zip.

Você só pode selecionar conjuntos de dados processados com êxito para treinamento. Se você não vir o conjunto de treinamento na lista, verifique o status de processamento de dados.
Selecione um arquivo de locutor com a declaração do talento de voz que corresponde ao locutor em seus dados de treinamento.
Selecione Avançar.
Cada treinamento gera automaticamente 100 arquivos de áudio de exemplo, para ajudar você a testar o modelo com um script padrão.

Opcionalmente, você também pode selecionar Adicionar meu próprio script de teste e fornecer seu próprio script de teste com até 100 declarações para testar o modelo sem custo extra. Os arquivos de áudio gerados são uma combinação dos scripts de teste automáticos e dos scripts de teste personalizados. Para mais informações, confira requisitos de script de teste.
Insira um nome para ajudar a identificar o modelo. Escolha um nome com cuidado. O nome do modelo é usado como o nome de voz em sua solicitação de síntese de fala pela entrada do SDK e SSML. Apenas letras, números e alguns caracteres de pontuação são permitidos. Use nomes diferentes para modelos de voz neural diferentes.
Opcionalmente, insira a Descrição para ajudá-lo a identificar o modelo. Um uso comum do campo de descrição é registrar os nomes dos dados usados para criar o modelo.
Selecione Avançar.
Revise as configurações e selecione a caixa para aceitar os termos de uso.
Selecione Enviar para começar a treinar o modelo.

Entre no Speech Studio.
Selecione Voz personalizada><Nome do seu projeto>>Treinar modelo>Treinar um novo modelo.
Selecione Neural – vários estilos como o método de treinamento para seu modelo. Para usar um método de treinamento diferente, confira Neural ou Neural – multilíngue.
Selecione um ou mais estilos de fala predefinidos para treinar.
Selecione os dados que você deseja usar para treinamento. Nomes de áudio duplicados são removidos do treinamento. Certifique-se de que os dados selecionados não contenham os mesmos nomes de áudio em vários arquivos .zip.

Você só pode selecionar conjuntos de dados processados com êxito para treinamento. Verifique o status do processamento de dados se você não vir o conjunto de treinamento na lista.
Selecione Avançar.
Opcionalmente, você pode adicionar outros estilos de fala personalizados. O número máximo de estilos personalizados varia de acordo com o idioma: English (United States) permite até dez estilos personalizados, Chinese (Mandarin, Simplified) permite até quatro estilos personalizados e Japanese (Japan) permite até cinco estilos personalizados.
1. Selecione Adicionar um estilo personalizado e insira um nome de estilo personalizado de sua escolha. Esse nome é usado pelo aplicativo dentro do elemento style da Linguagem de Marcação de Síntese de Fala (SSML). Você também pode usar o nome de estilo personalizado como SSML usando a ferramenta Criação de Conteúdo de Áudio no Speech Studio.
2. Selecione exemplos de estilo como dados de treinamento. Verifique se os dados de treinamento para estilos de fala personalizados vêm do mesmo locutor que os dados usados para criar o estilo padrão.
Selecione Avançar.
Selecione um arquivo de locutor com a declaração do talento de voz que corresponde ao locutor em seus dados de treinamento.
Selecione Avançar.
Cada treinamento gera automaticamente 100 arquivos de áudio de exemplo para o estilo padrão e 20 para cada estilo predefinido para ajudá-lo a testar o modelo com um script padrão.

Opcionalmente, você também pode marcar a caixa ao lado de Adicionar meu próprio script de teste e fornecer seu próprio script de teste com até 100 enunciados para testar o estilo padrão sem custo adicional. Os arquivos de áudio gerados são uma combinação dos scripts de teste automáticos e dos scripts de teste personalizados. Para mais informações, confira requisitos de script de teste.

Insira um nome para ajudar a identificar o modelo. Escolha um nome com cuidado. O nome do modelo é usado como o nome de voz em sua solicitação de síntese de fala pela entrada do SDK e SSML. Apenas letras, números e alguns caracteres de pontuação são permitidos. Use nomes diferentes para modelos de voz neural diferentes.
Opcionalmente, insira a Descrição para ajudá-lo a identificar o modelo. Um uso comum do campo de descrição é registrar os nomes dos dados usados para criar o modelo.
Selecione Avançar.
Revise as configurações e selecione a caixa para aceitar os termos de uso.
Selecione Enviar para começar a treinar o modelo.

Treinamento bilíngue

Se selecionar o tipo de treinamento Neural, você poderá treinar uma voz para falar em vários idiomas. As localidades zh-CN, zh-HK e zh-TW dão suporte ao treinamento bilíngue para que a voz fale chinês e inglês. Dependendo, em parte, dos seus dados de treinamento, a voz sintetizada pode falar inglês com sotaque de inglês nativo ou inglês com o mesmo sotaque dos dados de treinamento.

Observação

Para permitir que uma voz na localidade zh-CN fale inglês com o mesmo sotaque dos dados de treinamento, você deve escolher Chinese (Mandarin, Simplified), English bilingual ao criar um projeto ou especificar a localidade zh-CN (English bilingual) para os dados do conjunto de treinamento por meio da API REST.

A tabela a seguir mostra as diferenças nas localidades:

Localidade do Speech Studio	Localidade da API REST	Suporte bilíngue
`Chinese (Mandarin, Simplified)`	`zh-CN`	Se a amostra de dados incluir o inglês, a voz sintetizada falará inglês com um sotaque de inglês nativo em vez do mesmo sotaque dos dados de exemplo, independentemente da quantidade de dados em inglês.
`Chinese (Mandarin, Simplified), English bilingual`	`zh-CN (English bilingual)`	Se você quiser que a voz sintetizada fale inglês com o mesmo sotaque dos dados de exemplo, recomendamos incluir mais de 10% de dados em inglês no seu conjunto de treinamento. Caso contrário, o sotaque do inglês poderá não ser o ideal.
`Chinese (Cantonese, Simplified)`	`zh-HK`	Se quiser treinar uma voz sintetizada capaz de falar inglês com o mesmo sotaque da sua amostra de dados, certifique-se de fornecer mais de 10% dos dados em inglês no seu conjunto de treinamento. Caso contrário, será usado o padrão com um sotaque de inglês nativo. O limite de 10% é calculado com base nos dados aceitos após um upload bem-sucedido, não nos dados anteriores ao upload. Se alguns dos dados em inglês carregados forem rejeitados devido a um defeito e o total não atingir o limite de 10%, a voz sintetizada usará como padrão um sotaque de inglês nativo.
`Chinese (Taiwanese Mandarin, Traditional)`	`zh-TW`	Se quiser treinar uma voz sintetizada capaz de falar inglês com o mesmo sotaque da sua amostra de dados, certifique-se de fornecer mais de 10% dos dados em inglês no seu conjunto de treinamento. Caso contrário, será usado o padrão com um sotaque de inglês nativo. O limite de 10% é calculado com base nos dados aceitos após um upload bem-sucedido, não nos dados anteriores ao upload. Se alguns dos dados em inglês carregados forem rejeitados devido a um defeito e o total não atingir o limite de 10%, a voz sintetizada usará como padrão um sotaque de inglês nativo.

Estilos predefinidos disponíveis em diferentes idiomas

A tabela a seguir resume os diferentes estilos predefinidos de acordo com o idioma.

Estilo de fala	Idioma (localidade)
bravo	Inglês (Estados Unidos) (`en-US`) Japonês (Japão) (`ja-JP`) ¹ Chinês (mandarim, simplificado) (`zh-CN`) ¹
calmo	Chinês (mandarim, simplificado) (`zh-CN`) ¹
chat	Chinês (mandarim, simplificado) (`zh-CN`) ¹
alegre	Inglês (Estados Unidos) (`en-US`) Japonês (Japão) (`ja-JP`) ¹ Chinês (mandarim, simplificado) (`zh-CN`) ¹
descontente	Chinês (mandarim, simplificado) (`zh-CN`) ¹
empolgado	Inglês (Estados Unidos) (`en-US`)
assustado	Chinês (mandarim, simplificado) (`zh-CN`) ¹
amigável	Inglês (Estados Unidos) (`en-US`)
esperançoso	Inglês (Estados Unidos) (`en-US`)
triste	Inglês (Estados Unidos) (`en-US`) Japonês (Japão) (`ja-JP`) ¹ Chinês (mandarim, simplificado) (`zh-CN`) ¹
gritando	Inglês (Estados Unidos) (`en-US`)
sério	Chinês (mandarim, simplificado) (`zh-CN`) ¹
aterrorizado	Inglês (Estados Unidos) (`en-US`)
antipática	Inglês (Estados Unidos) (`en-US`)
sussurrante	Inglês (Estados Unidos) (`en-US`)

¹ O estilo de voz neural está disponível em visualização pública. Os estilos em versão prévia pública estão disponíveis somente em três regiões de serviço: Leste dos EUA, Oeste da Europa e Sudeste da Ásia.

A tabela Modelo de treinamento exibe uma nova entrada que corresponde ao modelo recém-criado. O status reflete o processo de conversão dos dados em um modelo de voz, conforme descrito nesta tabela:

Estado	Significado
Processing	Seu modelo de voz está sendo criado.
Com sucesso	Seu modelo de voz foi criado e pode ser implantado.
Com falha	Seu modelo de voz falhou no treinamento. A causa da falha pode ser, por exemplo, problemas de dados ou problemas de rede não vistos.
Canceled	O treinamento para seu modelo de voz foi cancelado.

Quando o status do modelo for Em processamento, selecione Cancelar treinamento para cancelar seu modelo de voz. Você não será cobrado por esse treinamento cancelado.

Captura de tela que mostra como cancelar o treinamento para um modelo.

Depois de concluir com sucesso o treinamento do modelo, examine os detalhes do modelo e Teste o modelo de voz.

Você pode usar a ferramenta Criação de Conteúdo de Áudio no Speech Studio para criar áudio e ajustar sua voz implantada. Se aplicável à sua voz, você pode selecionar um dos vários estilos.

Renomear seu modelo

Caso queira renomear o modelo criado, selecione Clonar modelo para criar um clone do modelo com um novo nome no projeto atual.
Insira o novo nome na janela Clonar modelo de voz e selecione Enviar. O texto Neural é adicionado automaticamente como um sufixo ao seu novo nome do modelo.

Testar seu modelo de voz

Depois que o seu modelo de voz for criado com sucesso, você poderá usar os arquivos de áudio de exemplo gerados para testá-lo antes de implantá-lo.

A qualidade da voz depende de vários fatores, como:

O tamanho dos dados de treinamento.
A qualidade da gravação.
A precisão do arquivo de transcrição.
Quão bem a voz gravada nos dados de treinamento corresponde à personalidade da voz projetada para seu caso de uso pretendido.

Selecione DefaultTests em Teste para ouvir os arquivos de áudio de exemplo. Os exemplos de teste padrão incluem 100 arquivos de áudio de exemplo gerados automaticamente durante o treinamento para ajudar você a testar o modelo. Além desses 100 arquivos de áudio fornecidos por padrão, suas próprias declarações de script de teste também são adicionadas ao conjunto DefaultTests. Essa adição é de no máximo 100 enunciados. Você não é cobrado pelo teste com DefaultTests.

Captura de tela da seleção de DefaultTests em Teste.

Caso queira carregar seus próprios scripts de teste para testar ainda mais seu modelo, selecione Adicionar scripts de teste.

Captura de tela da adição do modelo de scripts de teste.

Antes de carregar o script de teste, verifique os requisitos de script de teste. Você é cobrado pelo teste extra com a síntese em lote com base no número de caracteres faturáveis. Confira preços da Fala de IA do Azure.

Sob Adicionar scripts de teste, selecione Procurar um arquivo para selecionar seu próprio script e selecione Adicionar para carregá-lo.

Captura de tela do carregamento do modelo de scripts de teste.

Requisitos de script de teste

O script de teste deve ser um arquivo .txt com menos de 1 MB de tamanho. Os formatos de codificação com suporte incluem ANSI/ASCII, UTF-8, UTF-8-BOM, UTF-16-LE ou UTF-16-BE.

Ao contrário dos arquivos de transcrição de treinamento, o script de teste deve excluir a ID de enunciado, que é o nome de arquivo de cada enunciado. Caso contrário, essas IDs serão faladas.

Aqui está um exemplo de conjunto de enunciados em um arquivo .txt:

This is the waistline, and it's falling.
We have trouble scoring.
It was Janet Maslin.

Cada parágrafo do enunciado resulta em um áudio separado. Se você quiser combinar todas as frases em um áudio, organize-as um único parágrafo.

Observação

Os arquivos de áudio gerados são uma combinação dos scripts de teste automáticos e dos scripts de teste personalizados.

Atualizar a versão do mecanismo para o modelo de voz

Os mecanismos de conversão de texto em fala do Azure são atualizados periodicamente para capturar o modelo de idioma mais recente que define a pronúncia do idioma. Depois de treinar sua voz, você poderá aplicar sua voz ao novo modelo de linguagem atualizando para a versão mais recente do mecanismo.

Quando um novo mecanismo está disponível, você é solicitado a atualizar seu modelo de voz neural.
Vá para a página de detalhes do modelo e siga as instruções na tela para instalar o mecanismo mais recente.

Como alternativa, selecione Instalar o mecanismo mais recente para atualizar seu modelo para a versão mais recente do mecanismo.

Você não é cobrado pela atualização do mecanismo. As versões anteriores ainda são mantidas.
Você pode verificar todas as versões do mecanismo para esse modelo na lista de versão do Mecanismo ou remover uma se não precisar mais dela.

A versão atualizada é definida automaticamente como padrão. Mas você pode alterar a versão padrão selecionando uma versão na lista suspensa e selecionando Definir como padrão.

Se quiser testar cada versão do mecanismo do modelo de voz, selecione uma versão na lista e selecione DefaultTests em Teste para ouvir os arquivos de áudio de exemplo. Se você quiser carregar seus próprios scripts de teste para testar ainda mais sua versão atual do mecanismo, primeiro verifique se a versão está definida como padrão e siga as etapas em Testar o seu modelo de voz.

A atualização do mecanismo cria uma nova versão do modelo sem custo adicional. Depois de atualizar a versão do mecanismo para o modelo de voz, você precisa implantar a nova versão para criar um novo ponto de extremidade. Você só pode implantar a versão padrão.

Captura de tela que mostra como reimplantar uma nova versão do modelo de voz.

Depois de criar um novo ponto de extremidade, você precisará transferir o tráfego para o novo ponto de extremidade em seu produto.

Para saber mais sobre as capacidades e os limites desse recurso e a melhor prática para melhorar a qualidade do modelo, confira Características e limitações para usar a voz neural personalizada.

Copiar seu modelo de voz para outro projeto

É possível copiar seu modelo de voz para outro projeto para a mesma região ou outra região. Por exemplo, você pode copiar um modelo de voz neural que foi treinado em uma região, para um projeto para outra região.

Observação

O treinamento da voz neural personalizada só está disponível em algumas regiões. Você pode copiar um modelo de voz neural dessas regiões para outras regiões. Para obter mais informações, consulte as regiões para voz neural personalizado.

Para copiar seu modelo de voz neural personalizado para outro projeto:

Na guia Treinar modelo, selecione um modelo de voz que você deseja copiar e, em seguida, selecione Copiar para projeto.
Selecione a Assinatura, Região, o Recurso de Fala e Projeto onde você deseja copiar o modelo. Você deve ter um recurso de fala e um projeto na região de destino, caso contrário, você precisa criá-los primeiro.
Selecione Enviar para copiar o modelo.
Selecione o Modelo de exibição na mensagem de notificação para uma cópia bem-sucedida.

Navegue até o projeto em que você copiou o modelo para implantar a cópia do modelo.

Próximas etapas

Implantar o ponto de extremidade de voz profissional

Neste artigo, você vai aprender a treinar a sintetização de voz personalizada por meio do portal da API da voz personalizada.

Importante

Observação

Escolher um método de treinamento

Neural: crie uma voz na mesma linguagem dos dados de treinamento.
Neural – multilíngue: crie uma voz que fale um idioma diferente dos dados de treinamento. Por exemplo, com os dados de treinamento fr-FR, é possível criar uma voz que fale en-US.

O idioma dos dados de treinamento e o idioma de destino devem ser um dos idiomas com suporte para treinamento de voz entre idiomas. Você não precisa preparar dados de treinamento no idioma de destino, mas seu script de teste precisa estar no idioma de destino.
Neural – vários estilos: crie uma voz neural personalizada que fale com vários estilos e emoções sem adicionar novos dados de treinamento. Vozes de vários estilos são úteis para personagens de videogame, chatbots de conversa, livros de áudio, leitores de conteúdo e muito mais.

Para criar uma voz de vários estilos, você precisa preparar um conjunto de dados de treinamento geral, pelo menos 300 enunciados. Selecione um ou mais dos estilos de fala de destino predefinidos. Também é possível criar até dez estilos personalizados fornecendo exemplos de estilo, de pelo menos cem enunciados por estilo, como dados de treinamento extras para a mesma voz. Os estilos predefinidos com suporte variam em idiomas diferentes. Confira Estilos predefinidos disponíveis em diferentes idiomas.

O idioma dos dados de treinamento deve ser um dos idiomas com suporte para treinamento neural de voz personalizada, entre idiomas ou de vários estilos.

Ciar um modelo de voz

Para criar uma voz neural, use a operação Models_Create da API de voz personalizada. Construa o corpo da solicitação de acordo com as seguintes instruções:

Defina a propriedade projectId necessária. Consulte Criar um projeto.
Defina a propriedade consentId obrigatória. Confira adicionar consentimento do talento de voz.
Defina a propriedade trainingSetId obrigatória. Confira criar um conjunto de treinamento.
Defina a propriedade da receita kind necessária como Default para treinamento de voz neural. O tipo de receita indica o método de treinamento e não pode ser alterado posteriormente. Para usar um método de treinamento diferente, confira Neural – multilíngue ou Neural – vários estilos. Confira o Treinamento bilíngue para obter mais informações sobre treinamento bilíngue e diferenças entre localidades.
Defina a propriedade voiceName obrigatória. O nome de voz deve terminar com "Neural" e não pode ser alterado posteriormente. Escolha um nome com cuidado. O nome de voz é usado em sua solicitação de síntese de fala pela entrada do SDK e SSML. Apenas letras, números e alguns caracteres de pontuação são permitidos. Use nomes diferentes para modelos de voz neural diferentes.
Opcionalmente, defina a propriedade description para a descrição da voz. A descrição da voz pode ser alterada posteriormente.

Faça uma solicitação HTTP PUT usando o URI, conforme mostrado no exemplo de Models_Create a seguir.

Substitua YourResourceKey pela chave do recurso de Fala.
Substitua YourResourceRegion pela região do recurso de Fala.
Substitua JessicaModelId por uma ID de modelo de sua escolha. A ID que diferencia maiúsculas e minúsculas será usada no URI do modelo e não poderá ser alterada posteriormente.

curl -v -X PUT -H "Ocp-Apim-Subscription-Key: YourResourceKey" -H "Content-Type: application/json" -d '{
  "voiceName": "JessicaNeural",
  "description": "Jessica voice",
  "recipe": {
    "kind": "Default"
  },
  "projectId": "ProjectId",
  "consentId": "JessicaConsentId",
  "trainingSetId": "JessicaTrainingSetId"
} '  "https://YourResourceRegion.api.cognitive.microsoft.com/customvoice/models/JessicaModelId?api-version=2024-02-01-preview"

Você deve receber um corpo de resposta no seguinte formato:

{
  "id": "JessicaModelId",
  "voiceName": "JessicaNeural",
  "description": "Jessica voice",
  "recipe": {
    "kind": "Default",
    "version": "V7.2023.03"
  },
  "projectId": "ProjectId",
  "consentId": "JessicaConsentId",
  "trainingSetId": "JessicaTrainingSetId",
  "locale": "en-US",
  "engineVersion": "2023.07.04.0",
  "status": "NotStarted",
  "createdDateTime": "2023-04-01T05:30:00.000Z",
  "lastActionDateTime": "2023-04-02T10:15:30.000Z"
}

Para criar uma voz neural multilíngue, use a operação Models_Create da API de voz personalizada. Construa o corpo da solicitação de acordo com as seguintes instruções:

Defina a propriedade projectId necessária. Consulte Criar um projeto.
Defina a propriedade consentId obrigatória. Confira adicionar consentimento do talento de voz.
Defina a propriedade trainingSetId obrigatória. Confira criar um conjunto de treinamento.
Defina a propriedade da receita kind necessária como CrossLingual para treinamento de voz multilíngue. O tipo de receita indica o método de treinamento e não pode ser alterado posteriormente. Para usar um método de treinamento diferente, confira Neural ou Neural – vários estilos.
Defina a propriedade voiceName obrigatória. O nome de voz deve terminar com "Neural" e não pode ser alterado posteriormente. Escolha um nome com cuidado. O nome de voz é usado em sua solicitação de síntese de fala pela entrada do SDK e SSML. Apenas letras, números e alguns caracteres de pontuação são permitidos. Use nomes diferentes para modelos de voz neural diferentes.
Defina a propriedade locale necessária para o idioma que sua voz falará. A voz fala um idioma diferente dos dados de treinamento. Você pode especificar apenas um idioma de destino para um modelo de voz.
Opcionalmente, defina a propriedade description para a descrição da voz. A descrição da voz pode ser alterada posteriormente.

Faça uma solicitação HTTP PUT usando o URI, conforme mostrado no exemplo de Models_Create a seguir.

Substitua YourResourceKey pela chave do recurso de Fala.
Substitua YourResourceRegion pela região do recurso de Fala.
Substitua JessicaModelId por uma ID de modelo de sua escolha. A ID que diferencia maiúsculas e minúsculas será usada no URI do modelo e não poderá ser alterada posteriormente.

curl -v -X PUT -H "Ocp-Apim-Subscription-Key: YourResourceKey" -H "Content-Type: application/json" -d '{
  "voiceName": "JessicaCrossLingualNeural",
  "description": "Jessica cross lingual voice",
  "recipe": {
    "kind": "CrossLingual"
  },
  "projectId": "ProjectId",
  "consentId": "JessicaConsentId",
  "trainingSetId": "Jessica-en-US-TrainingSetId",
  "locale": "fr-FR"
} '  "https://YourResourceRegion.api.cognitive.microsoft.com/customvoice/models/JessicaModelId?api-version=2024-02-01-preview"

Você deve receber um corpo de resposta no seguinte formato:

{
  "id": "JessicaModelId",
  "voiceName": "JessicaNeuralCrossLingual",
  "description": "Jessica cross lingual voice",
  "recipe": {
    "kind": "CrossLingual",
    "version": "V5.2023.07"
  },
  "projectId": "ProjectId",
  "consentId": "JessicaConsentId",
  "trainingSetId": "Jessica-en-US-TrainingSetId",
  "locale": "fr-FR",
  "engineVersion": "2023.11.14.0",
  "status": "NotStarted",
  "createdDateTime": "2023-04-01T05:30:00.000Z",
  "lastActionDateTime": "2023-04-02T10:15:30.000Z"
}

Para criar uma voz neural de vários estilos, use a operação Models_Create da API de voz personalizada. Construa o corpo da solicitação de acordo com as seguintes instruções:

Defina a propriedade projectId necessária. Consulte Criar um projeto.
Defina a propriedade consentId obrigatória. Confira adicionar consentimento do talento de voz.
Defina a propriedade trainingSetId obrigatória. Confira criar um conjunto de treinamento.
Defina a propriedade da receita kind necessária como MultiStyle para treinamento de voz de vários estilos. O tipo de receita indica o método de treinamento e não pode ser alterado posteriormente. Para usar um método de treinamento diferente, confira Neural ou Neural – multilíngue.
Defina a propriedade voiceName obrigatória. O nome de voz deve terminar com "Neural" e não pode ser alterado posteriormente. Escolha um nome com cuidado. O nome de voz é usado em sua solicitação de síntese de fala pela entrada do SDK e SSML. Apenas letras, números e alguns caracteres de pontuação são permitidos. Use nomes diferentes para modelos de voz neural diferentes.
Defina a propriedade locale necessária para o idioma do seu modelo de voz.
Defina a propriedade presetStyles necessária como um ou mais estilos predefinidos disponíveis para o idioma de destino.
Opcionalmente, defina a propriedade styleTrainingSetIds para fornecer dados de treinamento para seus estilos de fala personalizados. O número máximo de estilos personalizados varia de acordo com o idioma: inglês (Estados Unidos) permite até dez estilos personalizados, chinês (mandarim, simplificado) permite até quatro estilos personalizados e japonês (Japão) permite até cinco estilos personalizados. A propriedade styleTrainingSetIds é um dicionário de nomes de estilo e IDs do conjunto de treinamento.
- Para cada chave de dicionário, especifique um nome de estilo personalizado de sua escolha. Esse nome é usado pelo aplicativo dentro do elemento style da Linguagem de Marcação de Síntese de Fala (SSML).
- Para cada valor de dicionário, especifique a ID de um conjunto de treinamento que você já criou para o mesmo modelo de voz. O conjunto de treinamento deve conter pelo menos 100 enunciados para cada estilo.
Opcionalmente, defina a propriedade description para a descrição da voz. A descrição da voz pode ser alterada posteriormente.

Faça uma solicitação HTTP PUT usando o URI, conforme mostrado no exemplo de Models_Create a seguir.

Substitua YourResourceKey pela chave do recurso de Fala.
Substitua YourResourceRegion pela região do recurso de Fala.
Substitua JessicaModelId por uma ID de modelo de sua escolha. A ID que diferencia maiúsculas e minúsculas será usada no URI do modelo e não poderá ser alterada posteriormente.

curl -v -X PUT -H "Ocp-Apim-Subscription-Key: YourResourceKey" -H "Content-Type: application/json" -d '{
  "voiceName": "JessicaNeuralMultiStyle",
  "description": "Jessica multi-style voice",
  "recipe": {
    "kind": "MultiStyle"
  },
  "projectId": "ProjectId",
  "consentId": "JessicaConsentId",
  "trainingSetId": "JessicaTrainingSetId",
  "locale": "en-US",
  "properties": {
    "presetStyles": [
      "cheerful",
      "sad"
    ],
    "styleTrainingSetIds": {
      "happyJessica": "JessicaHappyTrainingSetId",
      "myStyle2": "JessicaStyle2TrainingSetId"
    }
  }
} '  "https://YourResourceRegion.api.cognitive.microsoft.com/customvoice/models/JessicaModelId?api-version=2024-02-01-preview"

Você deve receber um corpo de resposta no seguinte formato:

{
  "id": "JessicaModelId",
  "voiceName": "JessicaNeuralMultiStyle",
  "description": "Jessica multi-style voice",
  "recipe": {
    "kind": "MultiStyle",
    "version": "V7.2023.03"
  },
  "projectId": "ProjectId",
  "consentId": "JessicaConsentId",
  "trainingSetId": "JessicaTrainingSetId",
  "locale": "en-US",
  "engineVersion": "2023.07.04.0","properties": {
    "presetStyles": [
      "cheerful",
      "sad"
    ],
    "styleTrainingSetIds": {
      "happyJessica": "JessicaHappyTrainingSetId",
      "myStyle2": "JessicaStyle2TrainingSetId"
    },
    "voiceStyles": [
      "cheerful",
      "sad",
      "happyJessica",
      "myStyle2"
    ]
  }
  "status": "NotStarted",
  "createdDateTime": "2023-04-01T05:30:00.000Z",
  "lastActionDateTime": "2023-04-02T10:15:30.000Z"
}

Treinamento bilíngue

Observação

A tabela a seguir mostra as diferenças nas localidades:

Localidade do Speech Studio	Localidade da API REST	Suporte bilíngue
`Chinese (Mandarin, Simplified)`	`zh-CN`	Se a amostra de dados incluir o inglês, a voz sintetizada falará inglês com um sotaque de inglês nativo em vez do mesmo sotaque dos dados de exemplo, independentemente da quantidade de dados em inglês.
`Chinese (Mandarin, Simplified), English bilingual`	`zh-CN (English bilingual)`	Se você quiser que a voz sintetizada fale inglês com o mesmo sotaque dos dados de exemplo, recomendamos incluir mais de 10% de dados em inglês no seu conjunto de treinamento. Caso contrário, o sotaque do inglês poderá não ser o ideal.
`Chinese (Cantonese, Simplified)`	`zh-HK`	Se quiser treinar uma voz sintetizada capaz de falar inglês com o mesmo sotaque da sua amostra de dados, certifique-se de fornecer mais de 10% dos dados em inglês no seu conjunto de treinamento. Caso contrário, será usado o padrão com um sotaque de inglês nativo. O limite de 10% é calculado com base nos dados aceitos após um upload bem-sucedido, não nos dados anteriores ao upload. Se alguns dos dados em inglês carregados forem rejeitados devido a um defeito e o total não atingir o limite de 10%, a voz sintetizada usará como padrão um sotaque de inglês nativo.
`Chinese (Taiwanese Mandarin, Traditional)`	`zh-TW`	Se quiser treinar uma voz sintetizada capaz de falar inglês com o mesmo sotaque da sua amostra de dados, certifique-se de fornecer mais de 10% dos dados em inglês no seu conjunto de treinamento. Caso contrário, será usado o padrão com um sotaque de inglês nativo. O limite de 10% é calculado com base nos dados aceitos após um upload bem-sucedido, não nos dados anteriores ao upload. Se alguns dos dados em inglês carregados forem rejeitados devido a um defeito e o total não atingir o limite de 10%, a voz sintetizada usará como padrão um sotaque de inglês nativo.

Estilos predefinidos disponíveis em diferentes idiomas

A tabela a seguir resume os diferentes estilos predefinidos de acordo com o idioma.

Estilo de fala	Idioma (localidade)
bravo	Inglês (Estados Unidos) (`en-US`) Japonês (Japão) (`ja-JP`) ¹ Chinês (mandarim, simplificado) (`zh-CN`) ¹
calmo	Chinês (mandarim, simplificado) (`zh-CN`) ¹
chat	Chinês (mandarim, simplificado) (`zh-CN`) ¹
alegre	Inglês (Estados Unidos) (`en-US`) Japonês (Japão) (`ja-JP`) ¹ Chinês (mandarim, simplificado) (`zh-CN`) ¹
descontente	Chinês (mandarim, simplificado) (`zh-CN`) ¹
empolgado	Inglês (Estados Unidos) (`en-US`)
assustado	Chinês (mandarim, simplificado) (`zh-CN`) ¹
amigável	Inglês (Estados Unidos) (`en-US`)
esperançoso	Inglês (Estados Unidos) (`en-US`)
triste	Inglês (Estados Unidos) (`en-US`) Japonês (Japão) (`ja-JP`) ¹ Chinês (mandarim, simplificado) (`zh-CN`) ¹
gritando	Inglês (Estados Unidos) (`en-US`)
sério	Chinês (mandarim, simplificado) (`zh-CN`) ¹
aterrorizado	Inglês (Estados Unidos) (`en-US`)
antipática	Inglês (Estados Unidos) (`en-US`)
sussurrante	Inglês (Estados Unidos) (`en-US`)

Obter Status de Treinamento

Para obter o status de treinamento de um modelo de voz, use a operação Models_Get da API de voz personalizada. Crie a URI de solicitação de acordo com as seguintes instruções:

Faça uma solicitação HTTP GET usando o URI, conforme mostrado no exemplo de Models_Get a seguir.

Substitua YourResourceKey pela chave do recurso de Fala.
Substitua YourResourceRegion pela região do recurso de Fala.
Substitua JessicaModelId se você especificou uma ID de modelo diferente na etapa anterior.

curl -v -X GET "https://YourResourceRegion.api.cognitive.microsoft.com/customvoice/models/JessicaModelId?api-version=2024-02-01-preview" -H "Ocp-Apim-Subscription-Key: YourResourceKey"

Você deve receber um corpo de resposta no formato a seguir.

Observação

A receita kind e outras propriedades dependem de como você treinou a voz. Neste exemplo, o tipo de receita é Default para treinamento de voz neural.

{
  "id": "JessicaModelId",
  "voiceName": "JessicaNeural",
  "description": "Jessica voice",
  "recipe": {
    "kind": "Default",
    "version": "V7.2023.03"
  },
  "projectId": "ProjectId",
  "consentId": "JessicaConsentId",
  "trainingSetId": "JessicaTrainingSetId",
  "locale": "en-US",
  "engineVersion": "2023.07.04.0",
  "status": "Succeeded",
  "createdDateTime": "2023-04-01T05:30:00.000Z",
  "lastActionDateTime": "2023-04-02T10:15:30.000Z"
}

Talvez seja necessário aguardar alguns minutos antes que o treinamento seja concluído. Eventualmente, o status será alterado para Succeeded ou Failed.

Próximas etapas

Implantar o ponto de extremidade de voz profissional

Compartilhar via

Treinar seu modelo de voz profissional

Escolher um método de treinamento

Treinar o modelo de sintetização de voz personalizada

Treinamento bilíngue

Estilos predefinidos disponíveis em diferentes idiomas

Renomear seu modelo

Testar seu modelo de voz

Requisitos de script de teste

Atualizar a versão do mecanismo para o modelo de voz

Copiar seu modelo de voz para outro projeto

Próximas etapas

Escolher um método de treinamento

Ciar um modelo de voz

Treinamento bilíngue

Estilos predefinidos disponíveis em diferentes idiomas

Obter Status de Treinamento

Próximas etapas

Comentários

Recursos adicionais