O que é voz pessoal para conversão de texto em fala?

Artigo
10/16/2024

Com a voz pessoal, você pode permitir que os usuários obtenham a replicação gerada por IA das próprias vozes em alguns segundos. Com uma instrução verbal e um breve exemplo de fala como o prompt de áudio, você pode criar uma voz pessoal para seus usuários e permitir que eles gerem fala em qualquer um dos mais de 90 idiomas com suporte em mais de 100 localidades.

Observação

A voz pessoal está disponível nessas regiões: Oeste da Europa, Leste dos EUA e Sudeste da Ásia. Para localidades com suporte, consulte o suporte à idiomas de voz pessoal.

A tabela a seguir resume a diferença entre o profissional de voz neural personalizado e a voz pessoal.

Comparação	Voz pessoal	Voz profissional
Cenários de destino	Clientes comerciais criam um aplicativo para permitir que seus usuários criem e usem sua própria voz pessoal no aplicativo.	Cenários Professional como vozes de marca e de caractere para chatbots ou leitura de conteúdo de áudio.
Casos de uso	Restrito a casos de uso limitados. Consulte a nota de transparência. Os clientes aprovados devem ter um plano para dar suporte a mais de 1.000 vozes pessoais.	Restrito a casos de uso limitados. Consulte a nota de transparência.
Dados de treinamento	Siga o código de conduta.	Traga seus próprios dados. É recomendável gravar em um estúdio profissional.
Tamanho de dados necessário	Um minuto de fala humana.	300-2000 enunciados (cerca de 30 minutos a 3 horas de fala humana).
Tempo de treinamento	Menos que 5 segundos	Aproximadamente 20 a 40 horas de computação.
Qualidade do serviço de voz	Natural	Altamente natural
Suporte multilíngue	Sim. A voz é capaz de falar cerca de 100 idiomas, com a detecção automática de idioma habilitada.	Sim. Você precisa selecionar o recurso "Linguagem cruzada neural – " para treinar um modelo que fale uma linguagem diferente dos dados de treinamento.
Disponibilidade	A demonstração no Speech Studio está disponível no registro. O acesso à API é restrito a clientes qualificados e casos de uso aprovados. Solicite acesso no formulário de entrada.	Você só pode treinar e implantar um modelo CNV Pro após o acesso ser aprovado. O acesso à CNV Pro é limitado de acordo com os critérios de qualificação e uso. Solicite acesso no formulário de entrada.
Preços	Verifique os detalhes de preço aqui¹.	Verifique os detalhes de preços aqui.
Requisitos de IA responsável	A declaração verbal do orador é necessária. Casos de uso não aprovados não são permitidos.	A declaração verbal do orador é necessária. Casos de uso não aprovados não são permitidos.

¹ Observe que os preços de voz pessoal só estarão visíveis para as regiões de serviço em que o recurso está disponível, incluindo Europa Ocidental, Leste dos EUA e Sudeste Asiático.

Experimente a demonstração

Se você tiver um recurso S0, poderá acessar a demonstração de voz pessoal no Speech Studio. Para usar a API de voz pessoal, você pode solicitar o acesso aqui.

Acessar o Speech Studio
Selecione o cartão Voz Pessoal.
Você pode gravar sua própria voz e experimentar os exemplos de saída de voz em diferentes idiomas. A demonstração inclui um subconjunto dos idiomas compatíveis com a voz pessoal.

Como criar uma voz pessoal

Para começar, veja um resumo das etapas para criar uma voz pessoal:

Crie um projeto.
Carregue o arquivo de consentimento. Com o recurso de voz pessoal, é necessário que cada voz seja criada com consentimento explícito do usuário. Uma instrução gravada do usuário é necessária reconhecendo que o cliente (proprietário do recurso da Fala de IA do Azure) criará e usará sua voz.
Obtenha uma ID de perfil do locutor para a voz pessoal. Você obtém uma ID de perfil do locutor com base na declaração de consentimento verbal do locutor e em um prompt de áudio. As características de voz do usuário são codificadas na propriedade speakerProfileId usada para conversão de texto em fala.

Depois de ter uma voz pessoal, você poderá usá-la para sintetizar a fala em qualquer um dos 91 idiomas com suporte em mais de 100 localidades. Uma marca de localidade não é necessária. A voz pessoal usa a detecção automática de idioma no nível da frase. Para obter mais informações, consulte usar a voz pessoal no seu aplicativo.

Dica

Confira os exemplos de código no repositório do SDK de Fala no GitHub para ver como usar a voz pessoal em seu aplicativo.

Documentação de referência

Documentação de referência da API REST de voz personalizada

IA responsável

Preocupamo-nos com as pessoas que usam IA e as pessoas que serão afetadas por ela tanto quanto nos preocupamos com a tecnologia. Para obter mais informações, consulte as notas de transparência de IA responsável.

Próximas etapas

Crie um projeto.
Saiba mais sobre a Voz Neural Personalizada na visão geral.
Saiba mais sobre o Speech Studio na visão geral.

Compartilhar via