O que é voz pessoal para conversão de texto em fala?
Com a voz pessoal, você pode permitir que os usuários obtenham a replicação gerada por IA das próprias vozes em alguns segundos. Com uma instrução verbal e um breve exemplo de fala como o prompt de áudio, você pode criar uma voz pessoal para seus usuários e permitir que eles gerem fala em qualquer um dos mais de 90 idiomas com suporte em mais de 100 localidades.
Observação
A voz pessoal está disponível nessas regiões: Oeste da Europa, Leste dos EUA e Sudeste da Ásia. Para localidades com suporte, consulte o suporte à idiomas de voz pessoal.
A tabela a seguir resume a diferença entre o profissional de voz neural personalizado e a voz pessoal.
Comparação | Voz pessoal | Voz profissional |
---|---|---|
Cenários de destino | Clientes comerciais criam um aplicativo para permitir que seus usuários criem e usem sua própria voz pessoal no aplicativo. | Cenários Professional como vozes de marca e de caractere para chatbots ou leitura de conteúdo de áudio. |
Casos de uso | Restrito a casos de uso limitados. Consulte a nota de transparência. Os clientes aprovados devem ter um plano para dar suporte a mais de 1.000 vozes pessoais. | Restrito a casos de uso limitados. Consulte a nota de transparência. |
Dados de treinamento | Siga o código de conduta. | Traga seus próprios dados. É recomendável gravar em um estúdio profissional. |
Tamanho de dados necessário | Um minuto de fala humana. | 300-2000 enunciados (cerca de 30 minutos a 3 horas de fala humana). |
Tempo de treinamento | Menos que 5 segundos | Aproximadamente 20 a 40 horas de computação. |
Qualidade do serviço de voz | Natural | Altamente natural |
Suporte multilíngue | Sim. A voz é capaz de falar cerca de 100 idiomas, com a detecção automática de idioma habilitada. | Sim. Você precisa selecionar o recurso "Linguagem cruzada neural – " para treinar um modelo que fale uma linguagem diferente dos dados de treinamento. |
Disponibilidade | A demonstração no Speech Studio está disponível no registro. O acesso à API é restrito a clientes qualificados e casos de uso aprovados. Solicite acesso no formulário de entrada. | Você só pode treinar e implantar um modelo CNV Pro após o acesso ser aprovado. O acesso à CNV Pro é limitado de acordo com os critérios de qualificação e uso. Solicite acesso no formulário de entrada. |
Preços | Verifique os detalhes de preço aqui1. | Verifique os detalhes de preços aqui. |
Requisitos de IA responsável | A declaração verbal do orador é necessária. Casos de uso não aprovados não são permitidos. | A declaração verbal do orador é necessária. Casos de uso não aprovados não são permitidos. |
1 Observe que os preços de voz pessoal só estarão visíveis para as regiões de serviço em que o recurso está disponível, incluindo Europa Ocidental, Leste dos EUA e Sudeste Asiático.
Experimente a demonstração
Se você tiver um recurso S0, poderá acessar a demonstração de voz pessoal no Speech Studio. Para usar a API de voz pessoal, você pode solicitar o acesso aqui.
Acessar o Speech Studio
Selecione o cartão Voz Pessoal.
Você pode gravar sua própria voz e experimentar os exemplos de saída de voz em diferentes idiomas. A demonstração inclui um subconjunto dos idiomas compatíveis com a voz pessoal.
Como criar uma voz pessoal
Para começar, veja um resumo das etapas para criar uma voz pessoal:
- Crie um projeto.
- Carregue o arquivo de consentimento. Com o recurso de voz pessoal, é necessário que cada voz seja criada com consentimento explícito do usuário. Uma instrução gravada do usuário é necessária reconhecendo que o cliente (proprietário do recurso da Fala de IA do Azure) criará e usará sua voz.
- Obtenha uma ID de perfil do locutor para a voz pessoal. Você obtém uma ID de perfil do locutor com base na declaração de consentimento verbal do locutor e em um prompt de áudio. As características de voz do usuário são codificadas na propriedade
speakerProfileId
usada para conversão de texto em fala.
Depois de ter uma voz pessoal, você poderá usá-la para sintetizar a fala em qualquer um dos 91 idiomas com suporte em mais de 100 localidades. Uma marca de localidade não é necessária. A voz pessoal usa a detecção automática de idioma no nível da frase. Para obter mais informações, consulte usar a voz pessoal no seu aplicativo.
Dica
Confira os exemplos de código no repositório do SDK de Fala no GitHub para ver como usar a voz pessoal em seu aplicativo.
Documentação de referência
IA responsável
Preocupamo-nos com as pessoas que usam IA e as pessoas que serão afetadas por ela tanto quanto nos preocupamos com a tecnologia. Para obter mais informações, consulte as notas de transparência de IA responsável.
Próximas etapas
- Crie um projeto.
- Saiba mais sobre a Voz Neural Personalizada na visão geral.
- Saiba mais sobre o Speech Studio na visão geral.