Visão geral do avatar de conversão de texto em fala

Artigo
01/13/2025

O avatar de conversão de texto em fala converte texto em um vídeo digital de um humano fotorrealista (um avatar predefinido ou um avatar de conversão de texto em fala personalizado) falando com uma voz natural. O vídeo de avatar de conversão de texto em fala pode ser sintetizado de forma assíncrona ou em tempo real. Os desenvolvedores podem criar aplicativos integrados com o avatar de conversão de texto em fala por meio de uma API ou usar uma ferramenta de criação de conteúdo no Speech Studio para criar conteúdo de vídeo sem codificação.

Com os modelos avançados de rede neural do avatar de conversão de texto em fala, o recurso capacita os usuários a fornecer vídeos de avatar sintéticos de alta qualidade e semelhantes à vida para vários aplicativos, aderindo ao mesmo tempo a práticas de IA responsáveis.

Dica

Para converter texto em fala com uma abordagem sem código, experimente a Ferramenta Avatar de conversão de texto em fala no Speech Studio.

Funcionalidades de avatar

As funcionalidades de avatar de conversão de texto em fala incluem:

Converte o texto em um vídeo digital de um humano fotorealista falando com vozes naturais alimentadas pela conversão de texto em fala da IA do Azure.
Fornece uma coleção de avatares predefinidos.
A voz do avatar é gerada pela conversão de texto em fala da IA do Azure. Para obter mais informações, consulte Voz e idioma do Avatar.
Sintetiza o vídeo do avatar de conversão de texto em fala de forma assíncrona com a API de síntese em lote ou em tempo real.
Fornece uma ferramenta de criação de conteúdo no Speech Studio para criar conteúdo de vídeo sem codificação.
Habilita conversas de avatar em tempo real por meio da ferramenta de avatar de chat ao vivo no Speech Studio.

Com os modelos avançados de rede neural do avatar de conversão de texto em fala, o recurso permite que você forneça vídeos de avatar de fala sintética de alta qualidade e realistas para vários aplicativos, ao mesmo tempo em que aderir a práticas de IA responsáveis.

Voz e linguagem avatar

Você pode escolher entre uma variedade de vozes predefinidas para o avatar. O suporte de linguagem para avatar de conversão de texto em fala é o mesmo que o suporte de idioma para conversão de texto em fala. Para obter detalhes, consulte Suporte de linguagem e voz para o serviço de Fala. Os avatares de conversão de texto em fala predefinidos podem ser acessados por meio do portal do Speech Studio ou por meio da API.

A voz no vídeo sintético pode ser uma voz neural predefinida disponível na Fala de IA do Azure ou na voz neural personalizada do talento de voz selecionado por você.

Saída de vídeo do avatar

A síntese em lote e a resolução de síntese em tempo real são 1920 x 1080 e os quadros por segundo (FPS) são 25. O codec de síntese em lote poderá ser h264, hevc ou av1 se o formato for mp4 e puder definir o codec como vp9 ou av1 se o formato for webm. Somente vp9 pode conter um canal alfa. O codec de síntese em tempo real é h264. A taxa de bits de vídeo pode ser configurada para síntese em lote e síntese em tempo real na solicitação; o valor padrão é 2000000; Configurações mais detalhadas podem ser encontradas no código de exemplo.

	Síntese em lotes	Síntese em tempo real
Resolução	1920 x 1080	1920 x 1080
FPS	25	25
Codec	h264/hevc/vp9/av1	h264

Avatar de conversão de texto em fala personalizado

Você pode criar avatares de conversão de texto em fala personalizados que sejam exclusivos para seu produto ou marca. Tudo o que leva para começar é levar 10 minutos de gravações de vídeo. Se você também estiver criando uma voz neural personalizada para o ator, o avatar pode ser altamente realista. Para obter mais informações, consulte O que é o avatar de conversão de texto em fala personalizado.

Voz neural personalizada e avatar de conversão de texto em fala personalizado são recursos separados. Você pode usá-los independentemente ou juntos. Se você planeja também usar voz neural personalizada com um avatar de conversão de texto em fala, será necessário implantar ou copiar seu modelo de voz neural personalizado para uma das regiões suportadas pelo avatar.

Código de exemplo

O código de exemplo para o avatar de conversão de texto em fala está disponível no GitHub. Estes exemplos abrangem os cenários mais populares:

Síntese do Lote (REST)
SDK (síntese em tempo real)
Chat ao vivo com a OpenAI do Azure por trás (SDK)
Para criar um aplicativo de chat ao vivo com o Azure OpenAI Em Seus Dados, você pode consultar este código de exemplo (pesquise "Em Seus Dados")

Preços

Durante uma sessão de uso do avatar em tempo real ou criação de conteúdo em lote, a conversão de texto em fala, conversão de fala em texto, o OpenAI do Azure ou outros serviços do Azure são cobrados separadamente.
Consulte nota de preço do avatar de conversão de fala em texto para saber como a cobrança funciona para o recurso de avatar de texto em fala.
Para obter informações detalhadas, confira Preços do serviço de Fala. Observe que o preço do avatar só será visível em regiões de serviço em que o recurso está disponível, incluindo Sudeste da Ásia, Norte da Europa, Oeste da Europa, Suécia Central, Centro-Sul dos EUA, Leste dos EUA 2 e Oeste dos EUA 2.

Locais disponíveis

O recurso de avatar de conversão de texto em fala só está disponível nas seguintes regiões de serviço: Sudeste da Ásia, Norte da Europa, Oeste da Europa, Suécia Central, Centro-Sul dos EUA, Leste dos EUA 2 e Oeste dos EUA 2.

IA responsável

Nos preocupamos com as pessoas que usam IA e as pessoas que serão afetadas por ela tanto quanto nos preocupamos com a tecnologia. Para obter mais informações, confira as notas de transparência de IA responsável e a divulgação do talento de voz e avatar.

Compartilhar via