O que é tradução de fala?

Neste artigo, você aprenderá sobre os benefícios e os recursos da tradução com a Fala de IA do Azure. O Serviço de fala dá suporte à conversão de fala em tempo real e de vários idiomas em fala e conversão de fala em texto de fluxos de áudio.

Usando o SDK de Fala ou a CLI de Fala, você pode permitir aos seus aplicativos, suas ferramentas e seus dispositivos acesso a transcrições de origem e saídas de tradução para o áudio fornecido. Os resultados provisórios da transcrição e da tradução são retornados conforme a fala é detectada, e os resultados finais podem ser convertidos em uma voz sintetizada.

Para obter uma lista de idiomas com suporte para tradução de fala, consulte o Suporte a linguagem e voz.

Dica

Acesse Estúdio de Fala para testar e traduzir rapidamente a fala para outros idiomas da sua escolha com baixa latência.

Principais recursos

Os principais recursos da tradução de fala incluem:

Tradução de fala em texto

O recurso padrão oferecido pelo Serviço de fala é a capacidade de receber um fluxo de áudio de entrada no seu idioma de origem especificado, traduzi-lo e gerá-lo como texto no seu idioma de destino especificado.

Tradução de fala em fala

Como um complemento ao recurso acima, o Serviço de fala também oferece a opção de ler traduzido em voz alta o texto usando nosso grande banco de dados de vozes pré-treinadas, permitindo uma saída natural da fala de entrada.

Tradução de fala multilíngue (Versão prévia)

A Tradução de fala multilíngue implementa um novo nível de tecnologia de tradução de fala que desbloqueia vários recursos, incluindo não ter um idioma de entrada especificado, lidar com comutadores de idioma na mesma sessão e dar suporte a traduções de transmissão ao vivo em inglês. Esses recursos permitem um novo nível de capacidades de tradução de fala que podem ser implementados nos seus produtos.

  • Idioma de entrada não especificado. A Tradução de fala multilíngue pode receber áudio em uma ampla variedade de idiomas e não há a necessidade de especificar qual é o idioma de entrada esperado.
  • Troca de idioma. A Tradução de fala multilíngue permite que vários idiomas sejam falados durante a mesma sessão e que todos eles sejam traduzidos para o mesmo idioma de destino. Não há a necessidade de reiniciar uma sessão quando o idioma de entrada é alterado ou quando você realiza outras ações.
  • Transcrição. O serviço gera uma transcrição no idioma de destino especificado. A transcrição do idioma de origem ainda não está disponível.

Alguns casos de uso para a Tradução de fala multilíngue incluem:

  • Interpretador de Viagens. Ao viajar para o exterior, a Tradução de fala multilíngue oferece a capacidade de criar uma solução que permita que os clientes traduzam qualquer áudio de entrada de e para o idioma local. Isso permite que eles se comuniquem com os moradores locais e entendam melhor seus arredores.
  • Reunião de Negócios. Em uma reunião com pessoas que falam idiomas diferentes, a Tradução de fala multilíngue permite que os membros da reunião se comuniquem entre si naturalmente como se não houvesse barreira vocal.

Quanto a Tradução de fala multilíngue, estes são os idiomas que o Serviço de fala pode detectar e alternar automaticamente entre a entrada: árabe (ar), basco (eu), bósnio (bs), búlgaro (bg), chinês simplificado (zh), chinês tradicional (zhh), tcheco (cs), dinamarquês (da), holandês (nl), inglês (en), estoniano (et), finlandês (fi), francês (fr), galego (gl), alemão (de), grego (el), hindi (hi), húngaro (hu), indonésio (id), italiano (it), japonês (ja), coreano (ko), letão (lv), lituano (lt), macedônio (mk), norueguês (nb), polonês (pl), português (pt), romeno (ro), russo (ru), sérvio (sr), eslovaco (sk), esloveno (sl), espanhol (es), sueco (sv), tailandês (th), turco (tr), ucraniano (uk), vietnamita (vi) e galês (cy).

Para obter uma lista dos idiomas de saída (destino) com suporte, consulte a tabela Traduzir para a linguagem de texto na documentação de suporte do idioma e voz.

Para obter mais informações sobre a Tradução de fala multilíngue, consulte a tradução de fala como guia e exemplos de tradução de fala no GitHub.

Tradução de vários idiomas de destino

Nos cenários em que você quer produzir em vários idiomas, o Serviço de fala oferece diretamente a capacidade de traduzir o idioma de entrada em dois idiomas de destino. Isso permite que eles recebam duas saídas e compartilhem essas traduções com um público mais amplo com uma única chamada à API. Se mais idiomas de saída se fizerem necessários, você poderá criar um recurso de vários serviços ou usar os serviços de tradução separados.

Se precisar de tradução para mais de dois idiomas de destino, você vai precisar Criar um recurso de serviços de IA do Azure ou usar serviços de tradução separados para mais idiomas além desses dois. Se você optar por chamar o serviço de tradução de fala com um recurso de vários serviços, observe que as taxas de tradução se aplicam a cada idioma além do segundo, com base na contagem de caracteres da tradução.

Para calcular a taxa de tradução aplicada, consulte Preços do Tradutor de IA do Azure.

Preços de tradução de vários idiomas de destino

É importante observar que o serviço de tradução de fala opera em tempo real e os resultados de fala intermediária são convertidos para gerarem resultados de tradução intermediária. Portanto, o valor real da tradução é maior do que os tokens de áudio de entrada. Você é cobrado pela conversão de fala em texto e pela tradução de texto para cada idioma de destino.

Por exemplo, digamos que você queira traduções de texto de um arquivo de áudio de uma hora para três idiomas de destino. Se a conversão de fala em texto inicial contiver 10.000 caracteres, você poderá ser cobrado $2,80 de você.

Aviso

Os preços nesse exemplo são apenas para fins ilustrativos. Consulte os preços da Fala de IA do Azure e os preços do Tradutor de IA do Azure para obter as informações de preços mais atualizados.

O preço de exemplo anterior de US$ 2,80 foi calculado combinando a conversão de fala em texto e os custos da tradução de texto. Veja como o cálculo foi feito:

  • O preço da lista de tradução de fala é de US$ 2,50 por hora, abrangendo até 2 idiomas de destino. O preço é usado como um exemplo de como calcular os custos. Consulte Pagamento Conforme o Uso>Tradução de Fala>Standard na Tabela de preços da Fala de IA do Azure para obter as informações de preços mais atualizados.
  • O custo da terceira tradução de idioma é de 30 centavos nesse exemplo. O preço da lista de tradução é de US$ 10 por milhão de caracteres. Como o arquivo de áudio contém 10.000 caracteres, o custo de tradução é $10 * 10.000 / 1.000.000 * 3 = $0,3. O número "3" nesta equação representa um coeficiente de ponderação do tráfego intermediário, o qual pode variar dependendo dos idiomas envolvidos. O preço é usado como um exemplo de como calcular os custos. Consulte Pagamento Conforme o Uso>Tradução padrão>Tradução de texto na Tabela de preços do Tradutor de IA do Azure para obter as informações de preços mais atualizados.

Introdução

Como sua primeira etapa, experimente o início rápido da tradução de fala. O serviço de Tradução de Fala está disponível por meio do SDK de Fala e da CLI de Fala.

Você encontra exemplos de conversão de fala em texto e de tradução do SDK de Fala no GitHub. Esses exemplos abordam cenários comuns, como a leitura de áudio de um arquivo ou um fluxo, o reconhecimento e a tradução contínuos ou pontuais e o uso de modelos personalizados.

Próximas etapas