O que é a tradução de voz?

Neste artigo, você aprenderá sobre os benefícios e os recursos da tradução com o Azure AI Speech. O serviço de Fala suporta conversão de fala para fala em tempo real e multilíngüe de fala para texto de fluxos de áudio.

Usando o SDK de fala ou a CLI de fala, você pode dar aos seus aplicativos, ferramentas e dispositivos acesso às transcrições de origem e saídas de tradução para o áudio fornecido. Os resultados provisórios de transcrição e tradução são retornados à medida que a fala é detetada, e os resultados finais podem ser convertidos em fala sintetizada.

Para obter uma lista de idiomas suportados para tradução de voz, consulte Suporte de idioma e voz.

Gorjeta

Vá para o Speech Studio para testar e traduzir rapidamente a fala para outros idiomas de sua escolha com baixa latência.

Principais características

As principais características da tradução de fala incluem:

Tradução de fala para texto

O recurso padrão oferecido pelo serviço de fala é a capacidade de receber um fluxo de áudio de entrada no idioma de origem especificado e traduzi-lo e produzi-lo como texto no idioma de destino especificado.

Tradução de fala para fala

Como complemento ao recurso acima, o serviço de fala também oferece a opção de ler em voz alta o texto traduzido usando nosso grande banco de dados de vozes pré-treinadas, permitindo uma saída natural da fala de entrada.

Tradução de fala multilingue (Pré-visualização)

A tradução de fala multilíngue implementa um novo nível de tecnologia de tradução de fala que desbloqueia vários recursos, incluindo não ter um idioma de entrada especificado, lidar com mudanças de idioma dentro da mesma sessão e suportar traduções de transmissão ao vivo para o inglês. Esses recursos permitem um novo nível de poderes de tradução de fala que podem ser implementados em seus produtos.

  • Idioma de entrada não especificado. A tradução de fala multilíngue pode receber áudio em uma ampla gama de idiomas, e não há necessidade de especificar qual é o idioma de entrada esperado.
  • Mudança de idioma. A tradução de fala multilingue permite que várias línguas sejam faladas durante a mesma sessão e que todas sejam traduzidas para a mesma língua de chegada. Não há necessidade de reiniciar uma sessão quando o idioma de entrada muda ou qualquer outra ação sua.
  • Transcrição. O serviço produz uma transcrição no idioma de destino especificado. A transcrição do idioma de origem ainda não está disponível.

Alguns casos de uso para tradução de fala multilíngue incluem:

  • Intérprete de viagem. Ao viajar para o exterior, a tradução de fala multilíngue oferece a capacidade de criar uma solução que permite aos clientes traduzir qualquer áudio de entrada de e para o idioma local. Isto permite-lhes comunicar com os habitantes locais e compreender melhor os seus arredores.
  • Reunião de Negócios. Numa reunião com pessoas que falam línguas diferentes, a tradução de fala multilingue permite que os membros da reunião comuniquem todos naturalmente uns com os outros, como se não existisse uma barreira linguística.

Para a tradução de fala multilingue, estas são as línguas que o serviço de fala pode detetar automaticamente e alternar entre elas a partir da entrada: árabe (ar), basco (eu), bósnio (bs), búlgaro (bg), chinês simplificado (zh), chinês tradicional (zhh), checo (cs), dinamarquês (da), neerlandês (nl), inglês (en), estónio (et), finlandês (fi), francês (fr), galego (gl), alemão (de), grego (el), hindi (hi), Húngaro (hu), indonésio (id), italiano (it), japonês (ja), coreano (ko), letão (lv), lituano (lt), macedónio (mk), norueguês (nb), polaco (pl), português (pt), romeno (ro), russo (ru), sérvio (sr), eslovaco (sk), esloveno (sl), espanhol (es), sueco (sv), tailandês (th), turco (tr), ucraniano (uk), vietnamita (vi) e galês (cy).

Para obter uma lista dos idiomas de saída (destino) suportados, consulte a tabela Traduzir para idioma de texto na documentação de suporte de idioma e voz.

Para obter mais informações sobre tradução de fala multilíngue, consulte o guia de tradução de fala e exemplos de tradução de fala no GitHub.

Tradução em várias línguas-alvo

Em cenários em que você deseja saída em vários idiomas, o serviço de fala oferece diretamente a capacidade de traduzir o idioma de entrada para dois idiomas de destino. Isso permite que eles recebam duas saídas e compartilhem essas traduções para um público mais amplo com uma única chamada de API. Se forem necessários mais idiomas de saída, pode criar um recurso multisserviço ou utilizar serviços de tradução separados.

Se você precisar de tradução para mais de dois idiomas de destino, precisará Criar um recurso de serviços de IA do Azure ou utilizar serviços de tradução separados para mais idiomas além do segundo. Se optar por ligar para o serviço de tradução de voz com um recurso multisserviços, tenha em atenção que se aplicam taxas de tradução para cada língua para além da segunda, com base na contagem de carateres da tradução.

Para calcular a taxa de tradução aplicada, consulte os preços do Azure AI Translator.

Preços de tradução em vários idiomas de destino

É importante notar que o serviço de tradução de fala opera em tempo real, e os resultados intermediários de fala são traduzidos para gerar resultados de tradução intermediários. Portanto, a quantidade real de tradução é maior do que os tokens do áudio de entrada. Você será cobrado pela transcrição de fala para texto e pela tradução de texto para cada idioma de destino.

Por exemplo, digamos que você queira traduções de texto de um arquivo de áudio de uma hora para três idiomas de destino. Se a transcrição inicial de fala para texto contiver 10.000 caracteres, poderá ter de pagar $2,80.

Aviso

Os preços neste exemplo são meramente ilustrativos. Consulte os preços do Azure AI Speech e do Azure AI Translator para obter as informações de preços mais atualizadas.

O preço do exemplo anterior de $2,80 foi calculado combinando a transcrição de fala para texto e os custos de tradução de texto. Veja como foi feito o cálculo:

  • O preço de tabela da tradução de fala é de US $ 2,50 por hora, cobrindo até 2 idiomas de destino. O preço é usado como um exemplo de como calcular custos. Consulte Padrão de tradução> de fala Pay as You Go>na tabela de preços do Azure AI Speech para obter as informações de preços mais atualizadas.
  • Neste exemplo, o custo da tradução na terceira língua é de 30 cêntimos. O preço de tabela da tradução é de US $ 10 por milhão de caracteres. Como o arquivo de áudio contém 10.000 caracteres, o custo de tradução é de $10 * 10.000 / 1.000.000 * 3 = $0.3. O número "3" nesta equação representa um coeficiente de ponderação do tráfego intermédio, que pode variar dependendo das línguas envolvidas. O preço é usado como um exemplo de como calcular custos. Consulte Tradução de texto de tradução>padrão Pay as You Go>na tabela de preços do Azure AI Translator para obter as informações de preços mais atualizadas.

Começar agora

Como primeiro passo, experimente o início rápido da tradução de voz. O serviço de tradução de fala está disponível através do SDK de Fala e da CLI de Fala.

Você encontra exemplos de fala para texto e tradução do SDK de fala no GitHub. Esses exemplos abrangem cenários comuns, como leitura de áudio de um arquivo ou fluxo, reconhecimento e tradução contínuos e de captura única e trabalho com modelos personalizados.

Próximos passos

  • Experimente o guia de início rápido de tradução de fala
  • Instalar o SDK de Fala
  • Instalar a CLI de Fala