Sintetizar traduções

3 minutos

O TranslationRecognizer retorna transcrições traduzidas da entrada falada, basicamente, convertendo fala audível em texto.

Você também pode resumir a tradução como fala para criar soluções de conversão de fala para fala. Há duas maneiras de realizar essa tarefa.

Síntese baseada em evento

Quando deseja executar a conversão de 1:1 (converter de um idioma de origem em um único idioma de destino), você pode usar a síntese baseada em evento para capturar a tradução como um fluxo de áudio. Para fazer isso, você precisa:

Especificar a voz desejada para a fala traduzida no TranslationConfig. Criar um manipulador de eventos para o evento Synthesizing do objeto TranslationRecognizer. No manipulador de eventos, use o método GetAudio() do parâmetro Result para recuperar o fluxo de bytes de áudio traduzido. O código específico usado para implementar um manipulador de eventos varia de acordo com a linguagem de programação que você está usando. Confira os exemplos de C# e Python na documentação do SDK da Fala.

Síntese manual

A síntese manual é uma abordagem alternativa à síntese baseada em evento que não exige a implementação de um manipulador de eventos. Você pode usar a síntese manual para gerar traduções de áudio para um ou mais idiomas de destino.

A síntese manual de traduções é essencialmente apenas a combinação de duas operações separadas, em que você:

Usa um TranslationRecognizer para converter a entrada falada em transcrições de texto em um ou mais idiomas de destino.
Itera o dicionário de traduções no resultado da operação de tradução, usando um SpeechSynthesizer para sintetizar um fluxo de áudio para cada idioma.

Sintetizar traduções

Síntese baseada em evento

Síntese manual

Comentários