Visão geral da SSML (Speech Synthesis Markup Language)
A SSML (Speech Synthesis Markup Language) é uma linguagem de marcação baseada em XML que você pode usar para ajustar seu texto aos atributos de saída de fala, como tom, pronúncia, taxa de fala, volume e muito mais. Dá-lhe mais controlo e flexibilidade do que a introdução de texto simples.
Gorjeta
Você pode ouvir vozes em diferentes estilos e tons lendo texto de exemplo usando a Galeria de vozes.
Cenários de caso de utilização
O SSML foi projetado para oferecer flexibilidade em como você deseja que sua saída de fala soe e fornece propriedades diferentes para como você pode personalizar essa saída. Você pode usar SSML para:
- Defina a estrutura de texto de entrada que determina a estrutura, o conteúdo e outras características da saída de texto para fala. Por exemplo, você pode usar SSML para definir um parágrafo, uma frase, uma pausa ou silêncio. Você pode quebrar o texto com tags de evento, como um marcador ou viseme, que seu aplicativo pode processar posteriormente. Um viseme é a descrição visual de um fonema, os sons individuais da fala, na linguagem falada.
- Escolha a voz, o idioma, o nome, o estilo e a função. Você pode usar várias vozes em um único documento SSML. Você também pode ajustar a ênfase, a taxa de fala, o tom e o volume. SSML também pode inserir áudio pré-gravado, como um efeito sonoro ou uma nota musical.
- Controle a pronúncia do áudio de saída. Por exemplo, você pode usar SSML com fonemas e um léxico personalizado para melhorar a pronúncia. Você também pode usar SSML para definir como uma palavra ou expressão matemática é pronunciada.
Formas de trabalhar com SSML
A funcionalidade SSML está disponível em várias ferramentas que podem se adequar ao seu caso de uso.
Importante
Você é cobrado por cada caractere convertido em fala, incluindo pontuação. Embora o documento SSML em si não seja faturável, o serviço conta elementos opcionais que você usa para ajustar como o texto é convertido em fala, como fonemas e pitch, como caracteres faturáveis. Para obter mais informações, consulte a nota de preços.
Você pode usar o SSML das seguintes maneiras:
- A ferramenta de criação de conteúdo de áudio permite criar texto sem formatação e SSML no Speech Studio. Você pode ouvir o áudio de saída e ajustar o SSML para melhorar a síntese de fala. Para obter mais informações, consulte Síntese de fala com a ferramenta de criação de conteúdo de áudio.
- A API de síntese em lote aceita SSML através da
inputs
propriedade. - A CLI de Fala aceita SSML por meio do argumento de linha de
spx synthesize --ssml SSML
comando. - O Speech SDK aceita SSML através do método SSML "speak" nos diferentes idiomas suportados.