O que é Serviço de fala?

O serviço de Fala fornece capacidades de reconhecimento de fala e de conversão de texto em fala com um recurso de Fala. Você pode transcrever o reconhecimento de fala com alta precisão, produzir vozes com sonoridade natural para conversão de texto em fala, traduzir áudio falado e usar o reconhecimento de locutor durante conversas.

Imagem dos blocos que destacam alguns recursos do serviço de Fala.

Crie vozes personalizadas, adicione palavras específicas ao vocabulário base ou crie seus próprios modelos. Execute a Fala em qualquer lugar, seja na nuvem ou na borda em contêineres. É fácil habilitar fala em seus aplicativos, ferramentas e dispositivos com a CLI de Fala, SDK de Fala e APIs REST.

A Fala está disponível para muitos idiomas, regiões e pontos de preço.

Cenários de Fala

Cenários comuns para utilizar a Fala incluem os seguintes:

  • Legendas: aprenda a sincronizar legendas com seu áudio de entrada, aplicar filtros de palavrões, obter resultados parciais, aplicar personalizações e identificar idiomas falados para cenários multilíngues.
  • Criação de Conteúdo de Áudio: as vozes neurais podem ser usadas para interagir com chatbots e assistentes de voz de maneira mais natural e participativa, além de converter textos digitais, como livros eletrônicos, em audiolivros e aprimorar sistemas de navegação automotiva.
  • Call Center: transcreva chamadas em tempo real ou processe um lote de chamadas, além de redigir informações de identificação pessoal e extrair insights como sentimento para ajudar no caso de uso de call center.
  • Aprendizado de idioma: forneça comentários de avaliação de pronúncia para alunos de idiomas, dê suporte à transcrição em tempo real para conversas de aprendizado remoto e leia em voz alta materiais de ensino com vozes neurais.
  • Assistentes de voz: crie interfaces de conversação natural, semelhante à humana, para os aplicativos e experiências deles. O recurso de assistente de voz fornece interação rápida e confiável entre um dispositivo e uma implementação de assistente.

A Microsoft usa a Fala em muitos cenários, como em legendas do Teams, em ditados do Office 365 e na leitura em voz alta do navegador Microsoft Edge.

Imagem mostrando logotipos dos produtos Microsoft nos quais o serviço de Fala é usado.

Recursos de Fala

Essas seções resumem os recursos de Fala com links para obter mais informações.

Conversão de fala em texto

Use o reconhecimento de fala para transcrever áudios em textos, seja em tempo real ou de maneira assíncrona com a transcrição em lote.

Dica

Você pode experimentar o reconhecimento de fala em tempo real no Speech Studio sem inscrever-se ou gravar qualquer código.

Converta em textos os áudios de uma variedade de fontes, como microfones, arquivos de áudio e armazenamentos de blobs. Use a diarização de locutor para determinar quem disse o quê e quando. Obtenha transcrições legíveis com formatação e pontuação automáticas.

O modelo base pode não ser suficiente em caso de ruídos ambientes no áudio ou de muitos jargões específicos do setor ou domínio. Nesses cenários, crie e treine modelos de fala personalizados com dados acústicos, de linguagem e de pronúncia. Os modelos de fala personalizados são privados e podem oferecer uma vantagem competitiva.

Reconhecimento de fala em tempo real

Com o reconhecimento de fala em tempo real, o áudio é transcrito à medida que a fala é reconhecida de um microfone ou arquivo. Use o reconhecimento de fala em tempo real para aplicativos que precisam transcrever áudio em tempo real, como:

API de Transcrição Rápida (versão prévia)

A API de Transcrição Rápida é usada para transcrever arquivos de áudio com o retorno síncrono e muito mais rápido dos resultados do que com o áudio em tempo real. Use a Transcrição Rápida nos cenários de que você precisa da transcrição de uma gravação de áudio o mais rápido possível com latência previsível, como:

  • Transcrição, legendas e edição rápidas de áudio ou vídeo.
  • Tradução de vídeo

Observação

A API de Transcrição Rápida só está disponível por meio da API REST da conversão de fala em texto versão 2024-05-15-preview.

Para começar a usar a Transcrição Rápida, confira Usar a API de Transcrição Rápida (versão prévia).

Transcrição de lote

A transcrição em lote é usada para transcrever um grande volume de dados de áudio no armazenamento. Será possível transmitir arquivos de áudio com um URI de SAS (assinatura de acesso compartilhado) e receber resultados de transcrição de maneira assíncrona. Use a transcrição em lote para aplicativos que precisam transcrever áudios em massa, como:

  • Transcrições, legendas ou legendas para áudio pré-gravado
  • Análise pós-chamada da central de atendimento
  • Diarização

Texto em fala

Com a conversão de texto em fala, é possível converter textos de entrada em uma fala sintetizada e semelhante à humana. Use vozes neurais, que são semelhantes a vozes humanas das plataformas de redes neurais profundas. Use o SSML (Speech Synthesis Markup Language) para ajustar o tom, a pronúncia, a velocidade de fala, o volume e muito mais.

  • Voz neural predefinida: vozes altamente naturais prontas para uso. Confira os exemplos de vozes neurais predefinidas da Galeria de vozes e escolha a voz ideal para suas necessidades de negócios.
  • Voz neural personalizada: além das vozes neurais predefinidas que são prontas para uso, também é possível criar uma voz neural personalizada exclusiva e reconhecível como sendo da sua marca ou produto. As vozes neurais personalizadas são privadas e podem oferecer uma vantagem competitiva. Confira aqui os exemplos de voz neural personalizada.

Tradução de fala

A tradução de fala possibilita a tradução de fala em tempo real e em vários idiomas para seus aplicativos, ferramentas e dispositivos. Use esse recurso para tradução de fala para fala e da conversão de fala em texto.

Identificação de idioma

A identificação de idioma é usada para identificar os idiomas falados em um áudio quando comparado com uma lista de idiomas com suporte. Use a identificação de idioma por si só, com reconhecimento de fala ou com tradução de fala.

Reconhecimento de locutor

O reconhecimento de locutor fornece algoritmos que verificam e identificam os locutores por suas características de voz exclusivas. O Reconhecimento de Locutor é usado para responder à pergunta "Quem está falando?".

Avaliação de pronúncia

A avaliação de pronúncia avalia a pronúncia da fala e fornece comentários aos locutores sobre a precisão e a fluência do áudio falado. Com a avaliação de pronúncia, aprendizes de idiomas podem praticar, obter comentários instantâneos e aprimorar sua pronúncia para que possam falar e fazer apresentações com confiança.

Reconhecimento de intenção

Reconhecimento de intenção: use o reconhecimento de fala com a compreensão da linguagem coloquial para derivar as intenções do usuário a partir da fala transcrita e agir de acordo com os comandos de voz.

Entrega e presença

É possível implantar recursos de Fala de IA do Azure na nuvem ou no local.

Com os contêineres, é possível aproximar o serviço de seus dados para fins de conformidade, segurança ou outras razões operacionais.

A implantação do serviço de Fala em nuvens soberanas está disponível para algumas entidades governamentais e seus parceiros. Por exemplo, a nuvem Azure Governamental está disponível para clientes do governo dos EUA e seus parceiros. O Microsoft Azure operado pela nuvem da 21Vianet está disponível para organizações com presença comercial na China. Para saber mais, confira Nuvens soberanas.

Diagrama mostrando onde o serviço de Fala pode ser implantado e acessado.

Usar a Fala em seu aplicativo

O Speech Studio é um conjunto de ferramentas baseadas na interface do usuário para criar e integrar recursos do serviço de Fala de IA do Azure nos seus aplicativos. Você cria projetos no Speech Studio ao usar uma abordagem sem código e fazer referência a esses ativos nos seus aplicativos usando o SDK de Fala, a CLI de Fala ou as APIs REST.

A CLI de Fala é uma ferramenta de linha de comando para uso do serviço de Fala sem necessidade de codificação. A maioria dos recursos do SDK de Fala estão disponíveis na CLI de Fala, e alguns recursos e personalizações avançados estão simplificados na CLI de Fala.

O SDK de Fala expõe muitas das funcionalidades do serviço de Fala que podem ser usadas ao desenvolver aplicativos habilitados para fala. O SDK de Fala está disponível em muitas linguagens de programação e em todas as plataformas.

Em alguns casos, não é possível ou aconselhável usar o SDK de Fala. Nesses cenários, use APIs REST para acessar o serviço de Fala. Por exemplo, use APIs REST de transcrição em lote e APIs REST de reconhecimento de locutor.

Introdução

Oferecemos guias de início rápido relacionados às linguagens de programação mais populares. Cada guia de início rápido é projetado para ensinar a você padrões de design básicos e para você executar o seu código em menos de dez minutos. Confira a lista a seguir para obter o guia de início rápido para cada recurso:

Exemplos de código

Há um código de exemplo disponível no GitHub para o serviço de Fala. Esses exemplos abordam cenários comuns, como ler áudio de um arquivo ou fluxo, reconhecimento contínuo e único e trabalho com modelos personalizados. Use estes links para exibir exemplos de SDK e REST:

IA responsável

Um sistema de IA inclui não apenas a tecnologia, mas também as pessoas que a usam, que serão afetadas por ela e o ambiente em que ela foi implantada. Leia as notas de transparência para saber mais sobre o uso e a implantação de IA responsável em seus sistemas.

Conversão de fala em texto

Avaliação de pronúncia

Sintetização de voz personalizada

Reconhecimento do Locutor

Próximas etapas