O que é conversão de fala em texto?

O serviço Fala de IA do Azure oferece recursos avançados de conversão de fala em texto. Esse recurso dá suporte à transcrição em tempo real e em lote, fornecendo soluções versáteis para a conversão de fluxos de áudio em texto.

Principais recursos

O serviço de conversão de fala em texto oferece os seguintes recursos principais:

Conversão de fala em texto em tempo real

A transcrição de conversão de fala em texto em tempo real transcreve o áudio à medida que ele é reconhecido por um microfone ou arquivo. É ideal para aplicativos que exigem transcrição imediata, como:

  • Transcrições, legendas ou legendas para reuniões ao vivo: Transcrição de áudio em tempo real para acessibilidade e manutenção de registros.
  • Diarização: Identificação e distinção entre diferentes falantes no áudio.
  • Avaliação de pronúncia: Avaliação e fornecimento de comentários sobre a precisão da pronúncia.
  • Assistência a agentes de call center: Fornecimento de transcrição em tempo real para auxiliar os representantes de atendimento ao cliente.
  • Ditado: Transcrição de palavras faladas em texto escrito para fins de documentação.
  • Agentes de voz: Habilitando sistemas interativos de resposta por voz para transcrever consultas e comandos do usuário.

A conversão de fala em texto em tempo real pode ser acessada por meio do SDK de Fala, CLI de Fala e API REST, permitindo a integração em vários aplicativos e fluxos de trabalho. A conversão de fala em texto em tempo real está disponível por meio do SDK de Fala, da CLI de Fala e de APIs REST, como a API de Transcrição Rápida.

Transcrição Rápida (versão prévia)

A API de Transcrição Rápida é usada para transcrever arquivos de áudio com resultados de forma síncrona e mais rápida do que o áudio em tempo real. Use a Transcrição Rápida nos cenários de que você precisa da transcrição de uma gravação de áudio o mais rápido possível com latência previsível, como:

  • Transcrição rápida de áudio ou vídeo e legendas: Obtenha rapidamente a transcrição de um arquivo de áudio ou vídeo inteiro de uma só vez.
  • Tradução de vídeo: Obtenha imediatamente novas legendas para um vídeo se o áudio estiver em idiomas diferentes.

Observação

A API de Transcrição Rápida só está disponível por meio da API REST da conversão de fala em texto versão 2024-05-15-preview ou posterior.

Para começar a usar a Transcrição Rápida, confira Usar a API de Transcrição Rápida (versão prévia).

Transcrição de lote API

A transcrição em lote foi projetada para transcrever grandes quantidades de áudio armazenadas em arquivos. Esse método processa o áudio de forma assíncrona e é adequado para:

  • Transcrições, legendas ou subtítulos para áudio pré-gravado: Convertendo conteúdo de áudio armazenado em texto.
  • Análise pós-chamada do Contact Center: Análise de chamadas gravadas para extrair insights valiosos.
  • Diarização: Diferenciação entre alto-falantes em áudio gravado.

A transcrição em lote está disponível por meio de:

Fala Personalizada

Com a fala personalizada, você pode avaliar e melhorar a precisão do reconhecimento de fala para seus aplicativos e produtos. Um modelo de fala personalizado pode ser usado para conversão de fala em texto em tempo real, tradução de fala e transcrição em lote.

Dica

Um ponto de extremidade de implantação hospedado não é necessário para usar a fala personalizada com a API de transcrição em lote. Você poderá conservar recursos se o modelo de fala personalizado só for usado para transcrição em lote. Para obter mais informações, confira Preços do serviço de Fala.

Pronto para uso, o reconhecimento de fala utiliza um Modelo de Linguagem Universal como um modelo base treinado com dados de propriedade da Microsoft e reflete a linguagem falada comumente usada. O modelo básico é pré-treinado com dialetos e fonética que representam vários domínios comuns. Quando você faz uma solicitação de reconhecimento de fala, o modelo base mais recente de cada linguagem com suporte é usado por padrão. O modelo base funciona bem na maioria dos cenários de reconhecimento de fala.

A fala personalizada permite que você adapte o modelo de reconhecimento de fala para atender melhor às necessidades específicas do seu aplicativo. Isso pode ser particularmente útil para:

  • Melhorando o reconhecimento de vocabulário específico de domínio: Treine o modelo com dados de texto relevantes para o seu campo.
  • Melhorar a precisão para condições de áudio específicas: Use dados de áudio com transcrições de referência para refinar o modelo.

Para obter mais informações sobre fala personalizada, consulte a visão geral da fala personalizada e a documentação da API REST de conversão de fala em texto.

Para obter detalhes sobre as opções de personalização por idioma e localidade, consulte a documentação de suporte de idioma e voz para o serviço de Fala.

Exemplos de uso

Aqui estão alguns exemplos práticos de como você pode utilizar a conversão de fala em texto da IA do Azure:

Caso de uso Cenário Solução
Transcrições e legendas de reuniões ao vivo Uma plataforma de eventos virtuais precisa fornecer legendas em tempo real para webinars. Integre a conversão de fala em texto em tempo real usando o SDK de Fala para transcrever o conteúdo falado em legendas exibidas ao vivo durante o evento.
Aprimoramento do atendimento ao cliente Uma central de atendimento deseja auxiliar os agentes fornecendo transcrições em tempo real das chamadas dos clientes. Use a conversão de fala em texto em tempo real por meio da CLI de Fala para transcrever chamadas, permitindo que os agentes entendam melhor e respondam às consultas dos clientes.
Legendagem de vídeo Uma plataforma de hospedagem de vídeo deseja gerar rapidamente um conjunto de legendas para um vídeo. Use a transcrição rápida para obter rapidamente um conjunto de legendas para o vídeo inteiro.
Ferramentas educacionais Uma plataforma de e-learning tem como objetivo fornecer transcrições para palestras em vídeo. Aplique a transcrição em lote por meio da API REST de conversão de fala em texto para processar vídeos de palestras pré-gravados, gerando transcrições de texto para os alunos.
Documentação de assistência à saúde Um prestador de serviços de saúde precisa documentar as consultas dos pacientes. Use a conversão de fala em texto em tempo real para ditar, permitindo que os profissionais de saúde falem suas anotações e elas sejam transcritas instantaneamente. Use um modelo personalizado para aprimorar o reconhecimento de termos médicos específicos.
Mídia e entretenimento Uma empresa de mídia deseja criar legendas para um grande arquivo de vídeos. Use a transcrição em lote para processar os arquivos de vídeo em massa, gerando legendas precisas para cada vídeo.
Pesquisa de mercado Uma empresa de pesquisa de mercado precisa analisar os comentários dos clientes a partir de gravações de áudio. Use a transcrição em lote para converter comentários de áudio em texto, facilitando a análise e a extração de insights.

IA responsável

Um sistema de IA inclui não apenas a tecnologia, mas também as pessoas que a usam, que serão afetadas por ela e o ambiente em que ela foi implantada. Leia as notas de transparência para saber mais sobre o uso e implantação de IA responsável em seus sistemas.