O que é o modelo Whisper?

Artigo
09/02/2024

O modelo Whisper é um modelo de fala para texto da OpenAI que você pode usar para transcrever arquivos de áudio. O modelo é treinado em um grande conjunto de dados de áudio e texto em inglês. O modelo é otimizado para transcrever arquivos de áudio que contêm fala em inglês. O modelo também pode ser usado para transcrever arquivos de áudio que contêm fala em outros idiomas. A saída do modelo é texto em inglês.

Os modelos Whisper estão disponíveis através do Serviço OpenAI do Azure ou através do Azure AI Speech. Os recursos diferem para essas ofertas. No Azure AI Speech, o Whisper é apenas um dos vários modelos que você pode usar para conversão de fala em texto.

Poderá perguntar:

O Modelo de Sussurro é uma boa escolha para o meu cenário ou um modelo de Fala de IA do Azure é melhor? Quais são as comparações de API entre os dois tipos de modelos?
Se eu quiser usar o Modelo Whisper, devo usá-lo por meio do Serviço OpenAI do Azure ou do Azure AI Speech? Quais são os cenários que me orientam a usar um ou outro?

Modelo de sussurro ou modelos de Fala do Azure AI

O modelo Whisper ou os modelos Azure AI Speech são apropriados dependendo dos seus cenários. Se você decidir usar o Azure AI Speech, poderá escolher entre vários modelos, incluindo o modelo Whisper. A tabela a seguir compara opções com recomendações sobre por onde começar.

Cenário	Modelo de sussurro	Modelos de Fala do Azure AI
Transcrições, legendas e legendas em tempo real para áudio e vídeo.	Não disponível	Recomendado
Transcrições, legendas e legendas para áudio e vídeo pré-gravados.	O modelo Whisper através do Azure OpenAI é recomendado para o processamento rápido de ficheiros de áudio individuais. O modelo Whisper por meio do Azure AI Speech é recomendado para processamento em lote de arquivos grandes. Para obter mais informações, consulte Modelo de sussurro por meio do Azure AI Speech ou do Azure OpenAI Service?	Recomendado para processamento em lote de arquivos grandes, diarização e carimbos de data/hora em nível de palavra.
Transcrição de gravações de chamadas telefônicas e análises, como resumo de chamadas, sentimento, tópicos-chave e insights personalizados.	Disponível	Recomendado
Transcrição e análise em tempo real para ajudar os agentes de call center com perguntas dos clientes.	Não disponível	Recomendado
Transcrição de gravações e análises de reuniões, como resumo da reunião, capítulos da reunião e extração de itens de ação.	Disponível	Recomendado
Entrada de texto em tempo real e geração de documentos através de ditado de voz.	Não disponível	Recomendado
Agente de voz do contact center: roteamento de chamadas e resposta de voz interativa para call centers.	Disponível	Recomendado
Assistente de voz: assistente de voz específico da aplicação para um descodificador, aplicação móvel, automóvel e outros cenários.	Disponível	Recomendado
Avaliação da pronúncia: Avaliar a pronúncia da voz de um orador.	Não disponível	Recomendado
Traduza áudio ao vivo de um idioma para outro.	Não disponível	Recomendado através da API de tradução de fala
Traduza áudio pré-gravado de outros idiomas para o inglês.	Recomendado	Disponível através da API de tradução de voz
Traduza áudio pré-gravado para outros idiomas além do inglês.	Não disponível	Recomendado através da API de tradução de fala

Modelo de sussurro através do Azure AI Speech ou através do Azure OpenAI Service?

Se você decidir usar o modelo Whisper, você tem duas opções. Você pode escolher se deseja usar o Modelo de Sussurro por meio do Azure OpenAI ou por meio do Azure AI Speech. Em ambos os casos, a legibilidade do texto transcrito é a mesma. Você pode inserir áudio em idiomas mistos e a saída está em inglês.

O modelo Whisper por meio do Serviço OpenAI do Azure pode ser melhor para:

Transcrever rapidamente ficheiros de áudio, um de cada vez
Traduzir áudio de outros idiomas para Português
Fornecer um prompt ao modelo para orientar a saída
Formatos de ficheiro suportados: mp3, mp4, mpweg, mpga, m4a, wav e webm

O Modelo de Sussurro por meio do Azure AI Speech pode ser melhor para:

Transcrever ficheiros com mais de 25MB (até 1GB). O limite de tamanho de arquivo para o modelo do Azure OpenAI Whisper é de 25 MB.
Transcrevendo grandes lotes de arquivos de áudio
Diarização para distinguir entre os diferentes oradores que participam na conversa. O serviço de Fala fornece informações sobre qual orador estava falando uma parte específica da fala transcrita. O modelo Whisper através do Azure OpenAI não suporta diarização.
Carimbos de data/hora no nível da palavra
Formatos de ficheiro suportados: mp3, wav e ogg
Personalização do modelo base Whisper para melhorar a precisão do seu cenário (em breve)

O apoio regional é outra consideração.

O modelo Whisper através do Azure OpenAI Service está disponível nas seguintes regiões: Leste dos EUA 2, Sul da Índia, Centro-Norte, Leste da Noruega, Suécia Central e Europa Ocidental.
O modelo Whisper através do Azure AI Speech está disponível nas seguintes regiões: Leste da Austrália, Leste dos EUA, Centro-Norte dos EUA, Centro-Sul dos EUA, Sudeste Asiático, Sul do Reino Unido e Europa Ocidental.

Partilhar via

O que é o modelo Whisper?

Modelo de sussurro ou modelos de Fala do Azure AI

Modelo de sussurro através do Azure AI Speech ou através do Azure OpenAI Service?

Próximos passos

Comentários

Recursos adicionais