O que é o modelo Whisper?
O modelo Whisper é um modelo de fala para texto da OpenAI que você pode usar para transcrever arquivos de áudio. O modelo é treinado em um grande conjunto de dados de áudio e texto em inglês. O modelo é otimizado para transcrever arquivos de áudio que contêm fala em inglês. O modelo também pode ser usado para transcrever arquivos de áudio que contêm fala em outros idiomas. A saída do modelo é texto em inglês.
Os modelos Whisper estão disponíveis através do Serviço OpenAI do Azure ou através do Azure AI Speech. Os recursos diferem para essas ofertas. No Azure AI Speech, o Whisper é apenas um dos vários modelos que você pode usar para conversão de fala em texto.
Poderá perguntar:
O Modelo de Sussurro é uma boa escolha para o meu cenário ou um modelo de Fala de IA do Azure é melhor? Quais são as comparações de API entre os dois tipos de modelos?
Se eu quiser usar o Modelo Whisper, devo usá-lo por meio do Serviço OpenAI do Azure ou do Azure AI Speech? Quais são os cenários que me orientam a usar um ou outro?
Modelo de sussurro ou modelos de Fala do Azure AI
O modelo Whisper ou os modelos Azure AI Speech são apropriados dependendo dos seus cenários. Se você decidir usar o Azure AI Speech, poderá escolher entre vários modelos, incluindo o modelo Whisper. A tabela a seguir compara opções com recomendações sobre por onde começar.
Cenário | Modelo de sussurro | Modelos de Fala do Azure AI |
---|---|---|
Transcrições, legendas e legendas em tempo real para áudio e vídeo. | Não disponível | Recomendado |
Transcrições, legendas e legendas para áudio e vídeo pré-gravados. | O modelo Whisper através do Azure OpenAI é recomendado para o processamento rápido de ficheiros de áudio individuais. O modelo Whisper por meio do Azure AI Speech é recomendado para processamento em lote de arquivos grandes. Para obter mais informações, consulte Modelo de sussurro por meio do Azure AI Speech ou do Azure OpenAI Service? | Recomendado para processamento em lote de arquivos grandes, diarização e carimbos de data/hora em nível de palavra. |
Transcrição de gravações de chamadas telefônicas e análises, como resumo de chamadas, sentimento, tópicos-chave e insights personalizados. | Disponível | Recomendado |
Transcrição e análise em tempo real para ajudar os agentes de call center com perguntas dos clientes. | Não disponível | Recomendado |
Transcrição de gravações e análises de reuniões, como resumo da reunião, capítulos da reunião e extração de itens de ação. | Disponível | Recomendado |
Entrada de texto em tempo real e geração de documentos através de ditado de voz. | Não disponível | Recomendado |
Agente de voz do contact center: roteamento de chamadas e resposta de voz interativa para call centers. | Disponível | Recomendado |
Assistente de voz: assistente de voz específico da aplicação para um descodificador, aplicação móvel, automóvel e outros cenários. | Disponível | Recomendado |
Avaliação da pronúncia: Avaliar a pronúncia da voz de um orador. | Não disponível | Recomendado |
Traduza áudio ao vivo de um idioma para outro. | Não disponível | Recomendado através da API de tradução de fala |
Traduza áudio pré-gravado de outros idiomas para o inglês. | Recomendado | Disponível através da API de tradução de voz |
Traduza áudio pré-gravado para outros idiomas além do inglês. | Não disponível | Recomendado através da API de tradução de fala |
Modelo de sussurro através do Azure AI Speech ou através do Azure OpenAI Service?
Se você decidir usar o modelo Whisper, você tem duas opções. Você pode escolher se deseja usar o Modelo de Sussurro por meio do Azure OpenAI ou por meio do Azure AI Speech. Em ambos os casos, a legibilidade do texto transcrito é a mesma. Você pode inserir áudio em idiomas mistos e a saída está em inglês.
O modelo Whisper por meio do Serviço OpenAI do Azure pode ser melhor para:
- Transcrever rapidamente ficheiros de áudio, um de cada vez
- Traduzir áudio de outros idiomas para Português
- Fornecer um prompt ao modelo para orientar a saída
- Formatos de ficheiro suportados: mp3, mp4, mpweg, mpga, m4a, wav e webm
O Modelo de Sussurro por meio do Azure AI Speech pode ser melhor para:
- Transcrever ficheiros com mais de 25MB (até 1GB). O limite de tamanho de arquivo para o modelo do Azure OpenAI Whisper é de 25 MB.
- Transcrevendo grandes lotes de arquivos de áudio
- Diarização para distinguir entre os diferentes oradores que participam na conversa. O serviço de Fala fornece informações sobre qual orador estava falando uma parte específica da fala transcrita. O modelo Whisper através do Azure OpenAI não suporta diarização.
- Carimbos de data/hora no nível da palavra
- Formatos de ficheiro suportados: mp3, wav e ogg
- Personalização do modelo base Whisper para melhorar a precisão do seu cenário (em breve)
O apoio regional é outra consideração.
- O modelo Whisper através do Azure OpenAI Service está disponível nas seguintes regiões: Leste dos EUA 2, Sul da Índia, Centro-Norte, Leste da Noruega, Suécia Central e Europa Ocidental.
- O modelo Whisper através do Azure AI Speech está disponível nas seguintes regiões: Leste da Austrália, Leste dos EUA, Centro-Norte dos EUA, Centro-Sul dos EUA, Sudeste Asiático, Sul do Reino Unido e Europa Ocidental.