Qu’est-ce que le modèle Whisper ?

Le modèle Whisper est un modèle de reconnaissance vocale d’OpenAI que vous pouvez utiliser pour transcrire des fichiers audio. Le modèle est formé sur un grand jeu de données d’audio et de texte anglais. Le modèle est optimisé pour la transcription de fichiers audio qui contiennent de la parole en anglais. Le modèle peut également être utilisé pour transcrire des fichiers audio qui contiennent de la parole dans d’autres langues. La sortie du modèle est du texte anglais.

Les modèles Whisper sont disponibles via le Azure OpenAI Service ou via Azure AI Speech. Les fonctionnalités diffèrent pour ces offres. Dans Azure AI Speech (transcription par lots), Whisper n’est qu’un des modèles de reconnaissance vocale que vous pouvez utiliser.

Vous pouvez demander :

  • Le modèle Whisper est-il un bon choix pour mon scénario ou un modèle Azure AI Speech est-il meilleur ? Quelles sont les comparaisons d’API entre les deux types de modèles ?

  • Si je souhaite utiliser le modèle Whisper, dois-je l’utiliser via Azure OpenAI Service ou Azure AI Speech ? Quels scénarios peuvent me guider pour utiliser l’un ou l’autre ?

Modèle Whisper ou modèles Azure AI Speech

Le modèle Whisper ou les modèles Azure AI Speech sont appropriés en fonction de vos scénarios. Si vous décidez d’utiliser Azure AI Speech, vous pouvez choisir parmi plusieurs modèles, y compris le modèle Whisper. Le tableau suivant compare les options et vous fait des recommandations relatives à l’emplacement de départ.

Scénario Modèle Whisper Modèles Azure AI Speech
Transcriptions, légendes et sous-titres en temps réel pour l’audio et la vidéo. Non disponible Recommandé
Transcriptions, légendes et sous-titres pour l’audio et la vidéo préenregistrés. Le modèle Whisper via Azure OpenAI est recommandé pour un traitement rapide de fichiers audio individuels. Le modèle Whisper via Azure AI Speech (transcription par lots) est recommandé pour le traitement par lots de fichiers volumineux. Pour plus d’informations, consultez Modèle Whisper via la transcription par lots Azure AI Speech ou via Azure OpenAI Service ? Recommandé pour le traitement par lots de fichiers volumineux, de diarisation et d’horodatages au niveau des mots.
Transcription d’enregistrements d’appels téléphoniques et analyses, tels que le résumé des appels, le sentiment, les sujets clés et les insights personnalisés. Disponible Recommandé
Transcription et analytique en temps réel pour aider les agents de centre d’appels à répondre aux questions des clients. Non disponible Recommandé
Transcription des enregistrements de réunion et analyses, tels que le résumé de la réunion, les chapitres de réunion et l’extraction d’éléments d’action. Disponible Recommandé
Entrée de texte en temps réel et génération de documents via la dictée vocale. Non disponible Recommandé
Agent vocal du centre de contacts : routage des appels et réponse vocale interactive pour les centres d’appels. Disponible Recommandé
Assistant vocal : assistant vocal spécifique à l’application pour les scénarios de décodeur, d’application mobile, de véhicule et autres. Disponible Recommandé
Évaluation de la prononciation : évaluer la prononciation de la voix d’un orateur. Non disponible Recommandé
Traduire de l’audio en direct d’une langue vers une autre. Non disponible Recommandé via l’API de traduction vocale
Traduire de l’audio préenregistré d’autres langues vers l’anglais. Recommandé Disponible via l’API de traduction vocale
Traduire de l’audio préenregistré dans des langues autres que l’anglais. Non disponible Recommandé via l’API de traduction vocale

Modèle Whisper via Azure AI Speech ou via Azure OpenAI Service ?

Si vous décidez d’utiliser le modèle Whisper, vous avez deux options. Vous pouvez choisir d’utiliser le modèle Whisper via Azure OpenAI ou via Azure AI Speech (transcription par lots). Dans les deux cas, la lisibilité du texte transcrit est la même. Vous pouvez entrer de l’audio en plusieurs langues et la sortie est en anglais.

Le modèle Whisper via Azure OpenAI Service peut être idéal pour :

  • Transcrire rapidement des fichiers audio un par un
  • Traduire de l’audio d’autres langues vers l’anglais
  • Fournir une invite au modèle pour guider la sortie
  • Formats de fichiers pris en charge : mp3, mp4, mpweg, mpga, m4a, wav et webm
  • Le nom de fichier ne peut contenir que des caractères ASCII

Le modèle Whisper via la transcription par lots Azure AI Speech peut être la meilleure option pour :

  • Transcrire des fichiers supérieurs à 25 Mo (jusqu’à 1 Go). La taille limite de fichier pour le modèle Whisper d’Azure OpenAI est de 25 Mo.
  • transcrire de grands lots de fichiers audio ;
  • Diariser pour faire la distinction entre les différents intervenants participant à la conversation. Le service Speech fournit des informations sur l’orateur qui parlait une partie particulière de la parole transcrite. Le modèle Whisper via Azure OpenAI ne prend pas en charge la diarisation.
  • Horodatages de niveau des mots
  • les formats de fichiers pris en charge : mp3, wav et ogg.

La prise en charge régionale est une autre considération à prendre en compte.

  • Le modèle Whisper via Azure OpenAI Service est disponible dans les régions suivantes : USA Est 2, Inde Sud, Centre Nord, Norvège Est, Suède Centre, Suisse Nord et Europe Ouest.
  • Le modèle Whisper via Azure AI Speech est disponible dans les régions suivantes : Australie Est, USA Est, USA Centre Nord, USA Centre Sud, Asie Sud-Est, Royaume-Uni Sud et Europe Ouest.