Qu’est-ce que la reconnaissance vocale ?

Le service Azure AI Speech offre des capacités de reconnaissance vocale avancées. Cette fonctionnalité prend en charge la transcription en temps réel et par lots, offrant des solutions polyvalentes pour convertir des flux audio en texte.

Fonctionnalités de base

Le service de reconnaissance vocale offre les fonctionnalités principales suivantes :

Reconnaissance vocale en temps réel

La reconnaissance vocale en temps réel transcrit l’audio tel qu’il est reconnu à partir d’un microphone ou d’un fichier. Elle est idéale pour les applications nécessitant une transcription immédiate, par exemple :

  • Transcriptions ou sous-titres pour les réunions en direct : transcription audio en temps réel à des fins d’accessibilité et de conservation des enregistrements.
  • Diarisation : identification et distinction entre différents orateurs dans l’audio.
  • Évaluation de la prononciation : évaluation et apport de commentaires sur la justesse de la prononciation.
  • Aide aux agents de centre d’appels : fourniture d’une transcription en temps réel pour aider les représentants du service clientèle.
  • Dictée : transcription des mots parlés en texte écrit à des fins de documentation.
  • Agents vocaux : activation des systèmes de réponse vocale interactive pour transcrire des commandes et requêtes utilisateur.

La reconnaissance vocale en temps réel est accessible via le kit SDK Speech, l’interface CLI Speech et l’API REST, autorisant l’intégration à différentes applications et flux de travail. La reconnaissance vocale en temps réel est disponible via le kit SDK Speech, l’interface CLI Speech et des API REST telles que l’API Transcription rapide.

Transcription rapide (préversion)

L’API Transcription rapide permet de transcrire des fichiers audio avec retour des résultats de manière synchronisé et plus rapide que l’audio en temps réel. Utilisez la transcription rapide dans les scénarios où vous avez besoin de la transcription d’un enregistrement audio le plus rapidement possible avec une latence prévisible, par exemple :

  • Transcription et sous-titres audio ou vidéo rapides : obtenez rapidement une transcription d’une vidéo ou d’un fichier audio entier en une seule fois.
  • Traduction vidéo : obtenez immédiatement de nouveaux sous-titres pour une vidéo si vous avez de l’audio dans différentes langues.

Remarque

L’API de transcription rapide est disponible uniquement via la reconnaissance vocale de l’API REST version 2024-05-15 et ultérieures.

Pour bien démarrer avec la transcription rapide, consultez utiliser l’API de transcription rapide (préversion).

API de transcription Batch

La transcription par lots est conçue pour transcrire de grandes quantités d’audio stockées dans des fichiers. Cette méthode traite l’audio de manière asynchrone et convient pour :

  • Transcriptions ou sous-titres pour l’audio préenregistré : conversion du contenu audio stocké en texte.
  • Analyse post-appel dans les centres de contact : analyse des appels enregistrés pour extraire des insights précieux.
  • Diarisation : différenciation entre les orateurs dans l’audio enregistré.

La transcription par lots est disponible via :

Reconnaissance vocale personnalisée

Avec vocal personnalisé, vous pouvez évaluer et améliorer l’exactitude de la reconnaissance vocale pour vos applications et produits. Un modèle vocal personnalisé peut être utilisé pour la reconnaissance vocale en temps réel, la traduction vocale et la transcription par lots.

Conseil

Un point de terminaison de déploiement hébergé n’est pas nécessaire pour utiliser Custom Speech avec l’API de transcription par lots. Vous pouvez conserver des ressources si le modèle vocal personnalisé est utilisé uniquement pour la transcription par lots. Pour plus d’informations, consultez les tarifs du service Speech.

Prête à l’emploi, la reconnaissance vocale utilise un modèle de langage universel comme modèle de base qui est entraîné avec des données appartenant à Microsoft et reflète la langue couramment parlée. Le modèle de base est préentraîné avec les dialectes et la phonétique représentant divers domaines communs. Quand vous effectuez une demande de reconnaissance vocale, le modèle de base le plus récent pour chaque langue prise en charge est utilisé par défaut. Le modèle de base fonctionne bien dans la plupart des scénarios de reconnaissance vocale.

La reconnaissance vocale personnalisée vous permet de personnaliser le modèle de reconnaissance vocale pour mieux répondre aux besoins spécifiques de votre application. Cela peut être particulièrement utile pour :

  • Amélioration de la reconnaissance du vocabulaire propre au domaine : entraînez le modèle avec des données de texte pertinentes pour votre domaine.
  • Amélioration de la précision pour des conditions audio spécifiques : utilisez des données audio avec des transcriptions de référence pour ajuster le modèle.

Pour plus d’informations sur la reconnaissance vocale personnalisée, consultez la vue d’ensemble de la reconnaissance vocale personnalisée et la documentation de l’API REST de reconnaissance vocale.

Pour plus d’informations sur les options de personnalisation par langue et paramètres régionaux, consultez la documentation sur la prise en charge de la langue et de la voix pour le service Speech.

Exemples d’utilisation

Voici quelques exemples pratiques illustrant comment vous pouvez utiliser la reconnaissance vocale Azure AI :

Cas d’usage Scénario Solution
Transcriptions et sous-titres de réunion en direct Une plateforme d’événements virtuels doit fournir des sous-titres en temps réel pour les webinaires. Intégrez la reconnaissance vocale en temps réel à l’aide du kit SDK Speech pour transcrire du contenu parlé en sous-titres affichés en direct pendant l’événement.
Amélioration du service clientèle Un centre d’appels souhaite aider les agents en fournissant des transcriptions en temps réel des appels des clients. Utilisez la reconnaissance vocale en temps réel via l’interface CLI Speech pour transcrire les appels, permettant ainsi aux agents de mieux comprendre et mieux répondre aux requêtes des clients.
Sous-titrage de vidéo Une plateforme d’hébergement de vidéos souhaite générer rapidement un ensemble de sous-titres pour une vidéo. Utilisez la transcription rapide pour obtenir rapidement un ensemble de sous-titres pour toute la vidéo.
Outils pédagogiques Une plateforme d’apprentissage électronique souhaite fournir des transcriptions pour des vidéos de cours. Appliquez la transcription par lots par le biais de l’API REST de reconnaissance vocale pour traiter des vidéos de cours préenregistrées et générer des transcriptions de texte pour les étudiants.
Documentation médicale Un professionnel de la santé doit documenter les consultations des patients. Utilisez la reconnaissance vocale en temps réel pour la dictée, qui permet aux professionnels de la santé de dicter leurs notes et de les transcrire instantanément. Utilisez un modèle personnalisé pour améliorer la reconnaissance de termes médicaux spécifiques.
Médias et divertissement Une société multimédia souhaite créer des sous-titres pour une grande archive de vidéos. Utilisez la transcription par lots pour traiter les fichiers vidéo en bloc, et générer des sous-titres précis pour chaque vidéo.
Étude de marché Une société d’étude de marché doit analyser les commentaires des clients à partir d’enregistrements audio. Utilisez la transcription par lots pour convertir les commentaires audio en texte, ce qui facilite l’analyse et l’extraction des insights.

IA responsable

Un système d’IA englobe non seulement la technologie, mais aussi ses utilisateurs, les personnes concernées et l’environnement dans lequel il est déployé. Lisez les notes de transparence pour en savoir plus sur l’utilisation et le déploiement d’une IA responsable dans vos systèmes.