Afficher la mise en forme du texte avec la reconnaissance vocale

La reconnaissance vocale offre un tableau de fonctionnalités de mise en forme pour s’assurer que le texte transcrit est clair et lisible. Consultez les sections ci-dessous pour avoir une vue d’ensemble de la façon dont chaque fonctionnalité est utilisée pour améliorer la clarté globale de la sortie finale du texte.

ITN

La normalisation de texte inverse (ITN) est un processus qui convertit les mots prononcés dans leur forme écrite. Par exemple, le mot prononcé « quatre » est converti en forme écrite « 4 ». Le service de reconnaissance vocale termine ce processus et n’est pas configurable. Certains formats de texte pris en charge incluent des dates, des heures, des décimales, des devises, des adresses, des e-mails et des numéros de téléphone. Vous pouvez parler naturellement, et le service met en forme le texte comme prévu. Le tableau suivant montre les règles ITN appliquées à la sortie du texte.

Message vocal reconnu Texte affiché
that will cost nine hundred dollars That will cost $900.
my phone number is one eight hundred, four five six, eight nine ten My phone number is 1-800-456-8910.
the time is six forty five p m The time is 6:45 PM.
I live on thirty five lexington avenue I live on 35 Lexington Ave.
the answer is six point five The answer is 6.5.
send it to support at help dot com Send it to support@help.com.

Mise en majuscules

Les modèles de reconnaissance vocale reconnaissent les mots qui doivent être capitalisés pour améliorer la lisibilité, la précision et la grammaire. Par exemple, le service Speech met automatiquement en majuscules les noms et les mots appropriés au début d’une phrase. Certains exemples sont présentés dans ce tableau.

Message vocal reconnu Texte affiché
i got an x l t shirt I got an XL t-shirt.
my name is jennifer smith My name is Jennifer Smith.
i want to visit new york city I want to visit New York City.

Suppression de la disfluence

Lorsque vous parlez, il est courant que quelqu’un bégaie, répète des mots et fasse du remplissage avec des mots comme « hum » ou « euh ». La reconnaissance vocale peut reconnaître ces disfluences et les supprimer du texte d’affichage. La suppression de la disfluence est idéale pour transcrire les paroles non scriptées en direct pour les lire plus tard. Certains exemples sont présentés dans ce tableau.

Message vocal reconnu Texte affiché
i uh said that we can go to the uhmm movies I said that we can go to the movies.
its its not that big of uhm a deal It's not that big of a deal.
umm i think tomorrow should work I think tomorrow should work.

Ponctuation

La reconnaissance vocale ponctue automatiquement votre texte pour améliorer la clarté. La ponctuation est utile pour lire les transcriptions de d’appel ou de conversation. Certains exemples sont présentés dans ce tableau.

Message vocal reconnu Texte affiché
how are you How are you?
we can go to the mall park or beach We can go to the mall, park, or beach.

Quand vous utilisez la reconnaissance vocale avec reconnaissance continue, vous pouvez configurer le service Speech pour reconnaître des marques de ponctuation explicites. Vous pouvez ensuite parler de ponctuation à voix haute pour rendre votre texte plus lisible. Cela est particulièrement utile dans une situation où vous souhaitez utiliser une ponctuation complexe sans avoir à la fusionner ultérieurement. Certains exemples sont présentés dans ce tableau.

Message vocal reconnu Texte affiché
they entered the room dot dot dot They entered the room...
i heart emoji you period I <3 you.
the options are apple forward slash banana forward slash orange period The options are apple/banana/orange.
are you sure question mark Are you sure?

Utilisez le kit de développement logiciel (SDK) Speech pour activer le mode de dictée quand vous utilisez la reconnaissance vocale avec la reconnaissance continue. Dans ce mode, l’instance de configuration vocale interprète les descriptions verbales de structures de phrase comme la ponctuation.

speechConfig.EnableDictation();
speechConfig->EnableDictation();
speechConfig.EnableDictation()
speechConfig.enableDictation();
speechConfig.enableDictation();
[self.speechConfig enableDictation];
self.speechConfig!.enableDictation()
speech_config.enable_dictation()

Filtre de vulgarité

Vous pouvez spécifier s’il faut masquer, supprimer ou afficher les termes vulgaires dans le texte définitif. Le masquage remplace les mots vulgaires par des caractères astérisque (*) afin que vous puissiez conserver le sentiment d’origine de votre texte tout en le rendant plus approprié pour certaines situations

Remarque

Microsoft se réserve également le droit de masquer ou de supprimer tout mot jugé inapproprié. Ces mots ne sont pas retournés par le service Speech, que vous ayez activé, ou non, le filtrage des termes vulgaires.

Les options du filtre de vulgarité sont les suivantes :

  • Masked : remplace les lettres des termes vulgaires par des astérisque (*). Masqué est l’option par défaut.
  • Raw : inclut textuellement les termes vulgaires.
  • Removed : supprime les termes vulgaires.

Par exemple, pour supprimer les termes vulgaires du résultat de la reconnaissance vocale, définissez le filtre de vulgarité Removed comme indiqué ici :

speechConfig.SetProfanity(ProfanityOption.Removed);
speechConfig->SetProfanity(ProfanityOption::Removed);
speechConfig.SetProfanity(common.Removed)
speechConfig.setProfanity(ProfanityOption.Removed);
speechConfig.setProfanity(sdk.ProfanityOption.Removed);
[self.speechConfig setProfanityOptionTo:SPXSpeechConfigProfanityOption.SPXSpeechConfigProfanityOption_ProfanityRemoved];
self.speechConfig!.setProfanityOptionTo(SPXSpeechConfigProfanityOption_ProfanityRemoved)
speech_config.set_profanity(speechsdk.ProfanityOption.Removed)
spx recognize --file caption.this.mp4 --format any --profanity masked --output vtt file - --output srt file -

Le filtre de vulgarité est appliqué aux propriétés Text et MaskedNormalizedForm du résultat. Le filtre de vulgarité n’est pas appliqué aux propriétés LexicalForm et NormalizedForm du résultat. Par ailleurs, le filtre n’est pas appliqué aux résultats au niveau du mot.