Was ist Besprechungstranskription? (Vorschau)

Artikel
09/04/2024

Die Besprechungstranskription ist eine Spracherkennungs-Lösung, die eine Echtzeit- oder asynchrone Transkription einer beliebigen Besprechung ermöglicht. Dieses Feature, das sich derzeit in der Vorschau befindet, kombiniert Spracherkennung, Sprecheridentifikation und Satzzuordnung, um zu bestimmen, wer was und wann in einer Besprechung gesagt hat.

Wichtig

Das frühere Szenario „Unterhaltungstranskription“ wird in „Besprechungstranskription“ umbenannt. Verwenden Sie beispielsweise MeetingTranscriber anstelle von ConversationTranscriber, und verwenden Sie CreateMeetingAsync anstelle von CreateConversationAsync. Ein neues Feature zur „Unterhaltungstranskription“ wird ohne Verwendung von Benutzerprofilen und Stimmsignaturen veröffentlicht. Weitere Informationen finden Sie in den Versionshinweisen.

Schlüsselfunktionen

Die folgenden Features der Besprechungstranskription könnten Sie nützlich finden:

Zeitstempel: Jede Äußerung eines Sprechers weist einen Zeitstempel auf, sodass Sie leicht erkennen können, wann ein Ausdruck geäußert wurde.
Lesbare Transkriptionen: Transkripte werden automatisch mit Formatierung und Interpunktion versehen, um sicherzustellen, dass der Text genau dem entspricht, was gesagt wurde.
Benutzerprofile: Benutzerprofile werden generiert, indem Sprachbeispiele von Benutzern erfasst und an die Signaturgenerierung gesendet werden.
Sprecheridentifikation: Sprecher werden über Benutzerprofile identifiziert und jedem Sprecher ist ein Sprecherbezeichner zugeordnet.
Diarisierung mehrerer Sprecher: Ermittlung, wer was gesagt hat, durch Synthetisieren des Audiostreams mit den einzelnen Sprecherbezeichnern.
Echtzeittranskription: Bereitstellung von Live-Transkripten darüber, wer was und wann sagt, während die Besprechung stattfindet.
Asynchrone Transkription: Bereitstellung von Transkripten mit höherer Genauigkeit durch Verwendung eines Mehrkanalaudiostreams.

Hinweis

Für die Besprechungstranskription ist die Anzahl der Sprecher im Raum zwar nicht begrenzt, sie ist aber für 2 bis 10 Sprecher pro Sitzung optimiert.

Erste Schritte

Informationen zu den ersten Schritten finden Sie in der Schnellstartanleitung zur Besprechungstranskription in Echtzeit.

Anwendungsfälle

Um Besprechungen für alle Beteiligten, z. B. gehörlose und schwerhörige Teilnehmer, zu ermöglichen, ist es wichtig, dass die Transkription in Echtzeit erfolgt. Die Besprechungstranskription im Echtzeitmodus nimmt den Audiostream von Besprechungen auf und bestimmt, wer was sagt, sodass alle Besprechungsteilnehmer der Transkription folgen und ohne Verzögerung an der Besprechung teilnehmen können.

Die Besprechungsteilnehmer können sich auf die Besprechung konzentrieren und das Aufzeichnen der Notizen der Besprechungstranskription überlassen. Die Teilnehmer können sich aktiv an der Besprechung beteiligen und schnell die nächsten Schritte verfolgen, indem sie das Transkript verwenden, anstatt Notizen zu machen und möglicherweise etwas während der Besprechung zu verpassen.

Funktionsweise

Das folgende Diagramm enthält eine allgemeine Übersicht über die Funktionsweise des Features.

Diagramm, das die Beziehungen zwischen verschiedenen Teilen der Lösung für die Besprechungstranskription zeigt.

Erwartete Eingaben

Die Besprechungstranskription verwendet zwei Eingabetypen:

Audiostream mit mehreren Kanälen: Spezifikations- und Entwurfsdetails finden Sie unter Empfehlungen zu Mikrofonarrays.
Benutzerstimmproben: Für die Besprechungstranskription sind vor der Unterhaltung Benutzerprofile zur Sprecheridentifikation erforderlich. Sammeln Sie Audioaufzeichnungen von jedem Benutzer, und senden Sie die Aufzeichnungen dann an den Dienst für die Signaturgenerierung, um die Audioaufnahmen zu überprüfen und Benutzerprofile zu generieren.

Hinweis

Die Einzelkanal-Audiokonfiguration für die Besprechungstranskription ist derzeit nur in der privaten Vorschau verfügbar.

Benutzerstimmproben für Stimmsignaturen sind für die Sprecheridentifikation erforderlich. Sprecher ohne Stimmproben werden als Nicht identifiziert erkannt. Nicht identifizierte Sprecher können dennoch unterschieden werden, wenn die Eigenschaft DifferentiateGuestSpeakers aktiviert ist (siehe folgendes Beispiel). Die Transkriptionsausgabe zeigt dann die Sprecher als z. B. Guest_0 und Guest_1 an, anstatt sie als zuvor registrierte spezifische Sprechernamen zu erkennen.

config.SetProperty("DifferentiateGuestSpeakers", "true");

Echtzeitmodus im Vergleich zum asynchronen Modus

Die folgenden Abschnitte enthalten weitere Details zu den Transkriptionsmodi, die Sie auswählen können.

Echtzeit

Die Audiodaten werden live verarbeitet, um den Sprecherbezeichner und das Transkript zurückzugeben. Wählen Sie diesen Modus, wenn Ihre Transkriptionslösung den Teilnehmern der Besprechung eine Live-Transkriptansicht ihrer laufenden Besprechung bieten soll. Die Erstellung einer Anwendung, die Besprechungen für gehörlose und schwerhörige Teilnehmer einfacher zugänglich macht, ist z. B. ein idealer Anwendungsfall für die Echtzeittranskription.

Asynchron

Die Audiodaten werden als Batch verarbeitet, um den Sprecherbezeichner und das Transkript zurückzugeben. Wählen Sie diesen Modus aus, wenn Ihre Transkriptionslösung eine höhere Genauigkeit ohne Live-Transkriptansicht bieten soll. Wenn Sie z. B. eine Anwendung erstellen möchten, mit der die Besprechungsteilnehmer verpasste Besprechungen leicht nachvollziehen können, verwenden Sie den asynchronen Transkriptionsmodus, um Transkriptionsergebnisse mit hoher Genauigkeit zu erhalten.

Echtzeit- und asynchroner Modus

Audiodaten werden live verarbeitet, um den Sprecherbezeichner und das Transkript zurückzugeben, und fordern zusätzlich ein Transkript mit hoher Genauigkeit durch asynchrone Verarbeitung an. Wählen Sie diesen Modus aus, wenn Ihre Anwendung eine Echtzeittranskription benötigt sowie eine Transkription mit höherer Genauigkeit für die Verwendung nach der Besprechung erfordert.

Sprachunterstützung

Aktuell unterstützt die Besprechungstranskription alle Sprachen für Spracherkennung in den folgenden Regionen: centralus, eastasia, eastus, westeurope.

Nächste Schritte

Schnellstart: Echtzeit-Besprechungstranskription

Freigeben über