Arten von Sprach-API-Diensten

Artikel
07/29/2024

Sie können den Azure KI Speech-Service verwenden, um Transformationen gesprochener Sprache durchzuführen, einschließlich Spracherkennung, Text-zu-Sprache, Sprachübersetzung und Sprecher*innenerkennung.

Hinweis

Verwenden Sie Azure Cognitive Service für Language, wenn Sie Erkenntnisse zu Begriffen oder Ausdrücken sammeln oder eine detaillierte kontextbezogene Analyse der gesprochenen oder geschriebenen Sprache erhalten möchten.

Dienste

Sprache-in-Text kann Audiostreams in Echtzeit oder im Batch in Text konvertieren.
Mit Text-zu-Sprache können Anwendungen Text in menschenähnliche Sprache konvertieren.
Sprachübersetzung ermöglicht eine mehrsprachige Sprache-zu-Sprache- und eine Sprache-zu-Text-Übersetzung von Audiostreams.

Auswählen eines Sprachendiensts

Dieses Flussdiagramm kann Ihnen bei der Auswahl des Sprachendiensts helfen, der Ihren Anforderungen entspricht:

Diagramm, das zeigt, wie Sie einen Sprachendienst auswählen.

Die linke Seite des Diagramms veranschaulicht Audio-zu-Audio- oder Audio-zu-Text-Prozesse.

Die Spracherkennung wird verwendet, um Sprache von einer Audioquelle in ein Textformat zu konvertieren.
Spracherkennung wird verwendet, um Sprache in einer Sprache in eine andere Sprache zu übersetzen.

Die rechte Seite des Diagramms veranschaulicht Text-zu-Audio-Prozesse.

Text-in-Sprache wird verwendet, um gesprochene Audiodateien aus einer Textquelle zu erzeugen.

Gängige Anwendungsfälle

In der folgenden Tabelle werden Dienste für einige häufige Anwendungsfälle empfohlen.

Anwendungsfall	Zu verwendender Dienst
Bereitstellen von Untertiteln für aufgezeichnete Videos oder Livevideos	Spracherkennung
Erstellen eines Transkripts für ein Telefonat oder eine Besprechung	Spracherkennung
Implementieren des automatisierten Notizendiktats	Spracherkennung
Bestimmen der beabsichtigten Benutzereingabe für die weitere Verarbeitung	Spracherkennung
Generieren von gesprochenen Antworten auf Benutzereingaben	Text-zu-Sprache
Erstellen von Sprachmenüs für Telefonanlagen	Text-zu-Sprache
Lautes Vorlesen von E-Mails oder SMS in Situationen, in denen Sie keine Hand frei haben	Text-zu-Sprache
Übertragung von Ankündigungen an öffentlichen Orten wie Bahnhöfen oder Flughäfen	Text-zu-Sprache
Erzeugen der Untertitelung in Echtzeit für eine Rede oder die gleichzeitige bidirektionale Übersetzung einer gesprochenen Konversation	Spracherkennung

Beitragende

Dieser Artikel wird von Microsoft gepflegt. Er wurde ursprünglich von folgenden Mitwirkenden geschrieben:

Hauptautoren:

Kruti Mehta | Azure Senior Fast-Track Engineer
Oscar Shimabukuro | Senior Cloud Solution Architect

Andere Mitwirkende:

Mick Alberts | Technical Writer
Ashish Chahuan | Senior Cloud Solution Architect
Brandon Cowen | Senior Cloud Solution Architect
Manjit Singh | Softwareentwickler
Christina Skarpathiotaki | Senior Cloud Solution Architect
Nathan Widdup | Azure Senior Fast-Track Engineer

Melden Sie sich bei LinkedIn an, um nicht öffentliche LinkedIn-Profile anzuzeigen.

Freigeben über

Arten von Sprach-API-Diensten

Dienste

Auswählen eines Sprachendiensts

Gängige Anwendungsfälle

Beitragende

Nächste Schritte

Feedback

Zusätzliche Ressourcen

Freigeben über

Arten von Sprach-API-Diensten

Dienste

Auswählen eines Sprachendiensts

Gängige Anwendungsfälle

Beitragende

Nächste Schritte

Zugehörige Ressourcen

Feedback

Zusätzliche Ressourcen