Häufig gestellte Fragen zur Spracherkennung

In diesem Artikel werden häufig gestellte Fragen zur Spracherkennungfunktionalität beantwortet. Wenn Sie hier keine Antworten auf Ihre Fragen finden, sehen Sie sich weitere Supportoptionen an.

Allgemein

Worin besteht der Unterschied zwischen einem Basismodell und einem benutzerdefinierten Modell zur Spracherkennung?

Ein Baselinemodell für die Spracherkennung wird mit Daten von Microsoft trainiert und wird bereits in der Cloud bereitgestellt. Sie können ein benutzerdefiniertes Modell erstellen und verwenden, um ein Modell zu haben, das optimal an eine Umgebung mit speziellen Umweltgeräuschen oder Sprachen angepasst ist. Für Fabrikhallen, Autos oder laute Straßen wäre ein angepasstes Akustikmodell erforderlich. Für bestimmte Themen, wie z. B. Biologie, Physik, Radiologie, Produktnamen und benutzerdefinierte Akronyme, würde ein angepasstes Sprachmodell benötigt. Wenn Sie ein benutzerdefiniertes Modell trainieren möchten, sollten Sie mit entsprechendem Text beginnen, um die Erkennung besonderer Begriffe und Phrasen zu verbessern.

Wo fange ich an, wenn ich ein Basismodell verwenden möchte?

Rufen Sie zunächst einen Speech-Ressourcenschlüssel und eine Region im Azure-Portal ab. Informationen zum Ausführen von REST-Aufrufen an ein vorab bereitgestelltes Basismodell finden Sie in der Dokumentation der REST-APIs. Wenn Sie WebSockets verwenden möchten, laden Sie das Speech SDK herunter.

Muss ich immer ein benutzerdefiniertes Sprachmodell erstellen?

Nein. Wenn Ihre Anwendung generische, alltägliche Sprache verwendet, müssen Sie ein Modell nicht anpassen. Wenn Ihre Anwendung in einer Umgebung verwendet wird, in der es wenig oder gar keine Hintergrundgeräusche gibt, müssen Sie ein Modell nicht anpassen.

Sie können Basismodelle und angepasste Modelle im Portal bereitstellen und dann Genauigkeitsprüfungen für diese durchführen. Sie können dieses Feature verwenden, um die Genauigkeit eines Basismodells im Vergleich zu einem benutzerdefinierten Modell zu messen.

Wie erfahre ich, wann die Verarbeitung für mein Dataset oder Modell abgeschlossen ist?

Derzeit ist der Status des Modells oder Datasets in der Tabelle die einzige Möglichkeit, dies zu erfahren. Wenn die Verarbeitung abgeschlossen ist, lautet der Status Erfolgreich.

Kann ich mehrere Modelle erstellen?

Die Anzahl der Modelle, die Sie in Ihrer Sammlung haben können, ist nicht begrenzt.

Ich habe festgestellt, dass ich einen Fehler gemacht habe. Wie breche ich einen laufenden Datenimport oder die laufende Modellerstellung ab?

Derzeit können Sie einen akustischen oder sprachlichen Anpassungsprozess nicht rückgängig machen. Sie können importierte Daten und Modelle löschen, wenn sie in einem Endzustand sind.

Mit dem ausführlichen Ausgabeformat erhalte ich mehrere Ergebnisse für jede Phrase. Was sollte ich verwenden?

Verwenden Sie immer das erste Ergebnis, selbst wenn ein anderes Ergebnis („N-Best“) einen höheren Konfidenzwert aufweist. Der Speech-Dienst betrachtet das erste Ergebnis als das beste. Bei dem Ergebnis kann es sich auch um eine leere Zeichenfolge handeln, wenn keine Sprache erkannt wurde.

Die anderen Ergebnisse sind wahrscheinlich schlechter und verfügen möglicherweise nicht über vollständige Groß- und Kleinschreibung sowie Interpunktion. Diese Ergebnisse sind insbesondere in speziellen Szenarios hilfreich, z. B., wenn Sie Benutzern die Option bereitstellen möchten, Korrekturoptionen aus einer Liste auszuwählen, oder wenn falsch erkannte Befehle verarbeitet werden sollen.

Warum gibt es mehrere Basismodelle?

Im Speech-Dienst können Sie aus mehreren Basismodellen auswählen. Jeder Modellname enthält das Datum, an dem es hinzugefügt wurde. Wenn Sie damit beginnen, ein benutzerdefiniertes Modell zu trainieren, verwenden Sie das jüngste Modell, um die höchste Genauigkeit zu erzielen. Ältere Basismodelle sind für einige Zeit weiterhin verfügbar, nachdem ein neues Modell veröffentlicht wurde. Sie können das Modell, mit dem Sie bisher gearbeitet haben, weiterhin verwenden, bis es außer Betrieb gesetzt wird (weitere Informationen unter Lebenszyklus von Modell und Endpunkt). Es wird weiterhin empfohlen, zum neuesten Basismodell zu wechseln, um die Genauigkeit zu verbessern.

Kann ich mein vorhandenes Modell aktualisieren (Modellstapel)?

Sie können ein vorhandenes Modell nicht aktualisieren. Als Lösung können Sie das alte Dataset mit dem neuen Dataset kombinieren und neu anpassen.

Das alte und das neue Dataset müssen in einer einzigen ZIP-Datei (für akustische Daten) bzw. TXT-Datei (für Sprachdaten) zusammengefasst werden. Wenn die Anpassung abgeschlossen ist, stellen Sie das neue, aktualisierte Modell erneut bereit, um einen neuen Endpunkt zu erhalten.

Wird meine Bereitstellung automatisch aktualisiert, wenn eine neue Version eines Basismodells verfügbar ist?

Bereitstellungen werden nicht automatisch aktualisiert.

Wenn Sie ein Modell angepasst und bereitgestellt haben, bleibt die vorhandene Bereitstellung unverändert. Sie können das bereitgestellte Modell außer Betrieb nehmen, indem Sie die neuere Version des Basismodells verwenden und es dann wieder bereitstellen, um eine höhere Genauigkeit zu erzielen.

Sowohl Basismodelle als auch benutzerdefinierte Modelle werden nach einiger Zeit außer Betrieb gesetzt (siehe Lebenszyklus von Modell und Endpunkt).

Kann ich mein Modell herunterladen und lokal ausführen?

Sie können ein benutzerdefiniertes Modell lokal in einem Docker-Container ausführen.

Kann ich meine Datasets, Modelle und Bereitstellungen in eine andere Region oder in ein anderes Abonnement kopieren bzw. verschieben?

Sie können die Models_Copy-REST-API verwenden, um ein benutzerdefiniertes Modell in eine andere Region oder ein anderes Abonnement zu kopieren. Datasets und Bereitstellungen können nicht kopiert werden. Sie können ein Datasets mithilfe der Modellkopien wieder in ein anderes Abonnement importieren und dort Endpunkte erstellen.

Werden meine Anforderungen protokolliert?

Standardmäßig werden Anforderungen nicht protokolliert (weder Audio noch Transkription). Bei Bedarf können Sie die Option Log content from this endpoint (Inhalte von diesem Endpunkt protokollieren) auswählen, wenn Sie einen benutzerdefinierten Endpunkt erstellen. Im Speech SDK können Sie auch die Audioprotokollierung auf Grundlage von Anforderungen aktivieren, ohne dass Sie einen benutzerdefinierten Endpunkt erstellen müssen. In beiden Fällen werden die Audio- und Erkennungsergebnisse von Anforderungen in einem sicheren Speicher gespeichert. Abonnements, die Speicherressourcen von Microsoft verwenden, bleiben 30 Tage lang verfügbar.

Sie können die protokollierten Dateien auf der Bereitstellungsseite in Speech Studio exportieren, wenn Sie einen benutzerdefinierten Endpunkt mit der Option Log content from this endpoint (Inhalte von diesem Endpunkt protokollieren) verwenden. Wenn die Audioprotokollierung über das SDK aktiviert ist, rufen Sie die API auf, um auf die Dateien zuzugreifen. Sie können die Protokolle auch jederzeit über die API löschen.

Werden meine Anforderungen gedrosselt?

Weitere Informationen finden Sie unter Speech-Dienst: Kontingente und Limits.

Wie werden Zweikanalaudiodaten in Rechnung gestellt?

Wenn Sie jeden Kanal separat in einer eigenen Datei übermitteln, wird Ihnen die Audiodauer jeder Datei in Rechnung gestellt. Wenn Sie eine einzelne Datei mit den darin enthaltenen Multiplexkanälen übermitteln, wird Ihnen die Dauer der einzelnen Datei in Rechnung gestellt. Weitere Informationen zu Preisen finden Sie auf der Seite Azure KI Services – Preise.

Wichtig

Wenn Sie weitere Bedenken zum Datenschutz haben, die Sie von der Nutzung des Custom Speech Service abhalten, wenden Sie sich an einen der Supportkanäle.

Erhöhen der Parallelität

Weitere Informationen finden Sie unter Speech-Dienst: Kontingente und Grenzwerte.

Importieren von Daten

Wie groß darf das Dataset maximal sein, und was ist der Grund für dieses Limit?

Der Grenzwert ist auf die Beschränkung der Dateigröße für den HTTP-Upload zurückzuführen. Informationen zum tatsächlichen Grenzwert finden Sie unter Speech Service: Kontingente und Grenzwerte. Sie können Ihre Daten in mehrere Datasets unterteilen und alle zum Trainieren des Modells auswählen.

Kann ich meine Textdateien komprimieren (ZIP), damit ich eine größere Textdatei hochladen kann?

Nein. Derzeit sind nur unkomprimierte Textdateien zulässig.

Der Datenbericht besagt, dass fehlerhafte Äußerungen gefunden wurden. Was ist das Problem?

Wenn die Äußerungen in einer Datei nicht zu 100 % hochgeladen werden können, stellt dies kein Problem dar. Wenn der Großteil der Äußerungen in einem Akustik- oder Sprachdataset (z. B. > 95 %) erfolgreich importiert wird, kann das Dataset verwendet werden. Allerdings sollten Sie weiterhin herausfinden, warum Fehler bei den Äußerungen aufgetreten sind, und die Probleme dann beheben. Die meisten Probleme, z.B. Formatierungsfehler, sind einfach zu beheben.

Erstellen eines Akustikmodells

Wie viele Akustikdaten benötige ich?

Sie sollten zunächst mit 30 Minuten bis 1 Stunde Akustikdaten beginnen.

Welche Daten soll ich sammeln?

Sammeln Sie Daten, die dem Anwendungsszenario und dem Anwendungsfall möglichst nahe kommen. Die Datensammlung sollte in Bezug auf Geräte, Umgebungen und Sprechertypen mit der Zielanwendung und den Benutzern übereinstimmen. Generell sollten Sie Daten von möglichst vielen Sprechern sammeln.

Wie soll ich akustische Daten sammeln?

Sie können eine eigenständige Datensammlungsanwendung erstellen oder eine handelsübliche Audioaufzeichnungssoftware verwenden. Sie können auch eine Version der Anwendung erstellen, die Audiodaten protokolliert und dann diese Daten verwendet.

Muss ich die Anpassungsdaten selbst transkribieren?

Ja. Sie können sie selbst transkribieren oder einen professionellen Transkriptionsdienst nutzen. Manche Benutzer bevorzugen professionelle Transkriptionsdienste, während andere Crowdsourcing nutzen oder die Daten selbst transkribieren.

Wie lange dauert das Trainieren eines benutzerdefinierten Modells mit Audiodaten?

Das Trainieren eines Modells mit Audiodaten ist ein langwieriger Prozess. Je nach Menge der Daten kann das Erstellen eines benutzerdefinierten Modells mehrere Tage dauern. Wenn das Training nicht innerhalb einer Woche abgeschlossen werden kann, bricht der Dienst den Trainingsprozess möglicherweise ab und meldet das Modell als fehlgeschlagen.

Im Allgemeinen verarbeitet der Speech-Dienst ungefähr 10 Stunden an Audiodaten pro Tag in Regionen mit dedizierter Hardware. Das Training mit reinem Text ist schneller und wird normalerweise innerhalb weniger Minuten abgeschlossen.

Verwenden Sie eine der Regionen, in der dedizierte Hardware für das Training verfügbar ist. Der Speech-Dienst verwendet in diesen Regionen bis zu 100 Stunden Audiodaten für das Training.

Genauigkeitstests

Was ist die Wort-Fehler-Rate (Word Error Rate, WER), und wie wird sie berechnet?

Die Wort-Fehler-Rate (WER) ist die Auswertungsmetrik für die Spracherkennung. WER wird berechnet als die Gesamtanzahl von Fehlern (Einfügungen, Löschungen und Ersetzungen), dividiert durch die Gesamtzahl der Wörter in der Referenztranskription. Weitere Informationen finden Sie unter Quantitatives Testen des Modells.

Wie kann ich feststellen, ob die Ergebnisse einer Genauigkeitsprüfung gut sind?

Die Ergebnisse stellen einen Vergleich zwischen dem Basismodell und dem von Ihnen angepassten Modell dar. Damit sich Anpassungen lohnen, sollten Sie anstreben, das Basismodell zu übertreffen.

Wie bestimme ich die Wort-Fehler-Rate (WER) eines Basismodells, damit ich sehen kann, ob es eine Verbesserung gab?

Die Offlinetestergebnisse zeigen die Genauigkeit des Basismodells und des benutzerdefinierten Modells sowie die Verbesserung gegenüber dem Basismodell.

Erstellen eines Sprachmodells

Wie viele Textdaten muss ich hochladen?

Es hängt davon ab, wie stark sich die in der Anwendung verwendeten Vokabeln und Ausdrücke von den Ausgangssprachmodellen unterscheiden. Für alle neuen Wörter ist es hilfreich, so viele Beispiele wie möglich für ihre Verwendung bereitzustellen. Für gängige Ausdrücke, die in Ihrer Anwendung verwendet werden, ist es nützlich, Ausdrücke in die Sprachdaten aufzunehmen und viele Beispiele bereitzustellen, weil dies das System anweist, auch auf diese Begriffe zu achten. Üblicherweise sollte das Sprachdataset mindestens 100 und typischerweise mehrere hundert Äußerungen oder mehr umfassen. Auch wenn bestimmte Arten von Abfragen häufiger als andere erwartet werden, können Sie mehrere Kopien der häufigen Abfragen in das Dataset einfügen.

Kann ich einfach eine Liste von Wörtern hochladen?

Durch das Hochladen einer Liste von Wörtern werden diese dem Vokabular hinzugefügt, aber das System erlernt dabei nicht, wie die Wörter normalerweise verwendet werden. Durch die Bereitstellung vollständiger oder teilweiser Äußerungen (Sätze oder Ausdrücke, die von Benutzern üblicherweise verwendet werden) kann das Sprachmodell die neuen Wörter und deren Verwendung lernen. Das benutzerdefinierte Sprachmodell eignet sich nicht nur gut dazu, neue Wörter dem System hinzuzufügen, sondern auch, die Wahrscheinlichkeit bekannter Wörter für Ihre Anwendung anzupassen. Vollständige Äußerungen helfen dem System, besser zu lernen.