Verwenden der BYOS-Ressource (Bring Your Own Storage) für Spracherkennung

Bring Your Own Storage (BYOS) kann in den folgenden Spracherkennungsszenarien verwendet werden:

  • Batchtranskription
  • Echtzeittranskription mit aktivierter Audio- und Transkriptionsergebnisprotokollierung
  • Custom Speech

Eine Kombination aus einer Speech-Ressource und einem Speicherkonto kann für alle Szenarien gleichzeitig verwendet werden.

In diesem Artikel wird ausführlich erläutert, wie Sie eine BYOS-fähige Speech-Ressource in sämtlichen Spracherkennungsszenarien verwenden können. Im Artikel wird davon ausgegangen, dass Sie über eine vollständig konfigurierte BYOS-fähige Speech-Ressource und ein zugehöriges Speicherkonto verfügen.

Datenspeicher

Bei Verwendung von BYOS bewahrt der Speech-Dienst keine Kundenartefakte auf, nachdem die Datenverarbeitung (Transkription, Modelltraining, Modelltests) abgeschlossen ist. Einige nicht von den Benutzerinhalten abgeleitete Metadaten werden jedoch in den lokalen Speech-Diensten gespeichert. Im Custom Speech-Szenario speichert der Dienst beispielsweise bestimmte Informationen zu den benutzerdefinierten Endpunkten, etwa welche Modelle sie verwenden.

Das BYOS-zugeordnete Speicherkonto speichert die folgenden Daten:

Hinweis

Optional in diesem Abschnitt bedeutet, dass es möglich, aber nicht erforderlich ist, die betreffenden Artefakte im BYOS zugeordneten Speicherkonto zu speichern. Bei Bedarf können sie an anderer Stelle gespeichert werden.

Batch-Transkription

  • Quellaudio (optional)
  • Ergebnisse der Batch-Transkription

Echtzeittranskription mit aktivierter Audio- und Transkriptionsergebnisprotokollierung

  • Audio- und Transkriptionsergebnisprotokolle

Custom Speech

  • Quelldateien von Datasets für Modelltraining und -tests (optional)
  • Alle Daten und Metadaten im Zusammenhang mit benutzerdefinierten Modellen, die von der BYOS-fähigen Speech-Ressource gehostet werden (einschließlich Kopien von Datasets für Modelltraining und -tests)

Batchtranskription

Die Batch-Transkription wird für die Transkription großer Mengen an Audiomaterial im Speicher verwendet. Wenn Sie mit der Batch-Transkription nicht vertraut sind, lesen Sie zuerst diesen Artikel.

Führen Sie die folgenden Schritte aus, um die Batchtranskription mit einer BYOS-fähigen Speech-Ressource auszuführen:

  1. Starten Sie die Batchtranskription wie in diesem Leitfaden beschrieben.

    Wichtig

    Verwenden Sie nicht den Parameter destinationContainerUrl in Ihrer Transkriptionsanforderung. Wenn Sie BYOS verwenden, werden die Transkriptionsergebnisse automatisch im BYOS zugeordneten Speicherkonto gespeichert.

    Wenn Sie den Parameter destinationContainerUrl verwenden, funktioniert die Anforderung zwar auch, bietet aber aufgrund der Ad-hoc-SAS-Verwendung deutlich weniger Sicherheit für Ihre Daten. Ausführlichere Informationen finden Sie hier.

  2. Wenn die Transkription abgeschlossen ist, rufen Sie die Transkriptionsergebnisse wie in diesem Leitfaden beschrieben ab. Erwägen Sie die Verwendung des Parameters sasValidityInSeconds (vgl. folgender Abschnitt).

Der Speech-Dienst verwendet den Blobcontainer customspeech-artifacts im BYOS zugeordneten Speicherkonto zum Speichern von Zwischen- und endgültigen Transkriptionsergebnissen.

Achtung

Der Speech-Dienst greift auf vordefinierte Blobcontainerpfade und -dateinamen für das Batch-Transkriptionsmodul zurück, um ordnungsgemäß zu funktionieren. Sie dürfen den Inhalt des Containers customspeech-artifacts nicht verschieben, umbenennen oder ändern.

Andernfalls kommt es sehr wahrscheinlich zu schwer zu debuggenden 4xx- und 5xx-Dienstfehlern.

Erstellen Sie auch keine Lösungen, die Dateien und Ordner des customspeech-artifacts-Containers direkt verwenden. Verwenden Sie Standardtools, um mit der Batch-Transkription zu interagieren. Weitere Informationen finden Sie im Abschnitt „Batchtranskription“.

Abrufen von Batchtranskriptionsergebnissen über die REST-API

Die Sprache-in-Text-REST-API unterstützt BYOS-fähige Speech-Ressourcen vollumfänglich. Da die Daten jetzt jedoch im Speicherkonto mit aktiviertem BYOS gespeichert werden, interagieren Anforderungen wie Transkriptionsdateien abrufen mit dem BYOS zugeordneten Speicherkonto-Blobspeicher anstatt mit den internen Ressourcen des Speech-Diensts. Dies ermöglicht die Verwendung desselben REST-API-basierten Codes für „reguläre“ und BYOS-fähige Speech-Ressourcen.

Verwenden Sie für maximale Sicherheit in den Anforderungen, die Datendatei-URLs zurückgeben (z. B. die Anforderung Transkriptionsdateien abrufen“) den Parameter sasValidityInSeconds, und legen Sie ihn auf den Wert 0 fest. Hier sehen Sie ein Beispiel für eine Anforderungs-URL:

https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/transcriptions/3b24ca19-2eb1-4a2a-b964-35d89eca486b/files?sasValidityInSeconds=0

Eine solche Anforderung gibt direkte Speicherkonto-URLs an Datendateien zurück (ohne SAS oder andere Ergänzungen). Beispiel:

"links": {
        "contentUrl": "https://<BYOS_storage_account_name>.blob.core.windows.net/customspeech-artifacts/TranscriptionData/3b24ca19-2eb1-4a2a-b964-35d89eca486b_0_0.json"
      }

Die URL in diesem Format stellt sicher, dass nur Microsoft Entra-Identitäten (Benutzer*innen, Dienstprinzipale, verwaltete Identitäten) mit ausreichenden Zugriffsrechten (z. B. der Rolle Leser von Speicherblobdaten) auf die Daten der URL zugreifen können.

Warnung

Wenn der Parameter sasValidityInSeconds in der Anforderung Transkriptionsdateien abrufen oder ähnlichen Anforderungen ausgelassen wird, wird eine SAS für die Benutzerdelegierung mit einer Gültigkeit von 5 Tagen für jede zurückgegebene Datendatei-URL generiert. Diese SAS wird von der systemseitig zugewiesenen verwalteten Identität Ihrer BYOS-fähigen Speech-Ressource signiert. Aus diesem Grund ermöglicht die SAS den Zugriff auf die Daten, auch wenn der Zugriff auf Speicherkontoschlüssel deaktiviert ist. Ausführlichere Informationen finden Sie hier.

Echtzeittranskription mit aktivierter Audio- und Transkriptionsergebnisprotokollierung

Sie können die Protokollierung sowohl für Audioeingabe als auch für die erkannte Sprache aktivieren, wenn Sie Spracherkennung oder Sprachübersetzung verwenden. Sie finden eine vollständige Beschreibung in diesem Artikel.

Wenn Sie BYOS verwenden, finden Sie die Protokolle im Blobcontainer customspeech-audiologs im BYOS zugeordneten Speicherkonto.

Warnung

Protokollierungsdaten werden 5 Tage lang aufbewahrt. Nach diesem Zeitraum werden die Protokolle automatisch gelöscht. Dies gilt auch für BYOS-fähige Speech-Ressourcen. Wenn Sie die Protokolle länger aufbewahren möchten, können Sie die entsprechenden Dateien und Ordner direkt aus dem Blobcontainer customspeech-audiologs kopierenoder die REST-API verwenden.

Abrufen von Echtzeittranskriptionsprotokollen über die REST-API

Die Sprache-in-Text-REST-API unterstützt BYOS-fähige Speech-Ressourcen vollumfänglich. Da die Daten jetzt jedoch im Speicherkonto mit aktiviertem BYOS gespeichert werden, interagieren Anforderungen wie Protokolle des Basismodells abrufen mit dem BYOS zugeordneten Speicherkonto-Blobspeicher anstatt mit den internen Ressourcen des Speech-Diensts. Dies ermöglicht die Verwendung desselben REST-API-basierten Codes für „reguläre“ und BYOS-fähige Speech-Ressourcen.

Verwenden Sie für maximale Sicherheit in den Anforderungen, die Datendatei-URLs zurückgeben (z. B. die Anforderung Protokolle des Basismodells abrufen“) den Parameter sasValidityInSeconds, und legen Sie ihn auf den Wert 0 fest. Hier sehen Sie ein Beispiel für eine Anforderungs-URL:

https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/endpoints/base/en-US/files/logs?sasValidityInSeconds=0

Eine solche Anforderung gibt direkte Speicherkonto-URLs an Datendateien zurück (ohne SAS oder andere Ergänzungen). Beispiel:

"links": {
        "contentUrl": "https://<BYOS_storage_account_name>.blob.core.windows.net/customspeech-audiologs/be172190e1334399852185c0addee9d6/en-US/2023-07-06/152339_fcf52189-0d3f-4415-becd-5f639fd7fd6b.v2.json"
      }

Die URL in diesem Format stellt sicher, dass nur Microsoft Entra-Identitäten (Benutzer*innen, Dienstprinzipale, verwaltete Identitäten) mit ausreichenden Zugriffsrechten (z. B. der Rolle Leser von Speicherblobdaten) auf die Daten der URL zugreifen können.

Warnung

Wenn der Parameter sasValidityInSeconds in der Anforderung Protokolle des Basismodells abrufen oder ähnlichen Anforderungen ausgelassen wird, wird eine SAS für die Benutzerdelegierung mit einer Gültigkeit von 5 Tagen für jede zurückgegebene Datendatei-URL generiert. Diese SAS wird von der systemseitig zugewiesenen verwalteten Identität Ihrer BYOS-fähigen Speech-Ressource signiert. Aus diesem Grund ermöglicht die SAS den Zugriff auf die Daten, auch wenn der Zugriff auf Speicherkontoschlüssel deaktiviert ist. Ausführlichere Informationen finden Sie hier.

Custom Speech

Custom Speech ermöglicht Ihnen das Bewerten und Verbessern der Genauigkeit der Spracherkennung für Ihre Anwendungen und Produkte. Ein benutzerdefiniertes Sprachmodell kann für Spracherkennung in Echtzeit, Sprachübersetzung und Batchtranskription verwendet werden. Weitere Informationen finden Sie in der Übersicht über Custom Speech.

Bei der Verwendung von Custom Speech mit einer BYOS-fähigen Speech-Ressource ist nichts Besonderes zu beachten. Der einzige Unterschied besteht darin, dass alle benutzerdefinierten modellbezogenen Daten gespeichert werden, die der Speech-Dienst für Sie sammelt und erstellt. Die Daten werden in den folgenden Blobcontainern des BYOS zugeordneten Speicherkontos gespeichert:

  • customspeech-models: Speicherort von Custom Speech-Modellen
  • customspeech-artifacts: Speicherort aller anderen Custom Speech-bezogenen Daten

Die Blobcontainerstruktur wird nur zu Informationszwecken zur Verfügung gestellt und kann sich ohne Ankündigung ändern.

Achtung

Der Speech-Dienst ist darauf angewiesen, dass vordefinierte Blobcontainerpfade und -dateinamen für das Custom Speech-Transkriptionsmodul ordnungsgemäß funktionieren. Sie dürfen die Inhalte des Containers customspeech-models und der Custom Speech-bezogenen Ordner des Containers customspeech-artifacts nicht verschieben, umbenennen oder ändern.

Andernfalls kommt es sehr wahrscheinlich zu schwer zu debuggenden Fehlern sowie zur Notwendigkeit, das benutzerdefinierte Modell erneut zu trainieren.

Erstellen Sie auch keine Lösungen, die Dateien und Ordner des customspeech-artifacts-Containers direkt verwenden. Verwenden Sie Standardtools wie die REST-API und Speech Studio, um mit den Custom Speech-bezogenen Daten zu interagieren. Weitere Informationen finden Sie im Abschnitt zu Custom Speech.

Verwenden der REST-API mit Custom Speech

Die Sprache-in-Text-REST-API unterstützt BYOS-fähige Speech-Ressourcen vollumfänglich. Da die Daten jetzt jedoch im Speicherkonto mit aktiviertem BYOS gespeichert werden, interagieren Anforderungen wie Datasets_ListFiles mit dem zugeordneten BYOS-Speicherkonto-Blob Storage anstatt mit den internen Ressourcen des Speech-Diensts. Dies ermöglicht die Verwendung desselben REST-API-basierten Codes für „reguläre“ und BYOS-fähige Speech-Ressourcen.

Verwenden Sie für maximale Sicherheit in den Anforderungen, die Datendatei-URLs zurückgeben (z. B. die Anforderung Datasetdateien abrufen“) den Parameter sasValidityInSeconds, und legen Sie ihn auf den Wert 0 fest. Hier sehen Sie ein Beispiel für eine Anforderungs-URL:

https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/datasets/8427b92a-cb50-4cda-bf04-964ea1b1781b/files?sasValidityInSeconds=0

Eine solche Anforderung gibt direkte Speicherkonto-URLs an Datendateien zurück (ohne SAS oder andere Ergänzungen). Beispiel:

 "links": {
        "contentUrl": "https://<BYOS_storage_account_name>.blob.core.windows.net/customspeech-artifacts/AcousticData/8427b92a-cb50-4cda-bf04-964ea1b1781b/4a61ddac-5b1c-4c21-b87d-22001b0f18ab.zip"
      }

Die URL in diesem Format stellt sicher, dass nur Microsoft Entra-Identitäten (Benutzer*innen, Dienstprinzipale, verwaltete Identitäten) mit ausreichenden Zugriffsrechten (z. B. der Rolle Leser von Speicherblobdaten) auf die Daten der URL zugreifen können.

Warnung

Wenn der Parameter sasValidityInSeconds in der Anforderung Datasetdateien abrufen oder ähnlichen Anforderungen ausgelassen wird, wird eine SAS für die Benutzerdelegierung mit einer Gültigkeit von 5 Tagen für jede zurückgegebene Datendatei-URL generiert. Diese SAS wird von der systemseitig zugewiesenen verwalteten Identität Ihrer BYOS-fähigen Speech-Ressource signiert. Aus diesem Grund ermöglicht die SAS den Zugriff auf die Daten, auch wenn der Zugriff auf Speicherkontoschlüssel deaktiviert ist. Ausführlichere Informationen finden Sie hier.

Nächste Schritte