Anpassen eines Sprachmodells

Artikel
10/09/2024

Hinweis

Die Anpassung des Sprachmodells, einschließlich der Ausspracheschulung, wird nur in Azure-Testkonten und Ressourcen-Manager-Konten von Videoindexer unterstützt. Es wird in klassischen Konten nicht unterstützt. Anleitungen zum Aktualisieren Ihres Kontotyps ohne Kosten finden Sie im Update Ihres Azure AI Video Indexer-Kontos. Anleitungen zur Verwendung der benutzerdefinierten Sprachoberfläche finden Sie unter Anpassen eines Sprachmodells.

Mit azure AI Video Indexer können Sie benutzerdefinierte Sprachmodelle erstellen, um die Spracherkennung anzupassen, indem Sie Datasets hochladen, die zum Erstellen eines Sprachmodells verwendet werden. In diesem Artikel werden die Schritte zur Vorgehensweise über die VideoIndexer-Website erläutert. Sie können die API auch verwenden, wie im Anpassen des Sprachmodells mithilfe der API beschrieben.

Eine detaillierte Übersicht und bewährte Methoden für benutzerdefinierte Sprachmodelle finden Sie unter Anpassen eines Sprachmodells mit Azure AI Video Indexer.

Voraussetzungen

Lesen Sie das Handbuch zu bewährten Methoden für das Sprachmodell.
Ein Azure-Konto
Ein Azure AI Video Indexer-Konto

Web portal (Webportal)
API

Erstellen eines Datasets

Da alle benutzerdefinierten Modelle ein Dataset enthalten müssen, beginnen wir mit dem Verfahren zum Erstellen und Verwalten von Datasets.

Wählen Sie die Schaltfläche " Modellanpassung" aus .
Wählen Sie die Registerkarte "Sprache" (neu) aus.
Wählen Sie "Dataset hochladen" aus.
Wählen Sie im Dropdownmenü "Datasettyp" entweder "Nur-Text" oder "Aussprache" aus. Jedes Sprachmodell muss über ein Nur-Text-Dataset verfügen und optional über ein Aussprache-Dataset verfügen.
Wählen Sie "Durchsuchen" und dann die Datasetdatei aus. Sie können nur einen auswählen.
Wählen Sie eine Sprache für das Modell aus. Wählen Sie die Sprache aus, die in den Mediendateien gesprochen wird, die Sie für die Indizierung mit diesem Modell planen. Der Datasetname wird vorab mit dem Namen der Datei aufgefüllt, Aber Sie können den Namen ändern.
Optional können Sie eine Beschreibung des Datasets hinzufügen. Dies kann hilfreich sein, um jedes Dataset zu unterscheiden, wenn Sie erwarten, dass mehrere Datasets vorhanden sind.
Wählen Sie die Option Hochladen. Wenn die Dataseterstellung abgeschlossen ist, können Sie sie für schulungen und die Erstellung neuer Modelle verwenden.

Überprüfen und Aktualisieren eines Datasets

Sie können ein Dataset und dessen Eigenschaften anzeigen, indem Sie:

Klicken auf den Datasetnamen
Zeigen auf das Dataset
Auswählen der Auslassungspunkte

Wählen Sie dann "Dataset anzeigen" aus.

Anschließend können Sie den Namen, die Beschreibung, die Sprache und den Status des Datasets sowie die folgenden Eigenschaften anzeigen:

Anzahl der Zeilen: Gibt die Anzahl der Zeilen an, die erfolgreich aus der Gesamtzahl der Zeilen in der Datei geladen wurden. Wenn die gesamte Datei erfolgreich geladen wird, stimmen die Zahlen überein (z. B. 10 von 10 normalisiert). Wenn die Zahlen nicht übereinstimmen (z. B. 7 von 10 normalisiert), bedeutet dies, dass nur einige der Zeilen erfolgreich geladen wurden und die restlichen Fehler aufgetreten sind. Häufige Fehlerursachen sind Formatierungsprobleme mit einer Zeile, z. B. beim Nichtabstand eines Tabstopps zwischen jedem Wort in einer Aussprachedatei. Die Überprüfung der Nur-Text- und Aussprachedaten für Schulungsartikel sollte bei der Suche nach dem Problem hilfreich sein. Um die Ursache zu beheben, überprüfen Sie die Fehlerdetails, die im Bericht enthalten sind. Wählen Sie "Bericht anzeigen" aus, um die Fehlerdetails zu den Zeilen anzuzeigen, die nicht erfolgreich geladen wurden (errorKind). Dies kann auch angezeigt werden, indem Sie die Registerkarte "Bericht " auswählen.

Dataset-ID: Jedes Dataset verfügt über eine eindeutige GUID, die bei Verwendung der API für Vorgänge erforderlich ist, die auf das Dataset verweisen.

Nur-Text (normalisiert): Dies enthält den normalisierten Text der geladenen Datasetdatei. Normalisierter Text ist der erkannte Text in nur-Form ohne Formatierung.

Details bearbeiten: Wenn Sie den Namen oder die Beschreibung eines Datasets bearbeiten möchten, wählen Sie beim Zeigen auf das Dataset die Auslassungspunkte aus, und wählen Sie dann "Details bearbeiten" aus. Anschließend können Sie den Datasetnamen und die Beschreibung bearbeiten.

Hinweis

Die Daten in einem Dataset können nicht bearbeitet oder aktualisiert werden, nachdem das Dataset hochgeladen wurde. Wenn Sie die Daten in einem Dataset bearbeiten oder aktualisieren müssen, laden Sie das Dataset herunter, führen Sie die Bearbeitungen aus, speichern Sie die Datei, und laden Sie die neue Datasetdatei hoch.

Download: Um eine Datasetdatei herunterzuladen, wählen Sie beim Zeigen auf das Dataset die Auslassungspunkte aus, und wählen Sie dann "Herunterladen" aus. Alternativ können Sie beim Anzeigen des Datasets "Herunterladen" auswählen und dann die Möglichkeit haben, die Datasetdatei oder den Uploadbericht in JSON-Formular herunterzuladen.

Löschen: Um ein Dataset zu löschen, wählen Sie beim Zeigen auf das Dataset die Auslassungspunkte aus, und wählen Sie dann "Löschen" aus.

Erstellen eines Custom Speech-Modells

Datasets werden bei der Erstellung und Schulung von Modellen verwendet. Nachdem Sie ein Nur-Text-Dataset erstellt haben, können Sie ein benutzerdefiniertes Sprachmodell erstellen und damit beginnen.

Beachten Sie beim Erstellen und Verwenden von benutzerdefinierten Sprachmodellen Folgendes:

Ein neues Modell muss mindestens ein Nur-Text-Dataset enthalten und kann mehrere Nur-Text-Datasets aufweisen.
Es ist optional, ein Aussprache-Dataset einzuschließen, und es kann nicht mehr als ein Dataset eingeschlossen werden.
Nachdem ein Modell erstellt wurde, können Sie ihr keine zusätzlichen Datasets hinzufügen oder änderungen an seinen Datasets vornehmen. Wenn Sie Datasets hinzufügen oder ändern müssen, erstellen Sie ein neues Modell.
Wenn Sie ein Video mithilfe eines benutzerdefinierten Sprachmodells indiziert und dann das Modell löschen, wirkt sich die Transkription erst aus, wenn Sie eine Neuindizierung durchführen.
Wenn Sie ein Dataset gelöscht haben, das zum Trainieren eines benutzerdefinierten Modells verwendet wurde, da das Sprachmodell bereits vom Dataset trainiert wurde, wird es weiterhin verwendet, bis das Sprachmodell gelöscht wird.
Wenn Sie ein benutzerdefiniertes Modell löschen, hat es keine Auswirkungen auf die Transkription von Videos, die bereits mit dem Modell indiziert wurden.

Trainieren eines Modells

Hinweis

Nachdem ein Modell erstellt wurde, können Datasets nicht hinzugefügt werden. Ein Modell kann nur Datasets derselben Sprache enthalten.

Es gibt zwei Möglichkeiten zum Trainieren eines Modells – über die Registerkarte "Dataset" und über die Registerkarte "Modell".

Trainieren eines Modells über die Registerkarte "Datasets"

Zeigen Sie die Liste der Datasets an.
Wählen Sie ein Nur-Text-Dataset aus. Das Symbol "Neues Modell trainieren" oben kann dann ausgewählt werden.
Wählen Sie "Neues Modell trainieren" aus.
Geben Sie einen Namen für das Modell, eine Sprache ein, und fügen Sie optional eine Beschreibung hinzu.
Auswählen der Registerkarte "Datasets "
Wählen Sie die Datasets aus, die sie in das Modell einbeziehen möchten.
Wählen Sie " Erstellen und Trainieren" aus.

Trainieren eines Modells über die Registerkarte "Modelle"

Wählen Sie die Registerkarte Modelle aus.
Wählen Sie das Symbol "Neues Modell trainieren " aus.
Wählen Sie die Datasets aus, die Teil des Modells sein sollen.
Geben Sie einen Namen für das Modell, eine Sprache ein, und fügen Sie optional eine Beschreibung hinzu.
Wählen Sie die Registerkarte Datasets aus.
Wählen Sie die Datasets aus, die sie in das Modell einbeziehen möchten.
Wählen Sie " Erstellen und Trainieren" aus.

Überprüfen und Aktualisieren eines Modells

Ansichtsmodell: Sie können ein Modell und dessen Eigenschaften anzeigen, indem Sie entweder auf den Namen des Modells klicken oder mit dem Mauszeiger auf das Modell zeigen, auf die Auslassungspunkte klicken und dann "Ansichtsmodell" auswählen.

Dann sehen Sie auf der Registerkarte "Details" den Namen, die Beschreibung, die Sprache und den Status des Modells sowie die folgenden Eigenschaften:

Modell-ID: Jedes Modell verfügt über eine eindeutige GUID, die bei Verwendung der API für Vorgänge erforderlich ist, die auf das Modell verweisen.

Erstellt am: Das Datum, an dem das Modell erstellt wurde.

Details bearbeiten: Wenn Sie den Namen oder die Beschreibung eines Modells bearbeiten möchten, wählen Sie beim Zeigen auf das Modell die Auslassungspunkte aus, und wählen Sie dann "Details bearbeiten" aus. Anschließend können Sie den Namen und die Beschreibung des Modells bearbeiten.

Hinweis

Nur der Name und die Beschreibung des Modells können bearbeitet werden. Wenn Sie Änderungen an ihren Datasets vornehmen oder Datasets hinzufügen möchten, muss ein neues Modell erstellt werden.

Löschen: Um ein Modell zu löschen, wählen Sie beim Zeigen auf das Dataset die Auslassungspunkte aus, und wählen Sie dann "Löschen" aus.

Enthaltene Datasets: Wählen Sie auf der Registerkarte "Eingeschlossene Datasets" aus, um die Datasets des Modells anzuzeigen.

Verwenden eines benutzerdefinierten Sprachmodells beim Indizieren eines Videos

Ein benutzerdefiniertes Sprachmodell wird nicht standardmäßig für Indizierungsaufträge verwendet. Daher müssen Sie während des Indexuploadvorgangs ausgewählt werden.

Wählen Sie während des Uploadvorgangs ihre benutzerdefinierte Sprachmodellquelle aus dem Dropdownmenü "Sprache " aus.
Wählen Sie die Option Hochladen.

Die gleichen Schritte gelten, wenn Sie ein Video mit einem benutzerdefinierten Modell neu indizieren möchten.

Hinweis

Es folgt eine Tabelle mit Beschreibungen einiger Parameter, die mit den Sprachmodellanforderungen verwendet werden:

Name	Geben Sie ein	Beschreibung
`displayName`	Schnur	Der gewünschte Name des Datasets/Modells.
`locale`	Schnur	Der Sprachcode des Datasets/Modells. Vollständige Liste finden Sie unter Sprachunterstützung.
`kind`	integer	0 für ein Nur-Text-Dataset, 1 für ein Aussprache-Dataset.
`description`	Schnur	Optionale Beschreibung des Datasets/Modells.
`contentUrl`	Uri	URL der Quelldatei, die beim Erstellen des Datasets verwendet wird.
`customProperties`	Objekt	Optionale Eigenschaften von Dataset/Modell.

Erstellen eines Sprachdatensatzes

Die Anforderung zum Erstellen von Sprachdatensätzen erstellt ein Dataset zum Trainieren eines Sprachmodells. Laden Sie eine Datei hoch, die zum Erstellen eines Datasets mit dieser Anforderung verwendet wird. Der Inhalt eines Datasets kann nach der Erstellung nicht mehr geändert werden.

Definieren Sie die Parameter im Anforderungstext, einschließlich einer URL zur Textdatei, die hochgeladen werden soll. Die Beschreibungs- und benutzerdefinierten Eigenschaftenfelder sind optional. Dies ist ein Beispiel für einen Anforderungstext:

{
    "displayName": "Pronunciation Dataset",
    "locale": "en-US",
    "kind": "Pronunciation",
    "description": "This is a pronunciation dataset.",
    "contentUrl": https://contoso.com/location,
    "customProperties": {
        "tag": "Pronunciation Dataset Example"
    }
}

Beispielantwort

{ 
    "id": "000000-0000-0000-0000-f58ac7002ae9", 
    "properties": { 
        "acceptedLineCount": 0, 
        "rejectedLineCount": 0, 
        "duration": null, 
        "error": null 
    }, 
    "displayName": "Contoso plain text", 
    "description": "VI dataset", 
    "locale": "en-US", 
    "kind": "Language", 
    "status": "Waiting", 
    "lastActionDateTime": "2023-02-28T13:24:27Z", 
    "createdDateTime": "2023-02-28T13:24:27Z", 
    "customProperties": null 
}

Erstellen eines Sprachmodells

Die Anforderung "Sprachmodell erstellen" erstellt und trainiert ein benutzerdefiniertes Sprachmodell, mit dem die Transkriptionsgenauigkeit Ihrer Videos verbessert werden kann. Sie muss mindestens ein Nur-Text-Dataset enthalten. Optional kann die Aussprache Datasets enthalten. Erstellen Sie sie mit allen relevanten Datasetdateien als Datasets eines Modells können nach der Erstellung nicht hinzugefügt oder aktualisiert werden.

Definieren Sie die Parameter im Anforderungstext, einschließlich einer Liste von Zeichenfolgen, die das Dataset oder Datasets für das modell einschließen soll. Die Beschreibungs- und benutzerdefinierten Eigenschaftenfelder sind optional. Dies ist ein Beispiel für einen Anforderungstext:

{
    "displayName": "Contoso Speech Model",
    "locale": "en-US",
    "datasets": ["ff3d2bc4-ab5a-4522-b599-b3d5ba768c75", "87c8962d-1d3c-44e5-a2b2-c696fddb9bae"],
    "description": "Contoso ads example model",
    "customProperties": {
        "tag": "Example Model"
    }
}

Beispielantwort

{ 
    "id": "00000000-0000-0000-0000-85be4454cf", 
    "properties": { 
        "deprecationDates": { 
            "adaptationDateTime": null, 
            "transcriptionDateTime": "2025-04-15T00:00:00Z" 
        }, 
        "error": null 
    }, 
    "displayName": "Contoso speech model", 
    "description": "Contoso speech model for video indexer", 
    "locale": "en-US", 
    "datasets": ["00000000-0000-0000-0000-f58ac7002ae9"], 
    "status": "Processing", 
    "lastActionDateTime": "2023-02-28T13:36:28Z", 
    "createdDateTime": "2023-02-28T13:36:28Z", 
    "customProperties": null 
}

Abrufen des Sprachdatensatzes

Die API zum Abrufen von Sprachdatensatz gibt Informationen zum angegebenen Dataset zurück.

Beispielantwort

{ 
    "id": "00000000-0000-0000-0000-f58002ae9", 
    "properties": { 
        "acceptedLineCount": 41, 
        "rejectedLineCount": 0, 
        "duration": null, 
        "error": null 
    }, 
    "displayName": "Contoso plain text", 
    "description": "VI dataset", 
    "locale": "en-US", 
    "kind": "Language", 
    "status": "Complete", 
    "lastActionDateTime": "2023-02-28T13:24:43Z", 
    "createdDateTime": "2023-02-28T13:24:27Z", 
    "customProperties": null 
}

Abrufen von Sprachdatensets-Dateien

Die Anforderung "Get Speech Dataset Files " gibt die Dateien und Metadaten des angegebenen Datasets zurück.

Beispielantwort

[{ 
    "datasetId": "00000000-0000-0000-0000-f58ac72a", 
    "fileId": "00000000-0000-0000-0000-cb190769c", 
    "name": "languagedata", 
    "contentUrl": "", 
    "kind": "LanguageData", 
    "createdDateTime": "2023-02-28T13:24:43Z", 
    "properties": { 
        "size": 1517 
    } 
}, { 
    "datasetId": "00000000-0000-0000-0000-f58ac72” 
    "fileId": "00000000-0000-0000-0000-2369192e", 
    "name": "normalized.txt", 
    "contentUrl": "", 
    "kind": "LanguageData", 
    "createdDateTime": "2023-02-28T13:24:43Z", 
    "properties": { 
        "size": 1517 
    } 
}, { 
    "datasetId": "00000000-0000-0000-0000-f58ac7", 
    "fileId": "00000000-0000-0000-0000-05f1e306", 
    "name": "report.json", 
    "contentUrl": "", 
    "kind": "DatasetReport", 
    "createdDateTime": "2023-02-28T13:24:43Z", 
    "properties": { 
        "size": 78 
    } 
}]

Abrufen der angegebenen Kontodatensätze

Die Anforderung "Get Speech Datasets" gibt Informationen zu allen angegebenen Konten-Datasets zurück.

Beispielantwort

[{ 
    "id": "00000000-0000-0000-abf5-4dad0f", 
    "properties": { 
        "acceptedLineCount": 41, 
        "rejectedLineCount": 0, 
        "duration": null, 
        "error": null 
    }, 
    "displayName": "test", 
    "description": "string", 
    "locale": "en-US", 
    "kind": "Language", 
    "status": "Complete", 
    "lastActionDateTime": "2023-02-27T08:42:02Z", 
    "createdDateTime": "2023-02-27T08:41:39Z", 
    "customProperties": null 
}]

Abrufen des angegebenen Sprachmodells

Die API zum Abrufen von Spracherkennungsmodell gibt Informationen zum angegebenen Modell zurück.

Beispielantwort

{ 
    "id": "00000000-0000-0000-0000-5685be445", 
    "properties": { 
        "deprecationDates": { 
            "adaptationDateTime": null, 
            "transcriptionDateTime": "2025-04-15T00:00:00Z" 
        }, 
        "error": null 
    }, 
    "displayName": "Contoso speech model", 
    "description": "Contoso speech model for video indexer", 
    "locale": "en-US", 
    "datasets": ["00000000-0000-0000-0000-f58ac7002"], 
    "status": "Complete", 
    "lastActionDateTime": "2023-02-28T13:36:38Z", 
    "createdDateTime": "2023-02-28T13:36:28Z", 
    "customProperties": null 
}

Abrufen der angegebenen Kontospracherkennungsmodelle

Die API zum Abrufen von Sprachmodellen gibt Informationen zu allen Modellen im angegebenen Konto zurück.

Beispielantwort

[{ 
    "id": "00000000-0000-0000-0000-5685be445", 
    "properties": { 
        "deprecationDates": { 
            "adaptationDateTime": null, 
            "transcriptionDateTime": "2025-04-15T00:00:00Z" 
        }, 
        "error": null 
    }, 
    "displayName": "Contoso speech model", 
    "description": "Contoso speech model for video indexer", 
    "locale": "en-US", 
    "datasets": ["00000000-0000-0000-0000-f58ac7002a"], 
    "status": "Complete", 
    "lastActionDateTime": "2023-02-28T13:36:38Z", 
    "createdDateTime": "2023-02-28T13:36:28Z", 
    "customProperties": null 
}]

Löschen des Sprachdatensatzes

Die API zum Löschen von Sprachdatensatz löscht das angegebene Dataset. Jedes Modell, das mit dem gelöschten Dataset trainiert wurde, ist bis zum Löschen des Modells weiterhin verfügbar. Sie können ein Dataset nicht löschen, während es für die Indizierung oder Schulung verwendet wird.

Beispielantwort

Es gibt keinen zurückgegebenen Inhalt, wenn das Dataset erfolgreich gelöscht wird.

Löschen eines Sprachmodells

Die API zum Löschen des Sprachmodells löscht das angegebene Sprachmodell. Sie können ein Modell nicht löschen, während es für die Indizierung oder Schulung verwendet wird.

Antwort

Es gibt keinen zurückgegebenen Inhalt, wenn das Sprachmodell erfolgreich gelöscht wird.

Freigeben über

Anpassen eines Sprachmodells

Voraussetzungen

Erstellen eines Datasets

Überprüfen und Aktualisieren eines Datasets

Erstellen eines Custom Speech-Modells

Trainieren eines Modells

Trainieren eines Modells über die Registerkarte "Datasets"

Trainieren eines Modells über die Registerkarte "Modelle"

Überprüfen und Aktualisieren eines Modells

Verwenden eines benutzerdefinierten Sprachmodells beim Indizieren eines Videos

Erstellen eines Sprachdatensatzes

Beispielantwort

Erstellen eines Sprachmodells

Beispielantwort

Abrufen des Sprachdatensatzes

Beispielantwort

Abrufen von Sprachdatensets-Dateien

Beispielantwort

Abrufen der angegebenen Kontodatensätze

Beispielantwort

Abrufen des angegebenen Sprachmodells

Beispielantwort

Abrufen der angegebenen Kontospracherkennungsmodelle

Beispielantwort

Löschen des Sprachdatensatzes

Beispielantwort

Löschen eines Sprachmodells

Antwort

Feedback

Zusätzliche Ressourcen