Migrera kod från v3.1 till v3.2 i REST-API:et

REST API för tal till text används för Batch-transkription och anpassat tal. I den här artikeln beskrivs ändringar från version 3.1 till 3.2.

Viktigt!

Tal till text REST API v3.2 är den senaste versionen som är allmänt tillgänglig. Förhandsversionerna 3.2-preview.1 och 3.2-preview.2* tas bort i september 2024. Tal till text REST API v3.1 dras tillbaka vid ett datum som ska tillkännages. Tal till text REST API v3.0 dras tillbaka den 1 april 2026.

Bassökväg

Du måste uppdatera bassökvägen i koden från /speechtotext/v3.1 till /speechtotext/v3.2. Om du till exempel vill hämta basmodeller i eastus regionen använder du https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/base i stället https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/baseför .

Mer information finns i Åtgärds-ID senare i den här guiden.

Batch-transkription

Viktigt!

Nya priser gäller för batch-transkription via Speech to text REST API v3.2. Mer information finns i prisguiden.

Bakåtkompatibilitetsbegränsningar

Använd inte Speech to text REST API v3.0 eller v3.1 för att hämta en transkription som skapats via Speech to text REST API v3.2. Du kan se ett felmeddelande som: "API-versionen kan inte användas för att komma åt den här transkriptionen. Använd API-version v3.2 eller senare."

Språkidentifieringsläge

LanguageIdentificationMode läggs till som syskon candidateLocales till LanguageIdentificationProperties och speechModelMapping. De lägen som är tillgängliga för språkidentifiering är Continuous eller Single. Kontinuerlig språkidentifiering är standard. Mer information finns i Språkidentifiering.

Whisper-modeller

Azure AI Speech stöder nu OpenAI:s Whisper-modell via Speech to text REST API v3.2. Mer information finns i guiden Skapa en batch-transkription .

Kommentar

Azure OpenAI Service stöder även OpenAI:s Whisper-modell för tal till text med ett synkront REST-API. Mer information finns i snabbstarten. Ta en titt på Vad är Whisper-modellen? för att lära dig mer om när du ska använda Azure AI Speech jämfört med Azure OpenAI Service.

Anpassat tal

Viktigt!

Du debiteras för anpassad talmodellträning om basmodellen skapades den 1 oktober 2023 och senare. Du debiteras inte för träning om basmodellen skapades före oktober 2023. Mer information finns i Priser för Azure AI Speech.

För att programmatiskt avgöra om en modell skapades före eller efter den 1 oktober 2023 använder du egenskapen chargedForAdaptation som är ny i version 3.2.

Anpassad visningstextformatering

För att stödja modellanpassning med anpassade visningstextformateringsdata stöder åtgärden Datasets_Create datatypen OutputFormatting. Mer information finns i ladda upp datauppsättningar.

Lade till en definition för OutputFormatType med Lexical - och Display uppräkningsvärden.

"OutputFormatType": {
    "title": "OutputFormatType",
    "enum": [
        "Lexical",
        "Display"
    ],
    "type": "string",
    "x-ms-enum": {
        "name": "OutputFormatType",
        "modelAsString": true,
        "values": [
            {
                "value": "Lexical",
                "description": "Model provides the transcription output without formatting."
            },
            {
                "value": "Display",
                "description": "Model supports display formatting transcriptions output or endpoints."
            }
        ]
    }
},

Uppräkningsvärdet OutputFormattingData läggs till FileKind i (typ av indata).

Egenskapen supportedOutputFormat läggs till i BaseModelFeatures. Den här egenskapen ligger inom BaseModel definitionen.

"BaseModelFeatures": {
    "title": "BaseModelFeatures",
    "description": "Features supported by the model.",
    "type": "object",
    "allOf": [
        {
            "$ref": "#/definitions/SharedModelFeatures"
        }
    ],
    "properties": {
        "supportsAdaptationsWith": {
            "description": "Supported dataset kinds to adapt the model.",
            "type": "array",
            "items": {
                "$ref": "#/definitions/DatasetKind"
            },
            "readOnly": true
        },
        "supportedOutputFormat": {
            "description": "Supported output formats.",
            "type": "array",
            "items": {
                "$ref": "#/definitions/OutputFormatType"
            },
            "readOnly": true
        }
    }
},

Avgift för anpassning

Egenskapen chargeForAdaptation läggs till i BaseModelProperties. Den här egenskapen ligger inom BaseModel definitionen.

Viktigt!

Du debiteras för anpassad talmodellträning om basmodellen skapades den 1 oktober 2023 och senare. Du debiteras inte för träning om basmodellen skapades före oktober 2023. Mer information finns i Priser för Azure AI Speech.

Om värdet chargeForAdaptation för är truedebiteras du för att träna modellen. Om värdet är falsedebiteras du för att träna modellen. chargeForAdaptation Använd egenskapen i stället för det skapade datumet för att programmatiskt avgöra om du debiteras för att träna en modell.

"BaseModelProperties": {
    "title": "BaseModelProperties",
    "type": "object",
    "properties": {
        "deprecationDates": {
            "$ref": "#/definitions/BaseModelDeprecationDates"
        },
        "features": {
            "$ref": "#/definitions/BaseModelFeatures"
        },
        "chargeForAdaptation": {
            "description": "A value indicating whether model adaptation is charged.",
            "type": "boolean",
            "readOnly": true
        }
    }
},

Textnormalisering

Egenskapen textNormalizationKind läggs till i DatasetProperties.

Entitetsdefinition för TextNormalizationKind: Typen av textnormalisering.

  • Standard: Standardtextnormalisering (till exempel "två till tre" ersätter "2 till 3" i en-US).
  • Ingen: Ingen textnormalisering tillämpas på indatatexten. Det här värdet är ett åsidosättningsalternativ som endast ska användas när text normaliseras före uppladdningen.

Utvärderingsegenskaper

Egenskaper för tokenantal och tokenfel har lagts till i EvaluationProperties egenskaperna:

  • correctTokenCount1: Antalet korrekt identifierade token per model1.
  • tokenCount1: Antalet bearbetade token per model1.
  • tokenDeletionCount1: Antalet identifierade token per model1 som är borttagningar.
  • tokenErrorRate1: Tokenfelfrekvensen för igenkänning med model1.
  • tokenInsertionCount1: Antalet identifierade token per model1 som är infogningar.
  • tokenSubstitutionCount1: Antalet identifierade ord efter model1 som är ersättningar.
  • correctTokenCount2: Antalet korrekt identifierade token per model2.
  • tokenCount2: Antalet bearbetade token per model2.
  • tokenDeletionCount2: Antalet identifierade token per model2 som är borttagningar.
  • tokenErrorRate2: Tokenfelfrekvensen för igenkänning med model2.
  • tokenInsertionCount2: Antalet identifierade token per model2 som är infogningar.
  • tokenSubstitutionCount2: Antalet identifierade ord efter model2 som är ersättningar.

Modellkopia

Följande ändringar gäller för scenariot där du kopierar en modell.

  • Den nya åtgärden Models_Copy har lagts till. Här är schemat i den nya kopieringsåtgärden: "$ref": "#/definitions/ModelCopyAuthorization"
  • Inaktuella åtgärden för Models_CopyTo . Här är schemat i den inaktuella kopieringsåtgärden: "$ref": "#/definitions/ModelCopy"
  • Lade till den nya Models_AuthorizeCopy åtgärd som returnerar "$ref": "#/definitions/ModelCopyAuthorization". Den returnerade entiteten kan användas i den nya Models_Copy åtgärden.

Lade till en ny entitetsdefinition för ModelCopyAuthorization:

"ModelCopyAuthorization": {
    "title": "ModelCopyAuthorization",
    "required": [
        "expirationDateTime",
        "id",
        "sourceResourceId",
        "targetResourceEndpoint",
        "targetResourceId",
        "targetResourceRegion"
    ],
    "type": "object",
    "properties": {
        "targetResourceRegion": {
            "description": "The region (aka location) of the target speech resource (e.g., westus2).",
            "minLength": 1,
            "type": "string"
        },
        "targetResourceId": {
            "description": "The Azure Resource ID of the target speech resource.",
            "minLength": 1,
            "type": "string"
        },
        "targetResourceEndpoint": {
            "description": "The endpoint (base url) of the target resource (with custom domain name when it is used).",
            "minLength": 1,
            "type": "string"
        },
        "sourceResourceId": {
            "description": "The Azure Resource ID of the source speech resource.",
            "minLength": 1,
            "type": "string"
        },
        "expirationDateTime": {
            "format": "date-time",
            "description": "The expiration date of this copy authorization.",
            "type": "string"
        },
        "id": {
            "description": "The ID of this copy authorization.",
            "minLength": 1,
            "type": "string"
        }
    }
},

Lade till en ny entitetsdefinition för ModelCopyAuthorizationDefinition:

"ModelCopyAuthorizationDefinition": {
    "title": "ModelCopyAuthorizationDefinition",
    "required": [
        "sourceResourceId"
    ],
    "type": "object",
    "properties": {
        "sourceResourceId": {
            "description": "The Azure Resource ID of the source speech resource.",
            "minLength": 1,
            "type": "string"
        }
    }
},

En ny copy egenskap har lagts till.

  • copyTo URI: Platsen för den föråldrade modellkopieringsåtgärden. Mer information finns i åtgärden Models_CopyTo .
  • copy URI: Platsen för modellkopieringsåtgärden. Mer information finns i åtgärden Models_Copy .
"CustomModelLinks": {
    "title": "CustomModelLinks",
    "type": "object",
    "properties": {
      "copyTo": {
        "format": "uri",
        "description": "The location to the obsolete model copy action. See operation \"Models_CopyTo\" for more details.",
        "type": "string",
        "readOnly": true
      },
      "copy": {
        "format": "uri",
        "description": "The location to the model copy action. See operation \"Models_Copy\" for more details.",
        "type": "string",
        "readOnly": true
      },
      "files": {
        "format": "uri",
        "description": "The location to get all files of this entity. See operation \"Models_ListFiles\" for more details.",
        "type": "string",
        "readOnly": true
      },
      "manifest": {
        "format": "uri",
        "description": "The location to get a manifest for this model to be used in the on-prem container. See operation \"Models_GetCustomModelManifest\" for more details.",
        "type": "string",
        "readOnly": true
      }
    },
    "readOnly": true
},

Åtgärds-ID:t

Du måste uppdatera bassökvägen i koden från /speechtotext/v3.1 till /speechtotext/v3.2. Om du till exempel vill hämta basmodeller i eastus regionen använder du https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/base i stället https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/baseför .

Nästa steg