Migrera kod från v3.1 till v3.2 i REST-API:et
REST API för tal till text används för Batch-transkription och anpassat tal. I den här artikeln beskrivs ändringar från version 3.1 till 3.2.
Viktigt!
Tal till text REST API v3.2 är den senaste versionen som är allmänt tillgänglig. Förhandsversionerna 3.2-preview.1 och 3.2-preview.2* tas bort i september 2024. Tal till text REST API v3.1 dras tillbaka vid ett datum som ska tillkännages. Tal till text REST API v3.0 dras tillbaka den 1 april 2026.
Bassökväg
Du måste uppdatera bassökvägen i koden från /speechtotext/v3.1
till /speechtotext/v3.2
. Om du till exempel vill hämta basmodeller i eastus
regionen använder du https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/base
i stället https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/base
för .
Mer information finns i Åtgärds-ID senare i den här guiden.
Batch-transkription
Viktigt!
Nya priser gäller för batch-transkription via Speech to text REST API v3.2. Mer information finns i prisguiden.
Bakåtkompatibilitetsbegränsningar
Använd inte Speech to text REST API v3.0 eller v3.1 för att hämta en transkription som skapats via Speech to text REST API v3.2. Du kan se ett felmeddelande som: "API-versionen kan inte användas för att komma åt den här transkriptionen. Använd API-version v3.2 eller senare."
Språkidentifieringsläge
LanguageIdentificationMode
läggs till som syskon candidateLocales
till LanguageIdentificationProperties
och speechModelMapping
. De lägen som är tillgängliga för språkidentifiering är Continuous
eller Single
. Kontinuerlig språkidentifiering är standard. Mer information finns i Språkidentifiering.
Whisper-modeller
Azure AI Speech stöder nu OpenAI:s Whisper-modell via Speech to text REST API v3.2. Mer information finns i guiden Skapa en batch-transkription .
Kommentar
Azure OpenAI Service stöder även OpenAI:s Whisper-modell för tal till text med ett synkront REST-API. Mer information finns i snabbstarten. Ta en titt på Vad är Whisper-modellen? för att lära dig mer om när du ska använda Azure AI Speech jämfört med Azure OpenAI Service.
Anpassat tal
Viktigt!
Du debiteras för anpassad talmodellträning om basmodellen skapades den 1 oktober 2023 och senare. Du debiteras inte för träning om basmodellen skapades före oktober 2023. Mer information finns i Priser för Azure AI Speech.
För att programmatiskt avgöra om en modell skapades före eller efter den 1 oktober 2023 använder du egenskapen chargedForAdaptation
som är ny i version 3.2.
Anpassad visningstextformatering
För att stödja modellanpassning med anpassade visningstextformateringsdata stöder åtgärden Datasets_Create datatypen OutputFormatting. Mer information finns i ladda upp datauppsättningar.
Lade till en definition för OutputFormatType
med Lexical
- och Display
uppräkningsvärden.
"OutputFormatType": {
"title": "OutputFormatType",
"enum": [
"Lexical",
"Display"
],
"type": "string",
"x-ms-enum": {
"name": "OutputFormatType",
"modelAsString": true,
"values": [
{
"value": "Lexical",
"description": "Model provides the transcription output without formatting."
},
{
"value": "Display",
"description": "Model supports display formatting transcriptions output or endpoints."
}
]
}
},
Uppräkningsvärdet OutputFormattingData
läggs till FileKind
i (typ av indata).
Egenskapen supportedOutputFormat
läggs till i BaseModelFeatures
. Den här egenskapen ligger inom BaseModel
definitionen.
"BaseModelFeatures": {
"title": "BaseModelFeatures",
"description": "Features supported by the model.",
"type": "object",
"allOf": [
{
"$ref": "#/definitions/SharedModelFeatures"
}
],
"properties": {
"supportsAdaptationsWith": {
"description": "Supported dataset kinds to adapt the model.",
"type": "array",
"items": {
"$ref": "#/definitions/DatasetKind"
},
"readOnly": true
},
"supportedOutputFormat": {
"description": "Supported output formats.",
"type": "array",
"items": {
"$ref": "#/definitions/OutputFormatType"
},
"readOnly": true
}
}
},
Avgift för anpassning
Egenskapen chargeForAdaptation
läggs till i BaseModelProperties
. Den här egenskapen ligger inom BaseModel
definitionen.
Viktigt!
Du debiteras för anpassad talmodellträning om basmodellen skapades den 1 oktober 2023 och senare. Du debiteras inte för träning om basmodellen skapades före oktober 2023. Mer information finns i Priser för Azure AI Speech.
Om värdet chargeForAdaptation
för är true
debiteras du för att träna modellen. Om värdet är false
debiteras du för att träna modellen. chargeForAdaptation
Använd egenskapen i stället för det skapade datumet för att programmatiskt avgöra om du debiteras för att träna en modell.
"BaseModelProperties": {
"title": "BaseModelProperties",
"type": "object",
"properties": {
"deprecationDates": {
"$ref": "#/definitions/BaseModelDeprecationDates"
},
"features": {
"$ref": "#/definitions/BaseModelFeatures"
},
"chargeForAdaptation": {
"description": "A value indicating whether model adaptation is charged.",
"type": "boolean",
"readOnly": true
}
}
},
Textnormalisering
Egenskapen textNormalizationKind
läggs till i DatasetProperties
.
Entitetsdefinition för TextNormalizationKind: Typen av textnormalisering.
- Standard: Standardtextnormalisering (till exempel "två till tre" ersätter "2 till 3" i en-US).
- Ingen: Ingen textnormalisering tillämpas på indatatexten. Det här värdet är ett åsidosättningsalternativ som endast ska användas när text normaliseras före uppladdningen.
Utvärderingsegenskaper
Egenskaper för tokenantal och tokenfel har lagts till i EvaluationProperties
egenskaperna:
correctTokenCount1
: Antalet korrekt identifierade token per model1.tokenCount1
: Antalet bearbetade token per model1.tokenDeletionCount1
: Antalet identifierade token per model1 som är borttagningar.tokenErrorRate1
: Tokenfelfrekvensen för igenkänning med model1.tokenInsertionCount1
: Antalet identifierade token per model1 som är infogningar.tokenSubstitutionCount1
: Antalet identifierade ord efter model1 som är ersättningar.correctTokenCount2
: Antalet korrekt identifierade token per model2.tokenCount2
: Antalet bearbetade token per model2.tokenDeletionCount2
: Antalet identifierade token per model2 som är borttagningar.tokenErrorRate2
: Tokenfelfrekvensen för igenkänning med model2.tokenInsertionCount2
: Antalet identifierade token per model2 som är infogningar.tokenSubstitutionCount2
: Antalet identifierade ord efter model2 som är ersättningar.
Modellkopia
Följande ändringar gäller för scenariot där du kopierar en modell.
- Den nya åtgärden Models_Copy har lagts till. Här är schemat i den nya kopieringsåtgärden:
"$ref": "#/definitions/ModelCopyAuthorization"
- Inaktuella åtgärden för Models_CopyTo . Här är schemat i den inaktuella kopieringsåtgärden:
"$ref": "#/definitions/ModelCopy"
- Lade till den nya Models_AuthorizeCopy åtgärd som returnerar
"$ref": "#/definitions/ModelCopyAuthorization"
. Den returnerade entiteten kan användas i den nya Models_Copy åtgärden.
Lade till en ny entitetsdefinition för ModelCopyAuthorization
:
"ModelCopyAuthorization": {
"title": "ModelCopyAuthorization",
"required": [
"expirationDateTime",
"id",
"sourceResourceId",
"targetResourceEndpoint",
"targetResourceId",
"targetResourceRegion"
],
"type": "object",
"properties": {
"targetResourceRegion": {
"description": "The region (aka location) of the target speech resource (e.g., westus2).",
"minLength": 1,
"type": "string"
},
"targetResourceId": {
"description": "The Azure Resource ID of the target speech resource.",
"minLength": 1,
"type": "string"
},
"targetResourceEndpoint": {
"description": "The endpoint (base url) of the target resource (with custom domain name when it is used).",
"minLength": 1,
"type": "string"
},
"sourceResourceId": {
"description": "The Azure Resource ID of the source speech resource.",
"minLength": 1,
"type": "string"
},
"expirationDateTime": {
"format": "date-time",
"description": "The expiration date of this copy authorization.",
"type": "string"
},
"id": {
"description": "The ID of this copy authorization.",
"minLength": 1,
"type": "string"
}
}
},
Lade till en ny entitetsdefinition för ModelCopyAuthorizationDefinition
:
"ModelCopyAuthorizationDefinition": {
"title": "ModelCopyAuthorizationDefinition",
"required": [
"sourceResourceId"
],
"type": "object",
"properties": {
"sourceResourceId": {
"description": "The Azure Resource ID of the source speech resource.",
"minLength": 1,
"type": "string"
}
}
},
Egenskaper för CustomModelLinks-kopiering
En ny copy
egenskap har lagts till.
copyTo
URI: Platsen för den föråldrade modellkopieringsåtgärden. Mer information finns i åtgärden Models_CopyTo .copy
URI: Platsen för modellkopieringsåtgärden. Mer information finns i åtgärden Models_Copy .
"CustomModelLinks": {
"title": "CustomModelLinks",
"type": "object",
"properties": {
"copyTo": {
"format": "uri",
"description": "The location to the obsolete model copy action. See operation \"Models_CopyTo\" for more details.",
"type": "string",
"readOnly": true
},
"copy": {
"format": "uri",
"description": "The location to the model copy action. See operation \"Models_Copy\" for more details.",
"type": "string",
"readOnly": true
},
"files": {
"format": "uri",
"description": "The location to get all files of this entity. See operation \"Models_ListFiles\" for more details.",
"type": "string",
"readOnly": true
},
"manifest": {
"format": "uri",
"description": "The location to get a manifest for this model to be used in the on-prem container. See operation \"Models_GetCustomModelManifest\" for more details.",
"type": "string",
"readOnly": true
}
},
"readOnly": true
},
Åtgärds-ID:t
Du måste uppdatera bassökvägen i koden från /speechtotext/v3.1
till /speechtotext/v3.2
. Om du till exempel vill hämta basmodeller i eastus
regionen använder du https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/base
i stället https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/base
för .