Hämta resultat för batch-transkription

Om du vill få transkriptionsresultat kontrollerar du först statusen för transkriptionsjobbet. Om jobbet har slutförts kan du hämta transkriptions- och transkriptionsrapporten.

Hämta transkriptionsstatus

Om du vill hämta status för transkriptionsjobbet anropar du Transcriptions_Get-åtgärden för REST-API:et Tal till text.

Viktigt!

Batch-transkriptionsjobb schemaläggs enligt bästa praxis. Vid rusningstid kan det ta upp till 30 minuter eller längre innan ett transkriptionsjobb börjar bearbetas. För det mesta under körningen är Runningtranskriptionsstatusen . Det beror på att jobbet tilldelas status så Running fort det flyttas till serverdelssystemet för batch-transkription. När basmodellen används sker den här tilldelningen nästan omedelbart. det är något långsammare för anpassade modeller. Den tid som ett transkriptionsjobb tillbringar i Running tillståndet motsvarar alltså inte den faktiska transkriptionstiden, utan även väntetiden i de interna köerna.

Gör en HTTP GET-begäran med hjälp av URI:n enligt följande exempel. Ersätt YourTranscriptionId med ditt transkriptions-ID, ersätt YourSubscriptionKey med din Speech-resursnyckel och ersätt YourServiceRegion med din Speech-resursregion.

curl -v -X GET "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/YourTranscriptionId" -H "Ocp-Apim-Subscription-Key: YourSubscriptionKey"

Du bör få en svarstext i följande format:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/637d9333-6559-47a6-b8de-c7d732c1ddf3",
  "model": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/base/aaa321e9-5a4e-4db1-88a2-f251bbe7b555"
  },
  "links": {
    "files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/637d9333-6559-47a6-b8de-c7d732c1ddf3/files"
  },
  "properties": {
    "diarizationEnabled": false,
    "wordLevelTimestampsEnabled": false,
    "displayFormWordLevelTimestampsEnabled": true,
    "channels": [
      0,
      1
    ],
    "punctuationMode": "DictatedAndAutomatic",
    "profanityFilterMode": "Masked",
    "duration": "PT3S",
    "languageIdentification": {
      "candidateLocales": [
        "en-US",
        "de-DE",
        "es-ES"
      ]
    }
  },
  "lastActionDateTime": "2024-05-10T18:39:09Z",
  "status": "Succeeded",
  "createdDateTime": "2024-05-10T18:39:07Z",
  "locale": "en-US",
  "displayName": "My Transcription"
}

Egenskapen status anger den aktuella statusen för transkriptionerna. Transkriptions- och transkriptionsrapporten är tillgängliga när transkriptionsstatusen är Succeeded.

Viktigt!

Batch-transkriptionsjobb schemaläggs enligt bästa praxis. Vid rusningstid kan det ta upp till 30 minuter eller längre innan ett transkriptionsjobb börjar bearbetas. För det mesta under körningen är Runningtranskriptionsstatusen . Det beror på att jobbet tilldelas status så Running fort det flyttas till serverdelssystemet för batch-transkription. När basmodellen används sker den här tilldelningen nästan omedelbart. det är något långsammare för anpassade modeller. Den tid som ett transkriptionsjobb tillbringar i Running tillståndet motsvarar alltså inte den faktiska transkriptionstiden, utan även väntetiden i de interna köerna.

Om du vill hämta status för transkriptionsjobbet spx batch transcription status använder du kommandot . Skapa begärandeparametrarna enligt följande instruktioner:

  • Ange parametern transcription till ID:t för transkriptionen som du vill hämta.

Här är ett exempel på ett Speech CLI-kommando för att hämta transkriptionsstatusen:

spx batch transcription status --api-version v3.2 --transcription YourTranscriptionId

Du bör få en svarstext i följande format:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/637d9333-6559-47a6-b8de-c7d732c1ddf3",
  "model": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/base/aaa321e9-5a4e-4db1-88a2-f251bbe7b555"
  },
  "links": {
    "files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/637d9333-6559-47a6-b8de-c7d732c1ddf3/files"
  },
  "properties": {
    "diarizationEnabled": false,
    "wordLevelTimestampsEnabled": false,
    "displayFormWordLevelTimestampsEnabled": true,
    "channels": [
      0,
      1
    ],
    "punctuationMode": "DictatedAndAutomatic",
    "profanityFilterMode": "Masked",
    "duration": "PT3S"
  },
  "lastActionDateTime": "2024-05-10T18:39:09Z",
  "status": "Succeeded",
  "createdDateTime": "2024-05-10T18:39:07Z",
  "locale": "en-US",
  "displayName": "My Transcription"
}

Egenskapen status anger den aktuella statusen för transkriptionerna. Transkriptions- och transkriptionsrapporten är tillgängliga när transkriptionsstatusen är Succeeded.

Kör följande kommando för speech CLI-hjälp med transkriptioner:

spx help batch transcription

Hämta transkriptionsresultat

Åtgärden Transcriptions_ListFiles returnerar en lista över resultatfiler för en transkription. En transkriptionsrapportfil tillhandahålls för varje skickat batch-transkriptionsjobb. Dessutom tillhandahålls en transkriptionsfil (slutresultatet) för varje transkriberad ljudfil.

Gör en HTTP GET-begäran med hjälp av URI:n "files" från föregående svarstext. Ersätt YourTranscriptionId med ditt transkriptions-ID, ersätt YourSubscriptionKey med din Speech-resursnyckel och ersätt YourServiceRegion med din Speech-resursregion.

curl -v -X GET "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/YourTranscriptionId/files" -H "Ocp-Apim-Subscription-Key: YourSubscriptionKey"

Du bör få en svarstext i följande format:

{
  "values": [
    {
      "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/637d9333-6559-47a6-b8de-c7d732c1ddf3/files/2dd180a1-434e-4368-a1ac-37350700284f",
      "name": "contenturl_0.json",
      "kind": "Transcription",
      "properties": {
        "size": 3407
      },
      "createdDateTime": "2024-05-10T18:39:09Z",
      "links": {
        "contentUrl": "YourTranscriptionUrl"
      }
    },
    {
      "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/637d9333-6559-47a6-b8de-c7d732c1ddf3/files/c027c6a9-2436-4303-b64b-e98e3c9fc2e3",
      "name": "contenturl_1.json",
      "kind": "Transcription",
      "properties": {
        "size": 8233
      },
      "createdDateTime": "2024-05-10T18:39:09Z",
      "links": {
        "contentUrl": "YourTranscriptionUrl"
      }
    },
    {
      "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/637d9333-6559-47a6-b8de-c7d732c1ddf3/files/faea9a41-c95c-4d91-96ff-e39225def642",
      "name": "report.json",
      "kind": "TranscriptionReport",
      "properties": {
        "size": 279
      },
      "createdDateTime": "2024-05-10T18:39:09Z",
      "links": {
        "contentUrl": "YourTranscriptionReportUrl"
      }
    }
  ]
}

Platsen för varje transkriptions- och transkriptionsrapportfiler med mer information returneras i svarstexten. Egenskapen contentUrl innehåller URL:en till transkriptionsfilen ("kind": "Transcription") eller transkriptionsrapporten ("kind": "TranscriptionReport").

Om du inte angav en container i destinationContainerUrl egenskapen för transkriptionsbegäran lagras resultaten i en container som hanteras av Microsoft. När transkriptionsjobbet tas bort tas även transkriptionsresultatdata bort.

Kommandot spx batch transcription list returnerar en lista över resultatfiler för en transkription. En transkriptionsrapportfil tillhandahålls för varje skickat batch-transkriptionsjobb. Dessutom tillhandahålls en transkriptionsfil (slutresultatet) för varje transkriberad ljudfil.

  • Ange flaggan som krävs files .
  • Ange den obligatoriska transcription parametern till ID:t för transkriptionen som du vill hämta loggar.

Här är ett exempel på ett Speech CLI-kommando som hämtar en lista över resultatfiler för en transkription:

spx batch transcription list --api-version v3.2 --files --transcription YourTranscriptionId

Du bör få en svarstext i följande format:

{
  "values": [
    {
      "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/637d9333-6559-47a6-b8de-c7d732c1ddf3/files/2dd180a1-434e-4368-a1ac-37350700284f",
      "name": "contenturl_0.json",
      "kind": "Transcription",
      "properties": {
        "size": 3407
      },
      "createdDateTime": "2024-05-10T18:39:09Z",
      "links": {
        "contentUrl": "YourTranscriptionUrl"
      }
    },
    {
      "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/637d9333-6559-47a6-b8de-c7d732c1ddf3/files/c027c6a9-2436-4303-b64b-e98e3c9fc2e3",
      "name": "contenturl_1.json",
      "kind": "Transcription",
      "properties": {
        "size": 8233
      },
      "createdDateTime": "2024-05-10T18:39:09Z",
      "links": {
        "contentUrl": "YourTranscriptionUrl"
      }
    },
    {
      "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/637d9333-6559-47a6-b8de-c7d732c1ddf3/files/faea9a41-c95c-4d91-96ff-e39225def642",
      "name": "report.json",
      "kind": "TranscriptionReport",
      "properties": {
        "size": 279
      },
      "createdDateTime": "2024-05-10T18:39:09Z",
      "links": {
        "contentUrl": "YourTranscriptionReportUrl"
      }
    }
  ]
}

Platsen för varje transkriptions- och transkriptionsrapportfiler med mer information returneras i svarstexten. Egenskapen contentUrl innehåller URL:en till transkriptionsfilen ("kind": "Transcription") eller transkriptionsrapporten ("kind": "TranscriptionReport").

Som standard lagras resultaten i en container som hanteras av Microsoft. När transkriptionsjobbet tas bort tas även transkriptionsresultatdata bort.

Transkriptionsrapportfil

En transkriptionsrapportfil tillhandahålls för varje skickat batch-transkriptionsjobb.

Innehållet i varje transkriptionsresultatfil formateras som JSON, vilket visas i det här exemplet.

{
  "successfulTranscriptionsCount": 2,
  "failedTranscriptionsCount": 0,
  "details": [
    {
      "source": "https://crbn.us/hello.wav",
      "status": "Succeeded"
    },
    {
      "source": "https://crbn.us/whatstheweatherlike.wav",
      "status": "Succeeded"
    }
  ]
}

Transkriptionsresultatfil

En transkriptionsresultatfil tillhandahålls för varje transkriberad ljudfil.

Innehållet i varje transkriptionsresultatfil formateras som JSON, vilket visas i det här exemplet.

{
  "source": "...",
  "timestamp": "2023-07-10T14:28:16Z",
  "durationInTicks": 25800000,
  "duration": "PT2.58S",
  "combinedRecognizedPhrases": [
    {
      "channel": 0,
      "lexical": "hello world",
      "itn": "hello world",
      "maskedITN": "hello world",
      "display": "Hello world."
    }
  ],
  "recognizedPhrases": [
    {
      "recognitionStatus": "Success",
      "channel": 0,
      "offset": "PT0.76S",
      "duration": "PT1.32S",
      "offsetInTicks": 7600000.0,
      "durationInTicks": 13200000.0,
      "nBest": [
        {
          "confidence": 0.5643338,
          "lexical": "hello world",
          "itn": "hello world",
          "maskedITN": "hello world",
          "display": "Hello world.",
          "displayWords": [
            {
              "displayText": "Hello",
              "offset": "PT0.76S",
              "duration": "PT0.76S",
              "offsetInTicks": 7600000.0,
              "durationInTicks": 7600000.0
            },
            {
              "displayText": "world.",
              "offset": "PT1.52S",
              "duration": "PT0.56S",
              "offsetInTicks": 15200000.0,
              "durationInTicks": 5600000.0
            }
          ]
        },
        {
          "confidence": 0.1769063,
          "lexical": "helloworld",
          "itn": "helloworld",
          "maskedITN": "helloworld",
          "display": "helloworld"
        },
        {
          "confidence": 0.49964225,
          "lexical": "hello worlds",
          "itn": "hello worlds",
          "maskedITN": "hello worlds",
          "display": "hello worlds"
        },
        {
          "confidence": 0.4995761,
          "lexical": "hello worm",
          "itn": "hello worm",
          "maskedITN": "hello worm",
          "display": "hello worm"
        },
        {
          "confidence": 0.49418187,
          "lexical": "hello word",
          "itn": "hello word",
          "maskedITN": "hello word",
          "display": "hello word"
        }
      ]
    }
  ]
}

Beroende delvis på de begärandeparametrar som angavs när du skapade transkriptionsjobbet kan transkriptionsfilen innehålla följande resultategenskaper.

Property beskrivning
channel Kanalnumret för resultaten. För stereoljudströmmar delas de vänstra och högra kanalerna under transkriptionen. En JSON-resultatfil skapas för varje indataljudfil.
combinedRecognizedPhrases Det sammanlänkade resultatet av alla fraser för kanalen.
confidence Konfidensvärdet för igenkänningen.
display Visningsformen för den igenkända texten. Extra skiljetecken och versaler ingår.
displayWords Tidsstämplarna för varje ord i transkriptionen. Begärandeegenskapen displayFormWordLevelTimestampsEnabled måste vara inställd på true, annars finns inte den här egenskapen.

Obs! Den här egenskapen är endast tillgänglig med Speech to text REST API version 3.1 och senare.
duration Ljudvaraktigheten. Värdet är en ISO 8601-kodad varaktighet.
durationInTicks Ljudvaraktigheten i tick (en tick är 100 nanosekunder).
itn Den inverterade textnormaliserade (ITN) formen av den igenkända texten. Förkortningar som "Doctor Smith" till "Dr Smith", telefonnummer och andra transformeringar tillämpas.
lexical De faktiska orden känns igen.
locale Språkvarianten som identifieras från inmatningen av ljudet. Begärandeegenskapen languageIdentification måste anges, annars finns inte den här egenskapen.

Obs! Den här egenskapen är endast tillgänglig med Speech to text REST API version 3.1 och senare.
maskedITN ITN-formuläret med svordomsmaskering tillämpat.
nBest En lista över möjliga transkriptioner för den aktuella frasen med förtroende.
offset Förskjutningen i ljudet av den här frasen. Värdet är en ISO 8601-kodad varaktighet.
offsetInTicks Förskjutningen i ljudet av den här frasen i fästingar (en tick är 100 nanosekunder).
recognitionStatus Igenkänningstillståndet. Exempel: "Lyckades" eller "Fel".
recognizedPhrases Listan med resultat för varje fras.
source Url:en som angavs som indataljudkälla. Källan motsvarar egenskapen eller contentContainerUrl begärandeegenskapencontentUrls. Egenskapen source är det enda sättet att bekräfta ljudindata för en transkription.
speaker Den identifierade talaren. diarization Egenskaperna och diarizationEnabled förfrågning måste anges, annars finns inte den här egenskapen.
timestamp Skapandedatum och tid för transkriptionen. Värdet är en ISO 8601-kodad tidsstämpel.
words En lista med resultat med lexikal text för varje ord i frasen. Begärandeegenskapen wordLevelTimestampsEnabled måste vara inställd på true, annars finns inte den här egenskapen.

Nästa steg