Transcriptions - Transcribe

Přepíše poskytnutý zvukový stream.

POST {endpoint}/speechtotext/transcriptions:transcribe?api-version=2024-05-15-preview

Parametry identifikátoru URI

Name V Vyžadováno Typ Description
audio
formData True

file

binary

Zvuk jako datový proud bajtů.

definition
formData True

string

Metadata pro rychlou žádost o přepis Toto pole obsahuje serializovaný objekt JSON typu TranscribeDefinition.

endpoint
path True

string

Podporované koncové body služeb Cognitive Services (protokol a název hostitele, například: https://westus.api.cognitive.microsoft.com).

api-version
query True

string

Požadovaná verze rozhraní API.

Odpovědi

Name Typ Description
200 OK

TranscribeResult

OK

Zabezpečení

Ocp-Apim-Subscription-Key

Tady zadejte svůj klíč účtu služeb Cognitive Services.

Typ: apiKey
V: header

Authorization

Zadejte přístupový token z JWT vráceného službou STS této oblasti. Nezapomeňte do tokenu přidat obor správy přidáním následujícího řetězce dotazu do adresy URL služby STS: ?scope=speechservicesmanagement

Typ: apiKey
V: header

Příklady

Transcribe an audio file

Ukázkový požadavek

POST {endpoint}/speechtotext/transcriptions:transcribe?api-version=2024-05-15-preview

Ukázková odpověď

{
  "duration": 2000,
  "combinedPhrases": [
    {
      "text": "Weather"
    }
  ],
  "phrases": [
    {
      "offset": 40,
      "duration": 240,
      "text": "Weather",
      "words": [
        {
          "text": "Weather",
          "offset": 40,
          "duration": 240
        }
      ],
      "locale": "en-US",
      "confidence": 0.7881154
    }
  ]
}

Definice

Name Description
CombinedPhrases
Phrase

Přepisovaná fráze.

TranscribeResult

Výsledek operace přepisu.

Word

Časové razítko slova ve formuláři pro zobrazení

CombinedPhrases

Name Typ Description
channel

integer

Index kanálu založený na 0. Je k dispozici pouze v případě, že je povolené oddělení kanálů.

text

string

Kompletní přepisovaný text kanálu.

Phrase

Přepisovaná fráze.

Name Typ Description
channel

integer

Index kanálu založený na 0. Je k dispozici pouze v případě, že je povolené oddělení kanálů.

confidence

number

Hodnota spolehlivosti pro frázi.

duration

integer

Doba trvání fráze v milisekundách.

locale

string

Národní prostředí fráze.

offset

integer

Počáteční posun fráze v milisekundách.

speaker

integer

Číslo mluvčího. Je k dispozici pouze v případě, že je povolená diarizace mluvčího.

text

string

Přepisovaný text fráze.

words

Word[]

Slova, která tvoří frázi. Existují pouze v případě, že jsou povolená časová razítka na úrovni slova.

TranscribeResult

Výsledek operace přepisu.

Name Typ Description
combinedPhrases

CombinedPhrases[]

Výsledky kombinovaného přepisu pro každý kanál.

duration

integer

Doba trvání zvuku v milisekundách.

phrases

Phrase[]

Výsledky přepisu segmentované do frází.

Word

Časové razítko slova ve formuláři pro zobrazení

Name Typ Description
duration

integer

Doba trvání slova v milisekundách.

offset

integer

Počáteční posun slova v milisekundách.

text

string

Rozpoznané slovo včetně interpunkce