Transcriptions - Transcribe

Referenz

Dienst:: Azure AI Services

API-Version:: 2024-05-15-preview

Transkribiert den bereitgestellten Audiodatenstrom.

POST {endpoint}/speechtotext/transcriptions:transcribe?api-version=2024-05-15-preview

URI-Parameter

Name	In	Erforderlich	Typ	Beschreibung
audio	formData	True	file binary	Die Audiodaten als Bytestrom.
definition	formData	True	string	Metadaten für eine schnelle Transkriptionsanforderung. Dieses Feld enthält ein JSON-serialisiertes Objekt vom Typ `TranscribeDefinition`.
endpoint	path	True	string	Unterstützte Cognitive Services-Endpunkte (Protokoll und Hostname, z. B. https://westus.api.cognitive.microsoft.com).
api-version	query	True	string	Die angeforderte API-Version.

Antworten

Name	Typ	Beschreibung
200 OK	TranscribeResult	OKAY

Sicherheit

Ocp-Apim-Subscription-Key

Stellen Sie hier Ihren kognitiven Leistungskontoschlüssel bereit.

Typ: apiKey
In: header

Authorization

Stellen Sie ein Zugriffstoken von JWT bereit, das vom STS dieser Region zurückgegeben wird. Stellen Sie sicher, dass Sie dem Token den Verwaltungsbereich hinzufügen, indem Sie der STS-URL die folgende Abfragezeichenfolge hinzufügen: ?scope=speechservicesmanagement

Typ: apiKey
In: header

Beispiele

Transcribe an audio file

Beispielanforderung

HTTP

POST {endpoint}/speechtotext/transcriptions:transcribe?api-version=2024-05-15-preview

Beispiel für eine Antwort

Statuscode:: 200

{
  "duration": 2000,
  "combinedPhrases": [
    {
      "text": "Weather"
    }
  ],
  "phrases": [
    {
      "offset": 40,
      "duration": 240,
      "text": "Weather",
      "words": [
        {
          "text": "Weather",
          "offset": 40,
          "duration": 240
        }
      ],
      "locale": "en-US",
      "confidence": 0.7881154
    }
  ]
}

Definitionen

Name	Beschreibung
CombinedPhrases
Phrase	Ein transkribierter Ausdruck.
TranscribeResult	Das Ergebnis des Transcribe-Vorgangs.
Word	Zeitstempelwort im Anzeigeformular.

CombinedPhrases

Name	Typ	Beschreibung
channel	integer	Der 0-basierte Kanalindex. Nur vorhanden, wenn die Kanaltrennung aktiviert ist.
text	string	Der vollständige transkribierte Text für den Kanal.

Phrase

Ein transkribierter Ausdruck.

Name	Typ	Beschreibung
channel	integer	Der 0-basierte Kanalindex. Nur vorhanden, wenn die Kanaltrennung aktiviert ist.
confidence	number	Der Konfidenzwert für den Ausdruck.
duration	integer	Die Dauer des Ausdrucks in Millisekunden.
locale	string	Das Gebietsschema des Ausdrucks.
offset	integer	Der Anfangsoffset des Ausdrucks in Millisekunden.
speaker	integer	Die Sprechernummer. Nur vorhanden, wenn die Diarisierung des Lautsprechers aktiviert ist.
text	string	Der transkribierte Text des Ausdrucks.
words	Word[]	Die Wörter, aus denen der Ausdruck besteht. Nur vorhanden, wenn Zeitstempel auf Wortebene aktiviert sind.

TranscribeResult

Das Ergebnis des Transcribe-Vorgangs.

Name	Typ	Beschreibung
combinedPhrases	CombinedPhrases[]	Die kombinierten Transkriptionsergebnisse für jeden Kanal.
duration	integer	Die Dauer des Audiosignals in Millisekunden.
phrases	Phrase[]	Die Transkription führt zu Ausdrücken segmentiert.

Word

Zeitstempelwort im Anzeigeformular.

Name	Typ	Beschreibung
duration	integer	Die Dauer des Worts in Millisekunden.
offset	integer	Der Anfangsoffset des Worts in Millisekunden.
text	string	Das erkannte Wort, einschließlich Interpunktion.

Freigeben über