Transcriptions - Transcribe

指定されたオーディオ ストリームを文字起こしします。

POST {endpoint}/speechtotext/transcriptions:transcribe?api-version=2024-05-15-preview

URI パラメーター

名前 / 必須 説明
audio
formData True

file

binary

バイトストリームとしてのオーディオ。

definition
formData True

string

高速文字起こし要求のメタデータ。 このフィールドには、TranscribeDefinition型の JSON シリアル化オブジェクトが含まれています。

endpoint
path True

string

サポートされている Cognitive Services エンドポイント (プロトコルとホスト名、例: https://westus.api.cognitive.microsoft.com)。

api-version
query True

string

要求された API バージョン。

応答

名前 説明
200 OK

TranscribeResult

わかりました

セキュリティ

Ocp-Apim-Subscription-Key

コグニティブ サービス アカウント キーをここで指定します。

型: apiKey
/: header

Authorization

このリージョンの STS によって返される JWT からアクセス トークンを指定します。 STS URL に次のクエリ文字列を追加して、トークンに管理スコープを追加してください: ?scope=speechservicesmanagement

型: apiKey
/: header

Transcribe an audio file

要求のサンプル

POST {endpoint}/speechtotext/transcriptions:transcribe?api-version=2024-05-15-preview

応答のサンプル

{
  "duration": 2000,
  "combinedPhrases": [
    {
      "text": "Weather"
    }
  ],
  "phrases": [
    {
      "offset": 40,
      "duration": 240,
      "text": "Weather",
      "words": [
        {
          "text": "Weather",
          "offset": 40,
          "duration": 240
        }
      ],
      "locale": "en-US",
      "confidence": 0.7881154
    }
  ]
}

定義

名前 説明
CombinedPhrases
Phrase

文字起こしされた語句。

TranscribeResult

文字起こし操作の結果。

Word

表示フォームのタイムスタンプ付き単語。

CombinedPhrases

名前 説明
channel

integer

0 から始まるチャネル インデックス。 チャネル分離が有効になっている場合にのみ存在します。

text

string

チャネルの文字起こしされた完全なテキスト。

Phrase

文字起こしされた語句。

名前 説明
channel

integer

0 から始まるチャネル インデックス。 チャネル分離が有効になっている場合にのみ存在します。

confidence

number

語句の信頼度値。

duration

integer

語句の期間 (ミリ秒単位)。

locale

string

フレーズのロケール。

offset

integer

語句の開始オフセット (ミリ秒単位)。

speaker

integer

話者番号。 スピーカーの diarization が有効になっている場合にのみ存在します。

text

string

フレーズの文字起こしテキスト。

words

Word[]

語句を構成する単語。 単語レベルのタイムスタンプが有効な場合にのみ存在します。

TranscribeResult

文字起こし操作の結果。

名前 説明
combinedPhrases

CombinedPhrases[]

各チャネルの結合された文字起こしの結果。

duration

integer

オーディオの継続時間 (ミリ秒)。

phrases

Phrase[]

文字起こしの結果が語句に分割されます。

Word

表示フォームのタイムスタンプ付き単語。

名前 説明
duration

integer

単語の期間 (ミリ秒単位)。

offset

integer

単語の開始オフセット (ミリ秒単位)。

text

string

句読点を含む認識された単語。