Text to Speech REST API

[アーティクル]
09/23/2024

Speech Service では、REST API を使用して、テキストを合成音声に変換したり、リージョンでサポートされている音声の一覧を取得したりできます。この記事では、承認オプション、クエリオプション、要求を構造化する方法、応答を解釈する方法について説明します。

ヒント

Text to speech REST API ユースケースは制限されています。 Speech SDK を使用できない場合にのみ使用してください。たとえば、Speech SDK を使用すると、テキスト読み上げ処理と結果についてより多くの分析情報を得るためにイベントをサブスクライブできます。

テキスト読み上げ REST API では、多くのロケールでニューラルテキストから音声への音声がサポートされています。利用可能な各エンドポイントは、リージョンに関連付けられています。使用する予定のエンドポイントまたはリージョンの Speech リソースキーが必要です。詳細情報へのリンクを以下に示します。

音声の完全なリストについては、「音声サービスの言語と音声のサポート」を参照してください。
リージョンの利用可能性については、「音声サービスがサポートされているリージョン」を参照してください。
21Vianet のエンドポイントによって運営される Azure Government と Microsoft Azure については、ソブリンクラウドに関するこちらの記事を参照してください。

重要

コストは、事前構築済みのニューラル音声 (価格ページでは "ニューラル") とカスタムニューラル音声 (価格ページでは "カスタムニューラル") によって異なります。詳細については、「Speech Services の価格」を参照してください。

Text to speech REST API を使用する前に、サービスにアクセスするための認証の一部としてトークン交換を完了する必要があることを覚えておいてください。詳細については、認証に関するページをご覧ください。

音声の一覧を取得する

tts.speech.microsoft.com/cognitiveservices/voices/list エンドポイントを使用して、特定のリージョンまたはエンドポイントの音声の完全なリストを取得できます。音声の一覧エンドポイントにリージョンのプレフィックスを付けて、そのリージョンの音声の一覧を取得します。たとえば、westus リージョンの音声の一覧を取得するには、https://westus.tts.speech.microsoft.com/cognitiveservices/voices/list エンドポイントを使用します。サポートされているすべてのリージョンの一覧については、リージョンのドキュメントを参照してください。

Note

プレビュー段階の音声とスタイルは、3 つのサービスリージョン (米国東部、西ヨーロッパ、東南アジア) でのみ使用できます。

要求ヘッダー

この表は、テキスト読み上げ要求の必須のヘッダーと省略可能なヘッダーの一覧です。

Header	説明	必須または省略可能
`Ocp-Apim-Subscription-Key`	Speech リソースのキー。	このヘッダーと `Authorization` のどちらかが必須となります。
`Authorization`	単語 `Bearer` が前に付いた認証トークン。詳細については、認証に関するページをご覧ください。	このヘッダーと `Ocp-Apim-Subscription-Key` のどちらかが必須となります。

要求本文

このエンドポイントへの GET 要求の本文は不要です。

要求のサンプル

この要求には Authorization ヘッダーのみが必要です。

GET /cognitiveservices/voices/list HTTP/1.1

Host: westus.tts.speech.microsoft.com
Ocp-Apim-Subscription-Key: YOUR_RESOURCE_KEY

curl コマンドの例を次に示します。

curl --location --request GET 'https://YOUR_RESOURCE_REGION.tts.speech.microsoft.com/cognitiveservices/voices/list' \
--header 'Ocp-Apim-Subscription-Key: YOUR_RESOURCE_KEY'

応答のサンプル

サポートされているすべてのロケール、音声、性別、スタイル、その他の詳細を含む応答を JSON 本文で受け取る必要があります。各音声の WordsPerMinute プロパティを使用して、出力音声の長さを推定できます。次の JSON の例は、応答の構造を示すために部分的な結果を示しています。

[
    // Redacted for brevity
    {
        "Name": "Microsoft Server Speech Text to Speech Voice (en-US, JennyNeural)",
        "DisplayName": "Jenny",
        "LocalName": "Jenny",
        "ShortName": "en-US-JennyNeural",
        "Gender": "Female",
        "Locale": "en-US",
        "LocaleName": "English (United States)",
        "StyleList": [
          "assistant",
          "chat",
          "customerservice",
          "newscast",
          "angry",
          "cheerful",
          "sad",
          "excited",
          "friendly",
          "terrified",
          "shouting",
          "unfriendly",
          "whispering",
          "hopeful"
        ],
        "SampleRateHertz": "24000",
        "VoiceType": "Neural",
        "Status": "GA",
        "ExtendedPropertyMap": {
          "IsHighQuality48K": "True"
        },
        "WordsPerMinute": "152"
    },
    // Redacted for brevity
    {
        "Name": "Microsoft Server Speech Text to Speech Voice (en-US, JennyMultilingualNeural)",
        "DisplayName": "Jenny Multilingual",
        "LocalName": "Jenny Multilingual",
        "ShortName": "en-US-JennyMultilingualNeural",
        "Gender": "Female",
        "Locale": "en-US",
        "LocaleName": "English (United States)",
        "SecondaryLocaleList": [
          "de-DE",
          "en-AU",
          "en-CA",
          "en-GB",
          "es-ES",
          "es-MX",
          "fr-CA",
          "fr-FR",
          "it-IT",
          "ja-JP",
          "ko-KR",
          "pt-BR",
          "zh-CN"
        ],
        "SampleRateHertz": "24000",
        "VoiceType": "Neural",
        "Status": "GA",
        "WordsPerMinute": "190"
    },
    // Redacted for brevity
    {
        "Name": "Microsoft Server Speech Text to Speech Voice (ga-IE, OrlaNeural)",
        "DisplayName": "Orla",
        "LocalName": "Orla",
        "ShortName": "ga-IE-OrlaNeural",
        "Gender": "Female",
        "Locale": "ga-IE",
        "LocaleName": "Irish (Ireland)",
        "SampleRateHertz": "24000",
        "VoiceType": "Neural",
        "Status": "GA",
        "WordsPerMinute": "139"
    },
    // Redacted for brevity
    {
        "Name": "Microsoft Server Speech Text to Speech Voice (zh-CN, YunxiNeural)",
        "DisplayName": "Yunxi",
        "LocalName": "云希",
        "ShortName": "zh-CN-YunxiNeural",
        "Gender": "Male",
        "Locale": "zh-CN",
        "LocaleName": "Chinese (Mandarin, Simplified)",
        "StyleList": [
          "narration-relaxed",
          "embarrassed",
          "fearful",
          "cheerful",
          "disgruntled",
          "serious",
          "angry",
          "sad",
          "depressed",
          "chat",
          "assistant",
          "newscast"
        ],
        "SampleRateHertz": "24000",
        "VoiceType": "Neural",
        "Status": "GA",
        "RolePlayList": [
          "Narrator",
          "YoungAdultMale",
          "Boy"
        ],
        "WordsPerMinute": "293"
    },
    // Redacted for brevity
]

HTTP 状態コード

各応答の HTTP 状態コードは、成功または一般的なエラーを示します。

HTTP 状態コード	説明	考えられる理由
200	OK	要求は成功しました。
400	正しくない要求	必須パラメーターが指定されていない、空、または null です。または、必須またはオプションのパラメーターに渡された値が無効です。よくある原因は、長すぎるヘッダーです。
401	権限がありません	要求は承認されません。リソースキーまたはトークンが有効であり、正しいリージョンにあることを確認してください。
429	Too many requests	リソースに対して許可されている要求のクォータまたはレートを超えました。
502	Bad gateway	ネットワークまたはサーバー側に問題があります。この状態は、無効なヘッダーを示している可能性もあります。

テキストを音声に変換する

cognitiveservices/v1 エンドポイントでは、音声合成マークアップ言語 (SSML) を使用してテキストを音声に変換することができます。

リージョンとエンドポイント

REST API を介したテキスト読み上げは、以下のリージョンでサポートされます。必ず、ご利用の Speech リソースのリージョンと一致するエンドポイントを選択してください。

あらかじめ構築されたニューラル音声

この表を使用して、リージョンまたはエンドポイントごとのニューラル音声の利用可能性を判断します。

リージョン	エンドポイント
オーストラリア東部	`https://australiaeast.tts.speech.microsoft.com/cognitiveservices/v1`
ブラジル南部	`https://brazilsouth.tts.speech.microsoft.com/cognitiveservices/v1`
カナダ中部	`https://canadacentral.tts.speech.microsoft.com/cognitiveservices/v1`
米国中部	`https://centralus.tts.speech.microsoft.com/cognitiveservices/v1`
東アジア	`https://eastasia.tts.speech.microsoft.com/cognitiveservices/v1`
米国東部	`https://eastus.tts.speech.microsoft.com/cognitiveservices/v1`
米国東部 2	`https://eastus2.tts.speech.microsoft.com/cognitiveservices/v1`
フランス中部	`https://francecentral.tts.speech.microsoft.com/cognitiveservices/v1`
ドイツ中西部	`https://germanywestcentral.tts.speech.microsoft.com/cognitiveservices/v1`
インド中部	`https://centralindia.tts.speech.microsoft.com/cognitiveservices/v1`
東日本	`https://japaneast.tts.speech.microsoft.com/cognitiveservices/v1`
西日本	`https://japanwest.tts.speech.microsoft.com/cognitiveservices/v1`
JIO インド西部	`https://jioindiawest.tts.speech.microsoft.com/cognitiveservices/v1`
韓国中部	`https://koreacentral.tts.speech.microsoft.com/cognitiveservices/v1`
米国中北部	`https://northcentralus.tts.speech.microsoft.com/cognitiveservices/v1`
北ヨーロッパ	`https://northeurope.tts.speech.microsoft.com/cognitiveservices/v1`
ノルウェー東部	`https://norwayeast.tts.speech.microsoft.com/cognitiveservices/v1`
米国中南部	`https://southcentralus.tts.speech.microsoft.com/cognitiveservices/v1`
東南アジア	`https://southeastasia.tts.speech.microsoft.com/cognitiveservices/v1`
スウェーデン中部	`https://swedencentral.tts.speech.microsoft.com/cognitiveservices/v1`
スイス北部	`https://switzerlandnorth.tts.speech.microsoft.com/cognitiveservices/v1`
スイス西部	`https://switzerlandwest.tts.speech.microsoft.com/cognitiveservices/v1`
アラブ首長国連邦北部	`https://uaenorth.tts.speech.microsoft.com/cognitiveservices/v1`
US Gov アリゾナ	`https://usgovarizona.tts.speech.azure.us/cognitiveservices/v1`
US Gov バージニア州	`https://usgovvirginia.tts.speech.azure.us/cognitiveservices/v1`
英国南部	`https://uksouth.tts.speech.microsoft.com/cognitiveservices/v1`
米国中西部	`https://westcentralus.tts.speech.microsoft.com/cognitiveservices/v1`
西ヨーロッパ	`https://westeurope.tts.speech.microsoft.com/cognitiveservices/v1`
米国西部	`https://westus.tts.speech.microsoft.com/cognitiveservices/v1`
米国西部 2	`https://westus2.tts.speech.microsoft.com/cognitiveservices/v1`
米国西部 3	`https://westus3.tts.speech.microsoft.com/cognitiveservices/v1`

ヒント

プレビュー段階の音声は、米国東部、西ヨーロッパ、および東南アジアの 3 つのリージョンでのみ使用できます。

カスタムニューラル音声

カスタムニューラル音声フォントを作成した場合は、作成したエンドポイントを使用します。次のエンドポイントを使用することもできます。 {deploymentId} をニューラル音声モデルのデプロイ ID に置き換えます。

リージョン	トレーニング	デプロイ	エンドポイント
オーストラリア東部	はい	はい	`https://australiaeast.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
ブラジル南部	いいえ	はい	`https://brazilsouth.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
カナダ中部	いいえ	はい	`https://canadacentral.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
米国中部	いいえ	はい	`https://centralus.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
東アジア	いいえ	はい	`https://eastasia.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
East US	はい	はい	`https://eastus.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
米国東部 2	はい	はい	`https://eastus2.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
フランス中部	いいえ	はい	`https://francecentral.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
ドイツ中西部	いいえ	はい	`https://germanywestcentral.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
インド中部	はい	はい	`https://centralindia.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
東日本	はい	はい	`https://japaneast.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
西日本	いいえ	はい	`https://japanwest.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
JIO インド西部	いいえ	はい	`https://jioindiawest.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
韓国中部	はい	はい	`https://koreacentral.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
米国中北部	いいえ	はい	`https://northcentralus.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
北ヨーロッパ	はい	はい	`https://northeurope.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
ノルウェー東部	いいえ	はい	`https://norwayeast.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
南アフリカ北部	いいえ	はい	`https://southafricanorth.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
米国中南部	はい	はい	`https://southcentralus.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
東南アジア	はい	はい	`https://southeastasia.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
スイス北部	いいえ	はい	`https://switzerlandnorth.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
スイス西部	いいえ	はい	`https://switzerlandwest.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
アラブ首長国連邦北部	いいえ	はい	`https://uaenorth.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
英国南部	はい	はい	`https://uksouth.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
米国中西部	いいえ	はい	`https://westcentralus.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
西ヨーロッパ	はい	はい	`https://westeurope.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
米国西部	はい	はい	`https://westus.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
米国西部 2	はい	はい	`https://westus2.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
米国西部 3	いいえ	イエス	`https://westus3.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`

注意

上記のリージョンは、ニューラル音声モデルのホスティングとリアルタイム合成に利用できます。カスタムニューラル音声トレーニングは、一部のリージョンでのみ使用できます。ただし、ニューラル音声モデルは、これらのリージョンから、前述のリスト内の他のリージョンに簡単にコピーできます。

Long Audio API

Long Audio API は、一意のエンドポイントを持つ複数のリージョンで使用できます。

リージョン	エンドポイント
オーストラリア東部	`https://australiaeast.customvoice.api.speech.microsoft.com`
米国東部	`https://eastus.customvoice.api.speech.microsoft.com`
インド中部	`https://centralindia.customvoice.api.speech.microsoft.com`
米国中南部	`https://southcentralus.customvoice.api.speech.microsoft.com`
東南アジア	`https://southeastasia.customvoice.api.speech.microsoft.com`
英国南部	`https://uksouth.customvoice.api.speech.microsoft.com`
西ヨーロッパ	`https://westeurope.customvoice.api.speech.microsoft.com`

要求ヘッダー

この表は、テキスト読み上げ要求の必須のヘッダーと省略可能なヘッダーの一覧です。

Header	説明	必須または省略可能
`Authorization`	単語 `Bearer` が前に付いた認証トークン。詳細については、認証に関するページをご覧ください。	必須
`Content-Type`	指定したテキストのコンテンツタイプを指定します。指定できる値は `application/ssml+xml` です。	必須
`X-Microsoft-OutputFormat`	オーディオ出力形式を指定します。指定可能な値の完全なリストについては、「オーディオ出力」を参照してください。	必須
`User-Agent`	アプリケーション名です。指定する値は、255 文字未満である必要があります。	必須

要求本文

カスタムニューラル音声を使用する場合は、要求の本文をプレーンテキスト (ASCII または UTF-8) として送信できます。それ以外の場合は、各 POST 要求の本文が SSML として送信されます。 SSML では、テキスト読み上げ機能が返す合成音声の音声と言語を選ぶことができます。サポートされている音声の完全なリストについては、「音声サービスの言語と音声のサポート」を参照してください。

要求のサンプル

この HTTP 要求は、SSML を使用して音声と言語を指定します。本文が長すぎて、生成されるオーディオが 10 分を超える場合は、10 分に切り捨てられます。つまり、オーディオの長さが 10 分を超えることはできません。

POST /cognitiveservices/v1 HTTP/1.1

X-Microsoft-OutputFormat: riff-24khz-16bit-mono-pcm
Content-Type: application/ssml+xml
Host: westus.tts.speech.microsoft.com
Content-Length: <Length>
Authorization: Bearer [Base64 access_token]
User-Agent: <Your application name>

<speak version='1.0' xml:lang='en-US'><voice xml:lang='en-US' xml:gender='Male'
    name='en-US-ChristopherNeural'>
        I'm excited to try text to speech!
</voice></speak>

^* Content-Length には、独自のコンテンツ長を使用する必要があります。ほとんどの場合、この値は自動的に計算されます。

HTTP 状態コード

各応答の HTTP 状態コードは、成功または一般的なエラーを示します。

HTTP 状態コード	説明	考えられる理由
200	OK	要求は成功しました。応答本文は、オーディオファイルです。
400	正しくない要求	必須パラメーターが指定されていない、空、または null です。または、必須またはオプションのパラメーターに渡された値が無効です。よくある原因は、長すぎるヘッダーです。
401	権限がありません	要求は承認されません。 Speech リソースキーまたはトークンが有効であり、正しいリージョンにあることを確認してください。
415	メディアの種類がサポートされていません	間違った `Content-Type` 値が指定された可能性があります。 `Content-Type` は `application/ssml+xml` に設定する必要があります。
429	Too many requests	リソースに対して許可されている要求のクォータまたはレートを超えました。
502	Bad gateway	ネットワークまたはサーバー側に問題があります。この状態は、無効なヘッダーを示している可能性もあります。
503	サービス利用不可	さまざまな理由でサーバー側の問題があります。

HTTP ステータスが 200 OK の場合、応答の本文には要求された形式のオーディオファイルが含まれています。このファイルは、転送と同時に再生することも、バッファーまたはファイルに保存することもできます。

オーディオ出力

サポートされているストリーミングおよび非ストリーミングオーディオ形式は、各要求で X-Microsoft-OutputFormat ヘッダーとして送信されます。各形式には、ビットレートとエンコードの種類が組み込まれています。音声サービスでは、48 kHz、24 kHz、16 kHz、および 8 kHz のオーディオ出力がサポートされます。事前構築済みの各ニューラル音声モデルは、24kHz および高忠実度の 48kHz で利用できます。

ストリーミング
非ストリーミング

amr-wb-16000hz
audio-16khz-16bit-32kbps-mono-opus
audio-16khz-32kbitrate-mono-mp3
audio-16khz-64kbitrate-mono-mp3
audio-16khz-128kbitrate-mono-mp3
audio-24khz-16bit-24kbps-mono-opus
audio-24khz-16bit-48kbps-mono-opus
audio-24khz-48kbitrate-mono-mp3
audio-24khz-96kbitrate-mono-mp3
audio-24khz-160kbitrate-mono-mp3
audio-48khz-96kbitrate-mono-mp3
audio-48khz-192kbitrate-mono-mp3
g722-16khz-64kbps
ogg-16khz-16bit-mono-opus
ogg-24khz-16bit-mono-opus
ogg-48khz-16bit-mono-opus
raw-8khz-8bit-mono-alaw
raw-8khz-8bit-mono-mulaw
raw-8khz-16bit-mono-pcm
raw-16khz-16bit-mono-pcm
raw-16khz-16bit-mono-truesilk
raw-22050hz-16bit-mono-pcm
raw-24khz-16bit-mono-pcm
raw-24khz-16bit-mono-truesilk
raw-44100hz-16bit-mono-pcm
raw-48khz-16bit-mono-pcm
webm-16khz-16bit-mono-opus
webm-24khz-16bit-24kbps-mono-opus
webm-24khz-16bit-mono-opus

riff-8khz-8bit-mono-alaw
riff-8khz-8bit-mono-mulaw
riff-8khz-16bit-mono-pcm
riff-22050hz-16bit-mono-pcm
riff-24khz-16bit-mono-pcm
riff-44100hz-16bit-mono-pcm
riff-48khz-16bit-mono-pcm

Note

48kHz 出力形式を選択した場合は、それに応じて 48kHz の高忠実度音声モデルが呼び出されます。 24kHz と 48kHz 以外のサンプルレートは、44.1kHz が 48kHz からダウンサンプリングされるなど、合成時にアップサンプリングまたはダウンサンプリングを通じて得ることができます。

選択した音声と出力形式のビットレートが異なる場合、オーディオは必要に応じて再サンプリングされます。 ogg-24khz-16bit-mono-opus 形式は、Opus コーデックを使用してデコードできます。

認証

各要求には Authorization ヘッダーが必要です。次の表は、各機能でサポートされているヘッダーを示したものです。

サポートされている Authorization ヘッダー	音声テキスト変換	テキストを音声に変換する
`Ocp-Apim-Subscription-Key`	はい	はい
`Authorization: Bearer`	はい	はい

Ocp-Apim-Subscription-Key ヘッダーを使用している場合は、リソースキーのみを指定する必要があります。次に例を示します。

'Ocp-Apim-Subscription-Key': 'YOUR_SUBSCRIPTION_KEY'

Authorization: Bearer ヘッダーを使用している場合は、issueToken エンドポイントに要求を行う必要があります。この要求では、リソースキーを、10 分間有効なアクセストークンと交換します。

もう 1 つのオプションは、 Authorization: Bearer ヘッダーも使用するが、Microsoft Entra ID を介して発行されたトークンを使用する Microsoft Entra 認証を使用することです。「 Microsoft Entra 認証を使用する」を参照してください。

アクセストークンを取得する方法

アクセストークンを取得するには、Ocp-Apim-Subscription-Key とリソースキーを使用して、issueToken エンドポイントに対して要求を実行する必要があります。

issueToken エンドポイントの形式は次のとおりです。

https://<REGION_IDENTIFIER>.api.cognitive.microsoft.com/sts/v1.0/issueToken

ご利用のサブスクリプションのリージョンと一致する識別子で <REGION_IDENTIFIER> を置き換えてください。

アクセストークン要求の作成にあたっては、以下のサンプルを使用してください。

HTTP のサンプル

この例は、トークンを取得するための単純な HTTP 要求です。 YOUR_SUBSCRIPTION_KEY は、お使いの Azure Cognitive Service for Speech サービスのリソースキーに置き換えてください。お使いのサブスクリプションが米国西部リージョンにない場合は、Host ヘッダーをご自身のリージョンのホスト名に置き換えます。

POST /sts/v1.0/issueToken HTTP/1.1
Ocp-Apim-Subscription-Key: YOUR_SUBSCRIPTION_KEY
Host: eastus.api.cognitive.microsoft.com
Content-type: application/x-www-form-urlencoded
Content-Length: 0

応答の本文には、JSON Web トークン (JWT) 形式のアクセストークンが格納されます。

PowerShell のサンプル

この例は、アクセストークンを取得するための単純な PowerShell スクリプトです。 YOUR_SUBSCRIPTION_KEY は、お使いの Azure Cognitive Service for Speech サービスのリソースキーに置き換えてください。必ず、実際のサブスクリプションに合ったリージョンの正しいエンドポイントを使用してください。この例では現在、米国西部に設定されています。

$FetchTokenHeader = @{
  'Content-type'='application/x-www-form-urlencoded';
  'Content-Length'= '0';
  'Ocp-Apim-Subscription-Key' = 'YOUR_SUBSCRIPTION_KEY'
}

$OAuthToken = Invoke-RestMethod -Method POST -Uri https://eastus.api.cognitive.microsoft.com/sts/v1.0/issueToken
 -Headers $FetchTokenHeader

# show the token received
$OAuthToken

cURL のサンプル

cURL は Linux (および Windows Subsystem for Linux) で使用できるコマンドラインツールです。この cURL コマンドは、アクセストークンを取得する方法を示しています。 YOUR_SUBSCRIPTION_KEY は、お使いの Azure Cognitive Service for Speech サービスのリソースキーに置き換えてください。必ず、実際のサブスクリプションに合ったリージョンの正しいエンドポイントを使用してください。この例では現在、米国西部に設定されています。

curl -v -X POST \
 "https://eastus.api.cognitive.microsoft.com/sts/v1.0/issueToken" \
 -H "Content-type: application/x-www-form-urlencoded" \
 -H "Content-Length: 0" \
 -H "Ocp-Apim-Subscription-Key: YOUR_SUBSCRIPTION_KEY"

C# のサンプル

この C# クラスは、アクセストークンを取得する方法を示しています。クラスをインスタンス化するときに、お使いの Azure Cognitive Service for Speech サービスのリソースキーを渡す必要があります。お使いのサブスクリプションが米国西部リージョンにない場合は、実際のサブスクリプションのリージョンに合わせて FetchTokenUri の値を変更してください。

public class Authentication
{
    public static readonly string FetchTokenUri =
        "https://eastus.api.cognitive.microsoft.com/sts/v1.0/issueToken";
    private string subscriptionKey;
    private string token;

    public Authentication(string subscriptionKey)
    {
        this.subscriptionKey = subscriptionKey;
        this.token = FetchTokenAsync(FetchTokenUri, subscriptionKey).Result;
    }

    public string GetAccessToken()
    {
        return this.token;
    }

    private async Task<string> FetchTokenAsync(string fetchUri, string subscriptionKey)
    {
        using (var client = new HttpClient())
        {
            client.DefaultRequestHeaders.Add("Ocp-Apim-Subscription-Key", subscriptionKey);
            UriBuilder uriBuilder = new UriBuilder(fetchUri);

            var result = await client.PostAsync(uriBuilder.Uri.AbsoluteUri, null);
            Console.WriteLine("Token Uri: {0}", uriBuilder.Uri.AbsoluteUri);
            return await result.Content.ReadAsStringAsync();
        }
    }
}

Python のサンプル

# Request module must be installed.
# Run pip install requests if necessary.
import requests

subscription_key = 'REPLACE_WITH_YOUR_KEY'


def get_token(subscription_key):
    fetch_token_url = 'https://eastus.api.cognitive.microsoft.com/sts/v1.0/issueToken'
    headers = {
        'Ocp-Apim-Subscription-Key': subscription_key
    }
    response = requests.post(fetch_token_url, headers=headers)
    access_token = str(response.text)
    print(access_token)

アクセストークンを使用する方法

このサービスには、アクセストークンを Authorization: Bearer <TOKEN> ヘッダーとして送信する必要があります。各アクセストークンは 10 分間有効です。新しいトークンはいつでも取得できますが、ネットワークのトラフィックと待機時間を最小限に抑えるために、同じトークンを 9 分間使用することをお勧めします。

次の例では、Speech to text REST API for short audio への HTTP 要求を示します。

POST /cognitiveservices/v1 HTTP/1.1
Authorization: Bearer YOUR_ACCESS_TOKEN
Host: westus.stt.speech.microsoft.com
Content-type: application/ssml+xml
Content-Length: 199
Connection: Keep-Alive

// Message body here...

Microsoft Entra 認証を使用する

短いオーディオ用の Speech to text REST API で Microsoft Entra 認証を使用するには、アクセストークンを作成する必要があります。リソース ID と Microsoft Entra アクセストークンで構成されるアクセストークンを取得する手順は、Speech SDK を使用する場合と同じです。 Microsoft Entra 認証を使用する手順に従います

Speech リソースを作成する
Microsoft Entra 認証の Speech リソースを構成する
Microsoft Entra トークンを取得する
Speech リソース ID を取得する

リソース ID と Microsoft Entra アクセストークンを取得した後は、次の形式で実際のアクセストークンを構築できます。

aad#YOUR_RESOURCE_ID#YOUR_MICROSOFT_ENTRA_ACCESS_TOKEN

リソース ID とアクセストークンの間に"aad#" プレフィックスと "#" (ハッシュ) 区切り記号を含める必要があります。

次の例では、Speech to text REST API for short audio への HTTP 要求を示します。

POST /cognitiveservices/v1 HTTP/1.1
Authorization: Bearer YOUR_ACCESS_TOKEN
Host: westus.stt.speech.microsoft.com
Content-type: application/ssml+xml
Content-Length: 199
Connection: Keep-Alive

// Message body here...

トークンの有効期間など、Microsoft Entra アクセストークンの詳細については、「Microsoft ID プラットフォームのアクセストークン」を参照してください。

次の方法で共有

Text to Speech REST API

音声の一覧を取得する

要求ヘッダー

要求本文

要求のサンプル

応答のサンプル

HTTP 状態コード

テキストを音声に変換する

リージョンとエンドポイント

あらかじめ構築されたニューラル音声

カスタムニューラル音声

Long Audio API

要求ヘッダー

要求本文

要求のサンプル

HTTP 状態コード

オーディオ出力

認証

アクセストークンを取得する方法

HTTP のサンプル

PowerShell のサンプル

cURL のサンプル

C# のサンプル

Python のサンプル

アクセストークンを使用する方法

Microsoft Entra 認証を使用する

次のステップ

フィードバック

その他のリソース

次の方法で共有

Text to Speech REST API

音声の一覧を取得する

要求ヘッダー

要求本文

要求のサンプル

応答のサンプル

HTTP 状態コード

テキストを音声に変換する

リージョンとエンドポイント

あらかじめ構築されたニューラル音声

カスタム ニューラル音声

Long Audio API

要求ヘッダー

要求本文

要求のサンプル

HTTP 状態コード

オーディオ出力

認証

アクセス トークンを取得する方法

HTTP のサンプル

PowerShell のサンプル

cURL のサンプル

C# のサンプル

Python のサンプル

アクセス トークンを使用する方法

Microsoft Entra 認証を使用する

次のステップ

フィードバック

その他のリソース

カスタムニューラル音声

アクセストークンを取得する方法

アクセストークンを使用する方法