Azure Batch Speech-to-text
100 以上の言語とそのバリエーションで音声をテキストに正確に転写します。 Azure AI Speech サービスの一部として、Batch Transcription を使用すると、ストレージ内の大量の音声を文字に起こすことができます。 Shared Access Signature (SAS) URI を使用してオーディオ ファイルを指定し、文字起こし結果を非同期的に受信できます。
このコネクタは、次の製品および地域で利用可能です:
サービス | クラス | 地域 |
---|---|---|
Logic Apps | 標準 | 以下を除くすべての Logic Apps 地域 : - Azure China の地域 |
Power Automate | 標準 | 以下を除くすべての Power Automate 地域 : - 21 Vianet が運用する中国のクラウド |
Power Apps | 標準 | 以下を除くすべての Power Apps 地域 : - 21 Vianet が運用する中国のクラウド |
お問い合わせ先 | |
---|---|
件名 | 読み上げサービス Power Platform チーム |
[URL] | https://docs.microsoft.com/azure/cognitive-services/speech-service/support |
メール | speechpowerplatform@microsoft.com |
Connector Metadata | |
---|---|
発行者 | マイクロソフト |
Web サイト | https://docs.microsoft.com/azure/cognitive-services/speech-service/ |
プライバシー ポリシー | https://privacy.microsoft.com |
カテゴリー | AI、Web サイト |
Speech Services バッチ トランスクリプション API は、提供された音声コンテンツに対して一括で非同期処理を行う音声認識を提供するクラウドベースのサービスです。 このコネクタは、これらの機能を Microsoft Power Automate および Power Apps の操作として公開します。
前提条件
続行するには、次のものが必要です。
- Azure サブスクリプション - 無料で作成します
- Azure ポータルで、音声リソースを作成します。
- Speech リソース キーとリージョンを取得します。 Speech リソースがデプロイされたら、リソースに移動 を選択してキーを表示および管理します。 Cognitive Services リソースの詳細については、リソースのキーを取得するを参照してください。
- 独自のデータをアップロードするか、パブリック URI または 共有アクセス署名 (SAS) URI 経由で既存のオーディオ ファイルを使用します。 詳細はこちら
接続を作成する
このコネクタは、次の認証タイプをサポートしています:
API キー | ApiKey | すべての地域 | 共有可能 |
Azure AD 統合 | Azure Active Directory を使用して読み上げサービスにアクセスします。 | 米国政府 (GCC) のみ | 共有不可 |
Azure AD 統合 (Azure Government) | Azure Active Directory を使用して読み上げサービスにアクセスします。 | Azure Government と米国政府 (GCC-High) のみに含まれる Azure Government と国防総省 (DOD) | 共有不可 |
Microsoft Entra ID 統合 | Microsoft Entra ID を使用してスピーチ サービスにアクセスします。 | Azure Government、米国政府 (GCC)、米国政府 (GCC-High) における Azure Government と国防総省 (DoD) を除くすべての地域 | 共有不可 |
既定 [非推奨] | このオプションは、明示的な認証の種類を持たない古い接続専用に対してのみ使用され、下位互換性を保つためにのみ提供されます。 | すべての地域 | 共有不可 |
API キー
認証 ID: keyBasedAuth
適用できるもの: すべての領域
ApiKey
これは共有可能な接続です。 Power App が他のユーザーと共有されている場合、接続も共有されます。 詳細については、キャンバス アプリのコネクタの概要 - Power Apps | Microsoft Docs を参照してください
件名 | タイプ | Description | Required |
---|---|---|---|
アカウント キー | securestring | 読み上げサービス キー | True |
Region | string | 音声サービス地域 (例: eastus) | True |
Azure AD 統合
Auth ID: tokenBasedAuth
該当するもの: 米国政府 (GCC) のみ
Azure Active Directory を使用して読み上げサービスにアクセスします。
これは共有可能な接続ではありません。 Power App が別のユーザーと共有されている場合、別のユーザーは新しい接続を明示的に作成するように求められます。
件名 | タイプ | Description | Required |
---|---|---|---|
カスタム サブドメイン | string | カスタム サブドメイン エンドポイント URL (例: contoso) | True |
Azure AD 統合 (Azure Government)
Auth ID: tokenBasedAuth
適用可能: Azure Government と米国政府 (GCC-High) のみに含まれる Azure Government と国防総省 (DOD)
Azure Active Directory を使用して読み上げサービスにアクセスします。
これは共有可能な接続ではありません。 Power App が別のユーザーと共有されている場合、別のユーザーは新しい接続を明示的に作成するように求められます。
件名 | タイプ | Description | Required |
---|---|---|---|
カスタム サブドメイン | string | カスタム サブドメイン エンドポイント URL (例: contoso) | True |
Microsoft Entra ID 統合
Auth ID: tokenBasedAuth
適用可能: Azure Government、米国政府 (GCC)、米国政府 (GCC-High) における Azure Government と国防総省 (DoD) を除くすべての地域
Microsoft Entra ID を使用してスピーチ サービスにアクセスします。
これは共有可能な接続ではありません。 Power App が別のユーザーと共有されている場合、別のユーザーは新しい接続を明示的に作成するように求められます。
件名 | タイプ | Description | Required |
---|---|---|---|
カスタム サブドメイン | string | カスタム サブドメイン エンドポイント URL (例: contoso) | True |
既定 [非推奨]
適用可能: すべての領域
このオプションは、明示的な認証の種類を持たない古い接続専用に対してのみ使用され、下位互換性を保つためにのみ提供されます。
これは共有可能な接続ではありません。 Power App が別のユーザーと共有されている場合、別のユーザーは新しい接続を明示的に作成するように求められます。
件名 | タイプ | Description | Required |
---|---|---|---|
アカウント キー | securestring | Azure Cognitive Services for Batch Speech-to-text アカウント キー | True |
Region | string | 音声サービス地域 (例: eastus) | True |
調整制限
名前 | 呼び出し | 更新期間 |
---|---|---|
接続ごとの API 呼び出し | 100 | 60 秒 |
アクション
サポートされているロケールを取得する (V3.1) |
オフライン トランスクリプションのサポートされているロケールの一覧を取得します。 |
トランスクリプション ファイルを取得する (V3.1) |
トランスクリプション (ID で 識別) から 1 つの特定のファイル (fileId で識別) を取得します。 |
トランスクリプションを作成する (V3.1) |
新しいトランスクリプションを作成します。 |
トランスクリプションを削除する (V3.1) |
指定されたトランスクリプション タスクを削除します。 |
トランスクリプションを取得する (V3.1) |
指定された ID で識別されるトランスクリプションを取得します。 |
トランスクリプションを更新する (V3.1) |
ID で識別されるトランスクリプションの変更可能な詳細を更新します。 |
トランスクリプション一覧を取得する (V3.1) |
認証されたサブスクリプションに対するトランスクリプションの一覧を取得します。 |
トランスクリプション一覧ファイルを取得する (V3.1) |
指定された ID で識別されるトランスクリプションのファイルを取得します。 |
サポートされているロケールを取得する (V3.1)
オフライン トランスクリプションのサポートされているロケールの一覧を取得します。
戻り値
名前 | パス | 型 | 説明 |
---|---|---|---|
|
array of string |
トランスクリプション ファイルを取得する (V3.1)
トランスクリプション (ID で 識別) から 1 つの特定のファイル (fileId で識別) を取得します。
パラメーター
名前 | キー | 必須 | 型 | 説明 |
---|---|---|---|---|
Id
|
id | True | uuid |
トランスクリプションの識別子。 |
ファイル Id
|
fileId | True | uuid |
ファイルの識別子。 |
秒単位での SAS の有効性
|
sasValidityInSeconds | integer |
SAS URL が有効である必要がある期間 (秒単位)。 既定の期間は 12 時間です。 BYOS を使用する場合 (https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/speech-encryption-of-data-at-rest#bring-your-own-storage-byos-for-customization-and-logging): 値 0 は、SAS トークンのないプレーンな BLOB URI が生成されることを意味します。 |
戻り値
- Body
- File
トランスクリプションを作成する (V3.1)
新しいトランスクリプションを作成します。
パラメーター
名前 | キー | 必須 | 型 | 説明 |
---|---|---|---|---|
contentUrls
|
contentUrls | array of uri |
文字起こしする音声ファイルを取得するためのコンテンツ URL の一覧を提供します。 最大 1000 URL が許可されます。このプロパティは応答では返されません。 |
|
contentContainerUrl
|
contentContainerUrl | uri |
または、オーディオ ファイルを含む Azure BLOB コンテナーの URL を提供できます。 コンテナーには、最大サイズ 5 GB と最大数 10000 の BLOB を含めることができます。BLOB の最大サイズは 2.5 GB です。コンテナー SAS には、'r' (読み取り) および 'l' (一覧) のアクセス許可が含まれている必要があります。このプロパティは応答では返されません。 |
|
locale
|
locale | True | string |
含まれるデータのロケール。 言語識別が使用されている場合、このロケールは、言語を検出できなかった音声の書き起こしに使用されます。 |
displayName
|
displayName | True | string |
オブジェクトの表示名。 |
モデル
|
self | uri |
参照先エンティティの場所。 |
|
diarizationEnabled
|
diarizationEnabled | boolean |
ダイアライゼーション (話者識別) が要求されているかどうかを示す値。 既定値は |
|
wordLevelTimestampsEnabled
|
wordLevelTimestampsEnabled | boolean |
単語レベルのタイムスタンプが要求されているかどうかを示す値。 既定値は |
|
displayFormWordLevelTimestampsEnabled
|
displayFormWordLevelTimestampsEnabled | boolean |
表示フォームの単語レベルのタイムスタンプが要求されているかどうかを示す値。 既定値は |
|
channels
|
channels | array of integer |
要求されたチャネルのコレクション数。既定ケースでは、チャネル 0 と 1 が考慮されます。 |
|
destinationContainerUrl
|
destinationContainerUrl | uri |
要求された送信先コンテナー。### 備考 ### 送信先コンテナーを |
|
punctuationMode
|
punctuationMode | string |
句読点に使用されるモード。 |
|
profanityFilterMode
|
profanityFilterMode | string |
不適切なフィルター処理のモード。 |
|
timeToLive
|
timeToLive | string |
トランスクリプションが完了後のシステム保存期間。 トランスクリプションが完了 (成功または失敗) 後に有効期限に達すると、トランスクリプションは自動的に削除されます。 この値を設定しないか、0 に設定すると、自動削除が無効になります。 サポートされている最長期間は 31 日間です。期間は ISO 8601 期間 ("PnYnMnDTnHnMnS"、参照: https://en.wikipedia.org/wiki/ISO_8601#Durations) としてエンコードされます。 |
|
minCount
|
minCount | integer |
ダイアライゼーションの最小話者数のヒント。 maxSpeakers プロパティの値以下である必要があります。 |
|
maxCount
|
maxCount | integer |
ダイアライゼーションの最大話者数。 値は 36 未満、minSpeakers プロパティ以上である必要があります。 |
|
candidateLocales
|
candidateLocales | True | array of string |
言語識別の候補ロケール (例 ["en-US"、"de-DE"、"es-ES"])。 トランスクリプションの主要ロケールを含め、最小 2 から最大 10 の候補ロケールがサポートされています。 |
speechModelMapping
|
speechModelMapping | object |
音声モデル エンティティへのロケールのオプション マッピング。 ロケールのモデルが指定されていない場合、既定の基本モデルが使用されます。キーは候補ロケールに含まれるロケールでなければならず、値はそれぞれのロケールのモデルのエンティティです。 |
|
メールアドレス
|
string |
操作が完了した場合に、電子メール通知を送信する電子メール アドレス。電子メールが正常に送信された後、値は削除されます。 |
戻り値
- Body
- Transcription
トランスクリプションを削除する (V3.1)
指定されたトランスクリプション タスクを削除します。
パラメーター
名前 | キー | 必須 | 型 | 説明 |
---|---|---|---|---|
Id
|
id | True | uuid |
トランスクリプションの識別子。 |
トランスクリプションを取得する (V3.1)
指定された ID で識別されるトランスクリプションを取得します。
パラメーター
名前 | キー | 必須 | 型 | 説明 |
---|---|---|---|---|
Id
|
id | True | uuid |
トランスクリプションの識別子。 |
戻り値
- Body
- Transcription
トランスクリプションを更新する (V3.1)
ID で識別されるトランスクリプションの変更可能な詳細を更新します。
パラメーター
名前 | キー | 必須 | 型 | 説明 |
---|---|---|---|---|
Id
|
id | True | uuid |
トランスクリプションの識別子。 |
self
|
self | True | uri |
参照先エンティティの場所。 |
displayName
|
displayName | string |
オブジェクトの名前。 |
|
description
|
description | string |
オブジェクトの説明。 |
|
customProperties
|
customProperties | object |
このエンティティのカスタム プロパティ。 許可されるキーの最大長は 64 文字、値の最大長は 256 文字、許容エントリの数は 10 です。 |
戻り値
- Body
- Transcription
トランスクリプション一覧を取得する (V3.1)
認証されたサブスクリプションに対するトランスクリプションの一覧を取得します。
パラメーター
名前 | キー | 必須 | 型 | 説明 |
---|---|---|---|---|
Skip
|
skip | integer |
スキップされるデータセットの数。 |
|
上
|
top | integer |
スキップ後に含まれるデータセットの数。 |
|
フィルター
|
filter | string |
使用可能なトランスクリプションのサブセットを選択するためのフィルター式。
|
戻り値
トランスクリプション一覧ファイルを取得する (V3.1)
指定された ID で識別されるトランスクリプションのファイルを取得します。
パラメーター
名前 | キー | 必須 | 型 | 説明 |
---|---|---|---|---|
Id
|
id | True | uuid |
トランスクリプションの識別子。 |
秒単位での SAS の有効性
|
sasValidityInSeconds | integer |
SAS URL が有効である必要がある期間 (秒単位)。 既定の期間は 12 時間です。 BYOS を使用する場合 (https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/speech-encryption-of-data-at-rest#bring-your-own-storage-byos-for-customization-and-logging): 値 0 は、SAS トークンのないプレーンな BLOB URI が生成されることを意味します。 |
|
Skip
|
skip | integer |
スキップされるデータセットの数。 |
|
上
|
top | integer |
スキップ後に含まれるデータセットの数。 |
|
フィルター
|
filter | string |
使用可能なファイルのサブセットを選択するためのフィルター式。
|
戻り値
- Body
- PaginatedFiles
定義
DiarizationProperties
名前 | パス | 型 | 説明 |
---|---|---|---|
speakers
|
speakers | DiarizationSpeakersProperties |
DiarizationSpeakersProperties
名前 | パス | 型 | 説明 |
---|---|---|---|
minCount
|
minCount | integer |
ダイアライゼーションの最小話者数のヒント。 maxSpeakers プロパティの値以下である必要があります。 |
maxCount
|
maxCount | integer |
ダイアライゼーションの最大話者数。 値は 36 未満、minSpeakers プロパティ以上である必要があります。 |
File
名前 | パス | 型 | 説明 |
---|---|---|---|
kind
|
kind | FileKind |
データの種類。 |
links
|
links | FileLinks | |
createdDateTime
|
createdDateTime | date-time |
このファイルの作成時刻。タイム スタンプは、ISO 8601 の日付と時刻の形式 (参照:https://en.wikipedia.org/wiki/ISO_8601#Combined_date_and_time_representations) としてエンコードされます。 |
properties
|
properties | FileProperties | |
名称
|
name | string |
このファイルの名前。 |
FileKind
FileLinks
名前 | パス | 型 | 説明 |
---|---|---|---|
contentUrl
|
contentUrl | uri |
このファイルのコンテンツを取得するための URL。 |
FileProperties
名前 | パス | 型 | 説明 |
---|---|---|---|
size
|
size | integer |
データのサイズ (バイト数)。 |
duration
|
duration | string |
このファイルがオーディオ ファイルである場合の期間。 期間は、ISO 8601 期間 ("PnYnMnDTnHnMnS"、参照: https://en.wikipedia.org/wiki/ISO_8601#Durations) としてエンコードされます。 |
LanguageIdentificationProperties
名前 | パス | 型 | 説明 |
---|---|---|---|
candidateLocales
|
candidateLocales | array of string |
言語識別の候補ロケール (例 ["en-US"、"de-DE"、"es-ES"])。 トランスクリプションの主要ロケールを含め、最小 2 から最大 10 の候補ロケールがサポートされています。 |
speechModelMapping
|
speechModelMapping | object |
音声モデル エンティティへのロケールのオプション マッピング。 ロケールのモデルが指定されていない場合、既定の基本モデルが使用されます。キーは候補ロケールに含まれるロケールでなければならず、値はそれぞれのロケールのモデルのエンティティです。 |
PaginatedFiles
名前 | パス | 型 | 説明 |
---|---|---|---|
values
|
values | array of File |
渡されたクエリ パラメーター 'skip' および 'top' またはそれらの既定値によって制限されたエンティティの一覧。 ページ分割を使用して一覧を反復処理し、エンティティを並行して削除する場合、一部のエンティティが結果にスキップされます。クライアントでリストを構築し、完全なリストを取得した後に削除することをお勧めします。 |
@nextLink
|
@nextLink | uri |
使用可能なエンティティが他にもある場合の、ページ分割された次の結果セットへのリンク。それ以外の場合は null。 |
PaginatedTranscriptions
名前 | パス | 型 | 説明 |
---|---|---|---|
values
|
values | array of Transcription |
渡されたクエリ パラメーター 'skip' および 'top' またはそれらの既定値によって制限されたエンティティの一覧。 ページ分割を使用して一覧を反復処理し、エンティティを並行して削除する場合、一部のエンティティが結果にスキップされます。クライアントでリストを構築し、完全なリストを取得した後に削除することをお勧めします。 |
@nextLink
|
@nextLink | uri |
使用可能なエンティティが他にもある場合の、ページ分割された次の結果セットへのリンク。それ以外の場合は null。 |
ProfanityFilterMode
PunctuationMode
文字起こし
名前 | パス | 型 | 説明 |
---|---|---|---|
contentUrls
|
contentUrls | array of uri |
文字起こしする音声ファイルを取得するためのコンテンツ URL の一覧を提供します。 最大 1000 URL が許可されます。このプロパティは応答では返されません。 |
contentContainerUrl
|
contentContainerUrl | uri |
または、オーディオ ファイルを含む Azure BLOB コンテナーの URL を提供できます。 コンテナーには、最大サイズ 5 GB と最大数 10000 の BLOB を含めることができます。BLOB の最大サイズは 2.5 GB です。コンテナー SAS には、'r' (読み取り) および 'l' (一覧) のアクセス許可が含まれている必要があります。このプロパティは応答では返されません。 |
locale
|
locale | string |
含まれるデータのロケール。 言語識別が使用されている場合、このロケールは、言語を検出できなかった音声の書き起こしに使用されます。 |
displayName
|
displayName | string |
オブジェクトの表示名。 |
モデル
|
model.self | uri |
参照先エンティティの場所。 |
properties
|
properties | TranscriptionProperties |
TranscriptionProperties
名前 | パス | 型 | 説明 |
---|---|---|---|
diarizationEnabled
|
diarizationEnabled | boolean |
ダイアライゼーション (話者識別) が要求されているかどうかを示す値。 既定値は |
wordLevelTimestampsEnabled
|
wordLevelTimestampsEnabled | boolean |
単語レベルのタイムスタンプが要求されているかどうかを示す値。 既定値は |
displayFormWordLevelTimestampsEnabled
|
displayFormWordLevelTimestampsEnabled | boolean |
表示フォームの単語レベルのタイムスタンプが要求されているかどうかを示す値。 既定値は |
channels
|
channels | array of integer |
要求されたチャネルのコレクション数。既定ケースでは、チャネル 0 と 1 が考慮されます。 |
destinationContainerUrl
|
destinationContainerUrl | uri |
要求された送信先コンテナー。### 備考 ### 送信先コンテナーを |
punctuationMode
|
punctuationMode | PunctuationMode |
句読点に使用されるモード。 |
profanityFilterMode
|
profanityFilterMode | ProfanityFilterMode |
不適切なフィルター処理のモード。 |
timeToLive
|
timeToLive | string |
トランスクリプションが完了後のシステム保存期間。 トランスクリプションが完了 (成功または失敗) 後に有効期限に達すると、トランスクリプションは自動的に削除されます。 この値を設定しないか、0 に設定すると、自動削除が無効になります。 サポートされている最長期間は 31 日間です。期間は ISO 8601 期間 ("PnYnMnDTnHnMnS"、参照: https://en.wikipedia.org/wiki/ISO_8601#Durations) としてエンコードされます。 |
diarization
|
diarization | DiarizationProperties | |
言語識別 -
|
languageIdentification | LanguageIdentificationProperties | |
メールアドレス
|
string |
操作が完了した場合に、電子メール通知を送信する電子メール アドレス。電子メールが正常に送信された後、値は削除されます。 |