Azure Batch Speech-to-text

リファレンス

100 以上の言語とそのバリエーションで音声をテキストに正確に転写します。 Azure AI Speech サービスの一部として、Batch Transcription を使用すると、ストレージ内の大量の音声を文字に起こすことができます。 Shared Access Signature (SAS) URI を使用してオーディオファイルを指定し、文字起こし結果を非同期的に受信できます。

このコネクタは、次の製品および地域で利用可能です:

サービス	クラス	地域
Logic Apps	標準	以下を除くすべての Logic Apps 地域 : - Azure China の地域
Power Automate	標準	以下を除くすべての Power Automate 地域 : - 21 Vianet が運用する中国のクラウド
Power Apps	標準	以下を除くすべての Power Apps 地域 : - 21 Vianet が運用する中国のクラウド

お問い合わせ先
件名	読み上げサービス Power Platform チーム
[URL]	https://docs.microsoft.com/azure/cognitive-services/speech-service/support
メール	speechpowerplatform@microsoft.com

Connector Metadata
発行者	マイクロソフト
Web サイト	https://docs.microsoft.com/azure/cognitive-services/speech-service/
プライバシーポリシー	https://privacy.microsoft.com
カテゴリー	AI、Web サイト

Speech Services バッチトランスクリプション API は、提供された音声コンテンツに対して一括で非同期処理を行う音声認識を提供するクラウドベースのサービスです。このコネクタは、これらの機能を Microsoft Power Automate および Power Apps の操作として公開します。

前提条件

続行するには、次のものが必要です。

Azure サブスクリプション - 無料で作成します
Azure ポータルで、音声リソースを作成します。
Speech リソースキーとリージョンを取得します。 Speech リソースがデプロイされたら、リソースに移動 を選択してキーを表示および管理します。 Cognitive Services リソースの詳細については、リソースのキーを取得するを参照してください。
独自のデータをアップロードするか、パブリック URI または共有アクセス署名 (SAS) URI 経由で既存のオーディオファイルを使用します。詳細はこちら

接続を作成する

このコネクタは、次の認証タイプをサポートしています:


API キー	ApiKey	すべての地域	共有可能
Azure AD 統合	Azure Active Directory を使用して読み上げサービスにアクセスします。	米国政府 (GCC) のみ	共有不可
Azure AD 統合 (Azure Government)	Azure Active Directory を使用して読み上げサービスにアクセスします。	Azure Government と米国政府 (GCC-High) のみに含まれる Azure Government と国防総省 (DOD)	共有不可
Microsoft Entra ID 統合	Microsoft Entra ID を使用してスピーチサービスにアクセスします。	Azure Government、米国政府 (GCC)、米国政府 (GCC-High) における Azure Government と国防総省 (DoD) を除くすべての地域	共有不可
既定 [非推奨]	このオプションは、明示的な認証の種類を持たない古い接続専用に対してのみ使用され、下位互換性を保つためにのみ提供されます。	すべての地域	共有不可

API キー

認証 ID: keyBasedAuth

適用できるもの: すべての領域

ApiKey

これは共有可能な接続です。 Power App が他のユーザーと共有されている場合、接続も共有されます。詳細については、キャンバスアプリのコネクタの概要 - Power Apps | Microsoft Docs を参照してください

件名	タイプ	Description	Required
アカウントキー	securestring	読み上げサービスキー	True
Region	string	音声サービス地域 (例: eastus)	True

Azure AD 統合

Auth ID: tokenBasedAuth

該当するもの: 米国政府 (GCC) のみ

Azure Active Directory を使用して読み上げサービスにアクセスします。

これは共有可能な接続ではありません。 Power App が別のユーザーと共有されている場合、別のユーザーは新しい接続を明示的に作成するように求められます。

件名	タイプ	Description	Required
カスタムサブドメイン	string	カスタムサブドメインエンドポイント URL (例: contoso)	True

Azure AD 統合 (Azure Government)

Auth ID: tokenBasedAuth

適用可能: Azure Government と米国政府 (GCC-High) のみに含まれる Azure Government と国防総省 (DOD)

Azure Active Directory を使用して読み上げサービスにアクセスします。

件名	タイプ	Description	Required
カスタムサブドメイン	string	カスタムサブドメインエンドポイント URL (例: contoso)	True

Microsoft Entra ID 統合

Auth ID: tokenBasedAuth

適用可能: Azure Government、米国政府 (GCC)、米国政府 (GCC-High) における Azure Government と国防総省 (DoD) を除くすべての地域

Microsoft Entra ID を使用してスピーチサービスにアクセスします。

件名	タイプ	Description	Required
カスタムサブドメイン	string	カスタムサブドメインエンドポイント URL (例: contoso)	True

既定 [非推奨]

適用可能: すべての領域

このオプションは、明示的な認証の種類を持たない古い接続専用に対してのみ使用され、下位互換性を保つためにのみ提供されます。

件名	タイプ	Description	Required
アカウントキー	securestring	Azure Cognitive Services for Batch Speech-to-text アカウントキー	True
Region	string	音声サービス地域 (例: eastus)	True

調整制限

名前	呼び出し	更新期間
接続ごとの API 呼び出し	100	60 秒

アクション

サポートされているロケールを取得する (V3.1)	オフライントランスクリプションのサポートされているロケールの一覧を取得します。
トランスクリプションファイルを取得する (V3.1)	トランスクリプション (ID で識別) から 1 つの特定のファイル (fileId で識別) を取得します。
トランスクリプションを作成する (V3.1)	新しいトランスクリプションを作成します。
トランスクリプションを削除する (V3.1)	指定されたトランスクリプションタスクを削除します。
トランスクリプションを取得する (V3.1)	指定された ID で識別されるトランスクリプションを取得します。
トランスクリプションを更新する (V3.1)	ID で識別されるトランスクリプションの変更可能な詳細を更新します。
トランスクリプション一覧を取得する (V3.1)	認証されたサブスクリプションに対するトランスクリプションの一覧を取得します。
トランスクリプション一覧ファイルを取得する (V3.1)	指定された ID で識別されるトランスクリプションのファイルを取得します。

サポートされているロケールを取得する (V3.1)

操作 ID:: SupportedTranscriptionLocalesList

オフライントランスクリプションのサポートされているロケールの一覧を取得します。

戻り値

名前	パス	型	説明
		array of string

トランスクリプションファイルを取得する (V3.1)

操作 ID:: GetTranscriptionsFile

トランスクリプション (ID で識別) から 1 つの特定のファイル (fileId で識別) を取得します。

パラメーター

名前	キー	必須	型	説明
Id	id	True	uuid	トランスクリプションの識別子。
ファイル Id	fileId	True	uuid	ファイルの識別子。
秒単位での SAS の有効性	sasValidityInSeconds		integer	SAS URL が有効である必要がある期間 (秒単位)。既定の期間は 12 時間です。 BYOS を使用する場合 (https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/speech-encryption-of-data-at-rest#bring-your-own-storage-byos-for-customization-and-logging): 値 0 は、SAS トークンのないプレーンな BLOB URI が生成されることを意味します。

戻り値

Body: File

トランスクリプションを作成する (V3.1)

操作 ID:: CreateTranscriptions

新しいトランスクリプションを作成します。

パラメーター

名前	キー	必須	型	説明
contentUrls	contentUrls		array of uri	文字起こしする音声ファイルを取得するためのコンテンツ URL の一覧を提供します。最大 1000 URL が許可されます。このプロパティは応答では返されません。
contentContainerUrl	contentContainerUrl		uri	または、オーディオファイルを含む Azure BLOB コンテナーの URL を提供できます。コンテナーには、最大サイズ 5 GB と最大数 10000 の BLOB を含めることができます。BLOB の最大サイズは 2.5 GB です。コンテナー SAS には、'r' (読み取り) および 'l' (一覧) のアクセス許可が含まれている必要があります。このプロパティは応答では返されません。
locale	locale	True	string	含まれるデータのロケール。言語識別が使用されている場合、このロケールは、言語を検出できなかった音声の書き起こしに使用されます。
displayName	displayName	True	string	オブジェクトの表示名。
モデル	self		uri	参照先エンティティの場所。
diarizationEnabled	diarizationEnabled		boolean	ダイアライゼーション (話者識別) が要求されているかどうかを示す値。既定値は `false` です。このフィールドのみが true に設定され、`DiarizationProperties` を指定して改良されたダイアライゼーションシステムが有効になっていない場合、基本的なダイアライゼーションシステムは最大 2 人の話者を区別します。この場合、追加料金はかかりません。改良されたダイアライゼーションシステムは、話者の構成可能な範囲のダイアライゼーションを提供します。 `DiarizationProperties` フィールドで構成することができます。非推奨: 基本的ダイアライゼーションシステムは非推奨であり、API の次のメジャーバージョンで `diarizationEnabled` 設定と共に削除されます。
wordLevelTimestampsEnabled	wordLevelTimestampsEnabled		boolean	単語レベルのタイムスタンプが要求されているかどうかを示す値。既定値は `false` です。
displayFormWordLevelTimestampsEnabled	displayFormWordLevelTimestampsEnabled		boolean	表示フォームの単語レベルのタイムスタンプが要求されているかどうかを示す値。既定値は `false` です。
channels	channels		array of integer	要求されたチャネルのコレクション数。既定ケースでは、チャネル 0 と 1 が考慮されます。
destinationContainerUrl	destinationContainerUrl		uri	要求された送信先コンテナー。### 備考 ### 送信先コンテナーを `timeToLive` と組み合わせて使用すると、通常トランスクリプションのメタデータは削除されますが、このコンテナーには削除権限が必要ないため、トランスクリプション結果を含む、送信先コンテナーに格納されたデータはそのまま残ります。自動クリーンアップをサポートするには、コンテナーで BLOB の有効期間を構成するか、BLOB をクリーンアップできる `destinationContainerUrl` の代わりに "Bring your own Storage (BYOS)" を使用します。
punctuationMode	punctuationMode		string	句読点に使用されるモード。
profanityFilterMode	profanityFilterMode		string	不適切なフィルター処理のモード。
timeToLive	timeToLive		string	トランスクリプションが完了後のシステム保存期間。トランスクリプションが完了 (成功または失敗) 後に有効期限に達すると、トランスクリプションは自動的に削除されます。この値を設定しないか、0 に設定すると、自動削除が無効になります。サポートされている最長期間は 31 日間です。期間は ISO 8601 期間 ("PnYnMnDTnHnMnS"、参照: https://en.wikipedia.org/wiki/ISO_8601#Durations) としてエンコードされます。
minCount	minCount		integer	ダイアライゼーションの最小話者数のヒント。 maxSpeakers プロパティの値以下である必要があります。
maxCount	maxCount		integer	ダイアライゼーションの最大話者数。値は 36 未満、minSpeakers プロパティ以上である必要があります。
candidateLocales	candidateLocales	True	array of string	言語識別の候補ロケール (例 ["en-US"、"de-DE"、"es-ES"])。トランスクリプションの主要ロケールを含め、最小 2 から最大 10 の候補ロケールがサポートされています。
speechModelMapping	speechModelMapping		object	音声モデルエンティティへのロケールのオプションマッピング。ロケールのモデルが指定されていない場合、既定の基本モデルが使用されます。キーは候補ロケールに含まれるロケールでなければならず、値はそれぞれのロケールのモデルのエンティティです。
メールアドレス	email		string	操作が完了した場合に、電子メール通知を送信する電子メールアドレス。電子メールが正常に送信された後、値は削除されます。

戻り値

Body: Transcription

トランスクリプションを削除する (V3.1)

操作 ID:: DeleteTranscriptions

指定されたトランスクリプションタスクを削除します。

パラメーター

名前	キー	必須	型	説明
Id	id	True	uuid	トランスクリプションの識別子。

トランスクリプションを取得する (V3.1)

操作 ID:: GetTranscriptions

指定された ID で識別されるトランスクリプションを取得します。

パラメーター

名前	キー	必須	型	説明
Id	id	True	uuid	トランスクリプションの識別子。

戻り値

Body: Transcription

トランスクリプションを更新する (V3.1)

操作 ID:: UpdateTranscriptions

ID で識別されるトランスクリプションの変更可能な詳細を更新します。

パラメーター

名前	キー	必須	型	説明
Id	id	True	uuid	トランスクリプションの識別子。
self	self	True	uri	参照先エンティティの場所。
displayName	displayName		string	オブジェクトの名前。
description	description		string	オブジェクトの説明。
customProperties	customProperties		object	このエンティティのカスタムプロパティ。許可されるキーの最大長は 64 文字、値の最大長は 256 文字、許容エントリの数は 10 です。

戻り値

Body: Transcription

トランスクリプション一覧を取得する (V3.1)

操作 ID:: TranscriptionsList

認証されたサブスクリプションに対するトランスクリプションの一覧を取得します。

パラメーター

名前キー必須型説明

名前	キー	型	説明
Skip	skip	integer	スキップされるデータセットの数。
上	top	integer	スキップ後に含まれるデータセットの数。
フィルター	filter	string	使用可能なトランスクリプションのサブセットを選択するためのフィルター式。対応プロパティ: displayName、description、createdDateTime、lastActionDateTime、status、locale。演算子: - eq、ne はすべてのプロパティでサポートされています。 - gt、ge、lt、le は、createdDateTime と lastActionDateTime でサポートされています。 - and、or、not はサポートされていません。例: `filter=createdDateTime gt 2022-02-01T11:00:00Z`

Skip

skip

integer

スキップされるデータセットの数。

上

top

integer

スキップ後に含まれるデータセットの数。

フィルター

filter

string

使用可能なトランスクリプションのサブセットを選択するためのフィルター式。

対応プロパティ: displayName、description、createdDateTime、lastActionDateTime、status、locale。
演算子:
- eq、ne はすべてのプロパティでサポートされています。
- gt、ge、lt、le は、createdDateTime と lastActionDateTime でサポートされています。
- and、or、not はサポートされていません。
例: filter=createdDateTime gt 2022-02-01T11:00:00Z

戻り値

Body: PaginatedTranscriptions

トランスクリプション一覧ファイルを取得する (V3.1)

操作 ID:: TranscriptionsListFiles

指定された ID で識別されるトランスクリプションのファイルを取得します。

パラメーター

名前	キー	必須	型	説明
Id	id	True	uuid	トランスクリプションの識別子。
秒単位での SAS の有効性	sasValidityInSeconds		integer	SAS URL が有効である必要がある期間 (秒単位)。既定の期間は 12 時間です。 BYOS を使用する場合 (https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/speech-encryption-of-data-at-rest#bring-your-own-storage-byos-for-customization-and-logging): 値 0 は、SAS トークンのないプレーンな BLOB URI が生成されることを意味します。
Skip	skip		integer	スキップされるデータセットの数。
上	top		integer	スキップ後に含まれるデータセットの数。
フィルター	filter		string	使用可能なファイルのサブセットを選択するためのフィルター式。対応プロパティ: name、createdDateTime、kind。演算子: - eq、ne はすべてのプロパティでサポートされています。 - gt、ge、lt、le は、createdDateTime でサポートされています。 - and、or、not はサポートされていません。例: `filter=name eq 'myaudio.wav.json' and kind eq 'Transcription'`

戻り値

Body: PaginatedFiles

定義

DiarizationProperties

名前	パス	型	説明
speakers	speakers	DiarizationSpeakersProperties

DiarizationSpeakersProperties

名前	パス	型	説明
minCount	minCount	integer	ダイアライゼーションの最小話者数のヒント。 maxSpeakers プロパティの値以下である必要があります。
maxCount	maxCount	integer	ダイアライゼーションの最大話者数。値は 36 未満、minSpeakers プロパティ以上である必要があります。

File

名前	パス	型	説明
kind	kind	FileKind	データの種類。
links	links	FileLinks
createdDateTime	createdDateTime	date-time	このファイルの作成時刻。タイムスタンプは、ISO 8601 の日付と時刻の形式 (参照:https://en.wikipedia.org/wiki/ISO_8601#Combined_date_and_time_representations) としてエンコードされます。
properties	properties	FileProperties
名称	name	string	このファイルの名前。

FileKind

データの種類。

: string

FileLinks

名前	パス	型	説明
contentUrl	contentUrl	uri	このファイルのコンテンツを取得するための URL。

FileProperties

名前	パス	型	説明
size	size	integer	データのサイズ (バイト数)。
duration	duration	string	このファイルがオーディオファイルである場合の期間。期間は、ISO 8601 期間 ("PnYnMnDTnHnMnS"、参照: https://en.wikipedia.org/wiki/ISO_8601#Durations) としてエンコードされます。

LanguageIdentificationProperties

名前	パス	型	説明
candidateLocales	candidateLocales	array of string	言語識別の候補ロケール (例 ["en-US"、"de-DE"、"es-ES"])。トランスクリプションの主要ロケールを含め、最小 2 から最大 10 の候補ロケールがサポートされています。
speechModelMapping	speechModelMapping	object	音声モデルエンティティへのロケールのオプションマッピング。ロケールのモデルが指定されていない場合、既定の基本モデルが使用されます。キーは候補ロケールに含まれるロケールでなければならず、値はそれぞれのロケールのモデルのエンティティです。

PaginatedFiles

名前	パス	型	説明
values	values	array of File	渡されたクエリパラメーター 'skip' および 'top' またはそれらの既定値によって制限されたエンティティの一覧。ページ分割を使用して一覧を反復処理し、エンティティを並行して削除する場合、一部のエンティティが結果にスキップされます。クライアントでリストを構築し、完全なリストを取得した後に削除することをお勧めします。
@nextLink	@nextLink	uri	使用可能なエンティティが他にもある場合の、ページ分割された次の結果セットへのリンク。それ以外の場合は null。

PaginatedTranscriptions

名前	パス	型	説明
values	values	array of Transcription	渡されたクエリパラメーター 'skip' および 'top' またはそれらの既定値によって制限されたエンティティの一覧。ページ分割を使用して一覧を反復処理し、エンティティを並行して削除する場合、一部のエンティティが結果にスキップされます。クライアントでリストを構築し、完全なリストを取得した後に削除することをお勧めします。
@nextLink	@nextLink	uri	使用可能なエンティティが他にもある場合の、ページ分割された次の結果セットへのリンク。それ以外の場合は null。

ProfanityFilterMode

不適切なフィルター処理のモード。

: string

PunctuationMode

句読点に使用されるモード。

: string

文字起こし

名前	パス	型	説明
contentUrls	contentUrls	array of uri	文字起こしする音声ファイルを取得するためのコンテンツ URL の一覧を提供します。最大 1000 URL が許可されます。このプロパティは応答では返されません。
contentContainerUrl	contentContainerUrl	uri	または、オーディオファイルを含む Azure BLOB コンテナーの URL を提供できます。コンテナーには、最大サイズ 5 GB と最大数 10000 の BLOB を含めることができます。BLOB の最大サイズは 2.5 GB です。コンテナー SAS には、'r' (読み取り) および 'l' (一覧) のアクセス許可が含まれている必要があります。このプロパティは応答では返されません。
locale	locale	string	含まれるデータのロケール。言語識別が使用されている場合、このロケールは、言語を検出できなかった音声の書き起こしに使用されます。
displayName	displayName	string	オブジェクトの表示名。
モデル	model.self	uri	参照先エンティティの場所。
properties	properties	TranscriptionProperties

TranscriptionProperties

名前	パス	型	説明
diarizationEnabled	diarizationEnabled	boolean	ダイアライゼーション (話者識別) が要求されているかどうかを示す値。既定値は `false` です。このフィールドのみが true に設定され、`DiarizationProperties` を指定して改良されたダイアライゼーションシステムが有効になっていない場合、基本的なダイアライゼーションシステムは最大 2 人の話者を区別します。この場合、追加料金はかかりません。改良されたダイアライゼーションシステムは、話者の構成可能な範囲のダイアライゼーションを提供します。 `DiarizationProperties` フィールドで構成することができます。非推奨: 基本的ダイアライゼーションシステムは非推奨であり、API の次のメジャーバージョンで `diarizationEnabled` 設定と共に削除されます。
wordLevelTimestampsEnabled	wordLevelTimestampsEnabled	boolean	単語レベルのタイムスタンプが要求されているかどうかを示す値。既定値は `false` です。
displayFormWordLevelTimestampsEnabled	displayFormWordLevelTimestampsEnabled	boolean	表示フォームの単語レベルのタイムスタンプが要求されているかどうかを示す値。既定値は `false` です。
channels	channels	array of integer	要求されたチャネルのコレクション数。既定ケースでは、チャネル 0 と 1 が考慮されます。
destinationContainerUrl	destinationContainerUrl	uri	要求された送信先コンテナー。### 備考 ### 送信先コンテナーを `timeToLive` と組み合わせて使用すると、通常トランスクリプションのメタデータは削除されますが、このコンテナーには削除権限が必要ないため、トランスクリプション結果を含む、送信先コンテナーに格納されたデータはそのまま残ります。自動クリーンアップをサポートするには、コンテナーで BLOB の有効期間を構成するか、BLOB をクリーンアップできる `destinationContainerUrl` の代わりに "Bring your own Storage (BYOS)" を使用します。
punctuationMode	punctuationMode	PunctuationMode	句読点に使用されるモード。
profanityFilterMode	profanityFilterMode	ProfanityFilterMode	不適切なフィルター処理のモード。
timeToLive	timeToLive	string	トランスクリプションが完了後のシステム保存期間。トランスクリプションが完了 (成功または失敗) 後に有効期限に達すると、トランスクリプションは自動的に削除されます。この値を設定しないか、0 に設定すると、自動削除が無効になります。サポートされている最長期間は 31 日間です。期間は ISO 8601 期間 ("PnYnMnDTnHnMnS"、参照: https://en.wikipedia.org/wiki/ISO_8601#Durations) としてエンコードされます。
diarization	diarization	DiarizationProperties
言語識別 -	languageIdentification	LanguageIdentificationProperties
メールアドレス	email	string	操作が完了した場合に、電子メール通知を送信する電子メールアドレス。電子メールが正常に送信された後、値は削除されます。

次の方法で共有

Azure Batch Speech-to-text

前提条件

接続を作成する

API キー

Azure AD 統合

Azure AD 統合 (Azure Government)

Microsoft Entra ID 統合

既定 [非推奨]

調整制限

アクション

サポートされているロケールを取得する (V3.1)

戻り値

トランスクリプション ファイルを取得する (V3.1)

パラメーター

戻り値

トランスクリプションを作成する (V3.1)

パラメーター

戻り値

トランスクリプションを削除する (V3.1)

パラメーター

トランスクリプションを取得する (V3.1)

パラメーター

戻り値

トランスクリプションを更新する (V3.1)

パラメーター

戻り値

トランスクリプション一覧を取得する (V3.1)

パラメーター

戻り値

トランスクリプション一覧ファイルを取得する (V3.1)

パラメーター

戻り値

定義

DiarizationProperties

DiarizationSpeakersProperties

File

FileKind

FileLinks

FileProperties

LanguageIdentificationProperties

PaginatedFiles

PaginatedTranscriptions

ProfanityFilterMode

PunctuationMode

文字起こし

TranscriptionProperties

その他のリソース

トランスクリプションファイルを取得する (V3.1)