Azure OpenAI を使用してポッドキャストオーディオファイルを処理する

Azure AI Search

Azure OpenAI Service

ソリューションのアイデア

この記事ではソリューションのアイデアについて説明します。クラウドアーキテクトはこのガイダンスを使用すると、このアーキテクチャの一般的な実装の主要コンポーネントを視覚化しやすくなります。ワークロードの特定の要件に適合する、適切に設計されたソリューションを設計するための出発点として、この記事を使用してください。

この記事では、オーディオファイルの処理に使用できるパイプラインの設計例を示します。パイプラインでは、Speech to Text に Azure AI サービスを使用し、分析に Azure OpenAI サービスを使用します。アーキテクチャは、運用ダッシュボードを提供する静的 Web アプリケーションと、メディアファイルを調整して処理する 3 つの Azure 関数で構成されます。このソリューションは、自動化されたスケーラブルな AI 分析を必要とするメディアワークロードに使用できます。

Architecture

このアーキテクチャの Visio ファイルをダウンロードします。

ワークフロー

ユーザーは、オーディオファイルをアップロードするための UI を持つ Web ページに移動します。
静的 Web アプリには、オーディオファイルを Azure Blob Storage にアップロードするコードが含まれています。
ユーザーは Web ページと対話し、HTTP エンドポイントを使用して、ストレージアカウント内の指定されたコンテナーへのオーディオファイルの転送を開始する関数をトリガーします。
Blob Storage が新しいファイルがアップロードされたことを検出すると、Azure AI 音声を使用してオーディオをテキストに変換する別の関数が呼び出されます。文字起こしの結果はテキストファイル形式で格納され、別のコンテナーにアップロードされます。
3 つ目の関数では、生成 AI を使用して文字起こしを検出して処理し、概要、検索エンジン最適化キーワード、翻訳を生成します。

コンポーネント

Static Web Apps は、静的 Web アプリケーションのホスティングとデプロイを簡略化するために使用できるサービスです。 Static Web Apps は、GitHub リポジトリとのシームレスな統合を提供し、自動デプロイと継続的インテグレーションと継続的デプロイ (CI/CD) パイプラインを実現します。
Azure Functions は、開発者がインフラストラクチャを管理することなくコードを実行するために使用できるサーバーレスコンピューティングサービスです。
Blob Storage は、テキストやバイナリデータなどの大量の非構造化データを格納するために使用するストレージサービスです。
AI サービスは、音声認識、自然言語理解、コンピュータービジョンなどの機能を提供するクラウドベースの API と事前構築済みの AI モデルのスイートです。
Azure OpenAI は、Azure プラットフォームを介して OpenAI のモデルとテクノロジへのアクセスを提供する Microsoft Azure と OpenAI の間のパートナーシップです。

シナリオの詳細

ポッドキャストは、アイデア、ストーリー、パースペクティブを共有するための効果的なメディアです。多くの組織や個人は、ポッドキャストを使用して視聴者とつながり、成長させる力に気づきました。さらに多くのユーザーにリーチするために、作成者はポッドキャストの概要とコンテンツのローカライズを使用することで、他の言語の話者がコンテンツにアクセスしやすくすることができます。

ポッドキャストの概要は、作成者がポッドキャストのエピソードについてリスナーに通知するための迅速かつ簡単な方法です。ポッドキャストの概要は、リスナーが視聴するかどうかを決める判断材料になる場合があります。翻訳された概要は、潜在的で国際的なリスナーがポッドキャストを発見し、それが提供するものについて学ぶのを容易にします。

ローカリゼーションは、ポッドキャストコンテンツを特定の言語と文化に適応させるプロセスです。ローカライズは翻訳を超え、対象ユーザーの微妙な違い、好み、期待を考慮します。ローカライズは、より深いレベルでリスナーとつながり、エンゲージメントとロイヤルティを高めるのに役立ちます。

コンテンツの作成と公開は困難です。 AI は、プロセスを自動化し、ポッドキャストの生産と配布をスケーリングするのに役立ちます。 AI と AI インフラストラクチャを使用して、ポッドキャストオーディオを文字起こしし、概要を翻訳し、さまざまな言語やアクセントでボイスオーバーを生成できます。

この記事では、AI を使用してポッドキャストの概要を作成し、ポッドキャストを複数の言語にローカライズし、コンテンツの対象ユーザーを拡大するのに役立つマーケティングキーワードと検索エンジン最適化 (SEO) キーワードを自動的に生成する方法について説明します。このソリューションは、GPT の機能と共に、音声と Azure OpenAI を使用してこのプロセスの大部分を自動化する方法を示しています。 GPT を使用すると、オーディオをテキストに自動的に文字起こしし、特定のスタイルとトーンで概要を生成し、キャッチーなタグラインと SEO キーワードを提案し、概要を複数の言語に翻訳して、世界中のユーザーに数分でリーチすることができます。

Web アプリ

静的 Web アプリケーションは、このアプリケーションの機能を公開します。アプリケーションは React Web ライブラリを使用して記述されます。 React Web ライブラリを使用すると、オーディオファイルをアップロードできます。オーディオファイルが処理されると、React は次のような表示可能でダウンロード可能な結果を生成します。

構文。
翻訳された概要。
代替タイトル。
SEO キーワード。

Storage

このソリューションでは、複数のコンテナーを持つ 1 つの Azure Storage アカウントを使用して、生ファイル (オーディオ)、文字起こし (オーディオのテキスト文字起こし)、Azure OpenAI の結果を格納します。

Compute

このソリューションでは、特定のワークフローで 3 つの Azure 関数を使用してオーディオファイルを処理します。 3 つの関数はすべて Python で記述されています。

HTTP でトリガーされる関数

静的 Web サイトは、最初の HTTP によってトリガーされる関数を使用します。この関数には Flask アプリフレームワークがあり、次の 2 つのエンドポイントが公開されています。

オーディオファイルを Blob Storage にアップロードする POST 操作
生成された AI 分析情報の結果を取得する GET 操作

生ファイルコンテナーの BLOB によってトリガーされる関数

2 つ目の関数は、ストレージアカウントの生ファイルコンテナーを使用するようにバインドが設定された BLOB によってトリガーされる関数です。この関数は、ファイルがこのコンテナーにアップロードされると自動的にトリガーされます。この関数では、Azure Files を使用してオーディオファイルを WAV に変換することでマウントされる ffmpegCLI ツールも利用します。音声では WAV 形式が使用されます。ファイルが WAV ファイル形式に変換された後、音声に渡されます。音声では、オーディオファイルのテキスト文字起こしが作成されます。テキスト文字起こしは、ストレージアカウント内の文字起こしコンテナーにアップロードされます。

文字起こしコンテナーの BLOB によってトリガーされる関数

3 番目と最後の関数は、ストレージアカウントの文字起こしコンテナーを使用するようにバインドが設定された BLOB によってトリガーされる関数です。このコンテナーにアップロードされたすべてのファイルによって、関数が実行されます。この最後の関数は、文字起こしを要約し、タグラインと SEO キーワードを生成し、トランスクリプトを英語以外の言語に翻訳する一連のプロンプトを Azure OpenAI で構成します。

概要、SEO キーワード、および翻訳が生成されると、Azure OpenAI 応答がストレージアカウントの open-ai-results コンテナーにアップロードされます。

AI と機械学習

このソリューションでは、次の 2 つの Azure AI ワークロードを使用します。

Speech
Azure OpenAI

Speech to Text 変換機能は、音声をテキストに文字起こしします。 Azure OpenAI GPT モデルがテキストを処理します。モデルでは、生成機能を使用して、タグ、SEO キーワード、要約、翻訳サービスを生成します。文字起こしを使用して、テキストコンテンツ生成タスクを実行します。

考えられるユースケース

アーキテクチャフレームワークは、AI が自動的に分析するメディアタスク用に設計されています。このフレームワークはメディアアプリケーションを対象としていますが、特にオーディオ録音のテキスト要約を必要とし、トランスクリプト、要約、タグライン、および概要に AI 生成コンテンツを使用するタスクに対して、より広範なアプリケーションに使用できます。

共同作成者

この記事は、Microsoft によって保守されています。当初の寄稿者は以下のとおりです。

プリンシパルの作成者:

Kathy Lee | Senior Cloud Solution Architect
Uffaz Nathaniel | プリンシパルソフトウェアエンジニア
Chew-Yean Yam| Principal Data Scientist

その他の共同作成者:

Andy Beach | 最高技術責任者 (CTO)、Media and Entertainment Worldwide
Simon Powell | Principal Program Manager

パブリックでない LinkedIn プロファイルを表示するには、LinkedIn にサインインします。

次の方法で共有

Azure OpenAI を使用してポッドキャストオーディオファイルを処理する

Architecture

ワークフロー

コンポーネント

シナリオの詳細

Web アプリ

Storage

Compute

HTTP でトリガーされる関数

生ファイルコンテナーの BLOB によってトリガーされる関数

文字起こしコンテナーの BLOB によってトリガーされる関数

AI と機械学習

考えられるユースケース

共同作成者

次のステップ

フィードバック

フィードバック

その他のリソース

次の方法で共有

Azure OpenAI を使用してポッドキャスト オーディオ ファイルを処理する

Architecture

ワークフロー

コンポーネント

シナリオの詳細

Web アプリ

Storage

Compute

HTTP でトリガーされる関数

生ファイル コンテナーの BLOB によってトリガーされる関数

文字起こしコンテナーの BLOB によってトリガーされる関数

AI と機械学習

考えられるユース ケース

共同作成者

次のステップ

フィードバック

フィードバック

その他のリソース

Azure OpenAI を使用してポッドキャストオーディオファイルを処理する

生ファイルコンテナーの BLOB によってトリガーされる関数

考えられるユースケース