Azure OpenAI を使用してポッドキャスト オーディオ ファイルを処理する

Azure AI Search
Azure OpenAI Service

ソリューションのアイデア

この記事ではソリューションのアイデアについて説明します。 クラウド アーキテクトはこのガイダンスを使用すると、このアーキテクチャの一般的な実装の主要コンポーネントを視覚化しやすくなります。 ワークロードの特定の要件に適合する、適切に設計されたソリューションを設計するための出発点として、この記事を使用してください。

この記事では、オーディオ ファイルの処理に使用できるパイプラインの設計例を示します。 パイプラインでは、Speech to Text に Azure AI サービスを使用し、分析に Azure OpenAI サービスを使用します。 アーキテクチャは、運用ダッシュボードを提供する静的 Web アプリケーションと、メディア ファイルを調整して処理する 3 つの Azure 関数で構成されます。 このソリューションは、自動化されたスケーラブルな AI 分析を必要とするメディア ワークロードに使用できます。

Architecture

分析に Azure OpenAI を使用してオーディオ ファイルを処理するためのアーキテクチャを示す図。

このアーキテクチャの Visio ファイルをダウンロードします。

ワークフロー

  1. ユーザーは、オーディオ ファイルをアップロードするための UI を持つ Web ページに移動します。

  2. 静的 Web アプリには、オーディオ ファイルを Azure Blob Storage にアップロードするコードが含まれています。

  3. ユーザーは Web ページと対話し、HTTP エンドポイントを使用して、ストレージ アカウント内の指定されたコンテナーへのオーディオ ファイルの転送を開始する関数をトリガーします。

  4. Blob Storage が新しいファイルがアップロードされたことを検出すると、Azure AI 音声を使用してオーディオをテキストに変換する別の関数が呼び出されます。 文字起こしの結果はテキスト ファイル形式で格納され、別のコンテナーにアップロードされます。

  5. 3 つ目の関数では、生成 AI を使用して文字起こしを検出して処理し、概要、検索エンジン最適化キーワード、翻訳を生成します。

コンポーネント

  • Static Web Apps は、静的 Web アプリケーションのホスティングとデプロイを簡略化するために使用できるサービスです。 Static Web Apps は、GitHub リポジトリとのシームレスな統合を提供し、自動デプロイと継続的インテグレーションと継続的デプロイ (CI/CD) パイプラインを実現します。

  • Azure Functions は、開発者がインフラストラクチャを管理することなくコードを実行するために使用できるサーバーレス コンピューティング サービスです。

  • Blob Storage は、テキストやバイナリ データなどの大量の非構造化データを格納するために使用するストレージ サービスです。

  • AI サービス は、音声認識、自然言語理解、コンピューター ビジョンなどの機能を提供するクラウドベースの API と事前構築済みの AI モデルのスイートです。

  • Azure OpenAI は、Azure プラットフォームを介して OpenAI のモデルとテクノロジへのアクセスを提供する Microsoft Azure と OpenAI の間のパートナーシップです。

シナリオの詳細

ポッドキャストは、アイデア、ストーリー、パースペクティブを共有するための効果的なメディアです。 多くの組織や個人は、ポッドキャストを使用して視聴者とつながり、成長させる力に気づきました。 さらに多くのユーザーにリーチするために、作成者はポッドキャストの概要とコンテンツのローカライズを使用することで、他の言語の話者がコンテンツにアクセスしやすくすることができます。

ポッドキャストの概要は、作成者がポッドキャストのエピソードについてリスナーに通知するための迅速かつ簡単な方法です。 ポッドキャストの概要は、リスナーが視聴するかどうかを決める判断材料になる場合があります。 翻訳された概要は、潜在的で国際的なリスナーがポッドキャストを発見し、それが提供するものについて学ぶのを容易にします。

ローカリゼーションは、ポッドキャスト コンテンツを特定の言語と文化に適応させるプロセスです。 ローカライズは翻訳を超え、対象ユーザーの微妙な違い、好み、期待を考慮します。 ローカライズは、より深いレベルでリスナーとつながり、エンゲージメントとロイヤルティを高めるのに役立ちます。

コンテンツの作成と公開は困難です。 AI は、プロセスを自動化し、ポッドキャストの生産と配布をスケーリングするのに役立ちます。 AI と AI インフラストラクチャを使用して、ポッドキャスト オーディオを文字起こしし、概要を翻訳し、さまざまな言語やアクセントでボイスオーバーを生成できます。

この記事では、AI を使用してポッドキャストの概要を作成し、ポッドキャストを複数の言語にローカライズし、コンテンツの対象ユーザーを拡大するのに役立つマーケティングキーワードと検索エンジン最適化 (SEO) キーワードを自動的に生成する方法について説明します。 このソリューションは、GPT の機能と共に、音声と Azure OpenAI を使用してこのプロセスの大部分を自動化する方法を示しています。 GPT を使用すると、オーディオをテキストに自動的に文字起こしし、特定のスタイルとトーンで概要を生成し、キャッチーなタグ ラインと SEO キーワードを提案し、概要を複数の言語に翻訳して、世界中のユーザーに数分でリーチすることができます。

Web アプリ

静的 Web アプリケーションは、このアプリケーションの機能を公開します。 アプリケーションは React Web ライブラリを使用して記述されます。 React Web ライブラリを使用すると、オーディオ ファイルをアップロードできます。 オーディオ ファイルが処理されると、React は次のような表示可能でダウンロード可能な結果を生成します。

  • 構文。
  • 翻訳された概要。
  • 代替タイトル。
  • SEO キーワード。

Storage

このソリューションでは、複数のコンテナーを持つ 1 つの Azure Storage アカウントを使用して、生ファイル (オーディオ)、文字起こし (オーディオのテキスト文字起こし)、Azure OpenAI の結果を格納します。

Compute

このソリューションでは、特定のワークフローで 3 つの Azure 関数を使用してオーディオ ファイルを処理します。 3 つの関数はすべて Python で記述されています。

HTTP でトリガーされる関数

静的 Web サイトは、最初の HTTP によってトリガーされる関数を使用します。 この関数には Flask アプリ フレームワークがあり、次の 2 つのエンドポイントが公開されています。

  • オーディオ ファイルを Blob Storage にアップロードする POST 操作
  • 生成された AI 分析情報の結果を取得する GET 操作

生ファイル コンテナーの BLOB によってトリガーされる関数

2 つ目の関数は、ストレージ アカウントの生ファイル コンテナーを使用するようにバインドが設定された BLOB によってトリガーされる関数です。 この関数は、ファイルがこのコンテナーにアップロードされると自動的にトリガーされます。 この関数では、Azure Files を使用してオーディオ ファイルを WAV に変換することでマウントされる ffmpegCLI ツールも利用します。 音声では WAV 形式が使用されます。 ファイルが WAV ファイル形式に変換された後、音声に渡されます。 音声では、オーディオ ファイルのテキスト文字起こしが作成されます。 テキスト文字起こしは、ストレージ アカウント内の文字起こしコンテナーにアップロードされます。

文字起こしコンテナーの BLOB によってトリガーされる関数

3 番目と最後の関数は、ストレージ アカウントの文字起こしコンテナーを使用するようにバインドが設定された BLOB によってトリガーされる関数です。 このコンテナーにアップロードされたすべてのファイルによって、関数が実行されます。 この最後の関数は、文字起こしを要約し、タグ ラインと SEO キーワードを生成し、トランスクリプトを英語以外の言語に翻訳する一連のプロンプトを Azure OpenAI で構成します。

概要、SEO キーワード、および翻訳が生成されると、Azure OpenAI 応答がストレージ アカウントの open-ai-results コンテナーにアップロードされます。

AI と機械学習

このソリューションでは、次の 2 つの Azure AI ワークロードを使用します。

  • Speech
  • Azure OpenAI

Speech to Text 変換機能は、音声をテキストに文字起こしします。 Azure OpenAI GPT モデルがテキストを処理します。 モデルでは、生成機能を使用して、タグ、SEO キーワード、要約、翻訳サービスを生成します。 文字起こしを使用して、テキスト コンテンツ生成タスクを実行します。

考えられるユース ケース

アーキテクチャ フレームワークは、AI が自動的に分析するメディア タスク用に設計されています。 このフレームワークはメディア アプリケーションを対象としていますが、特にオーディオ録音のテキスト要約を必要とし、トランスクリプト、要約、タグライン、および概要に AI 生成コンテンツを使用するタスクに対して、より広範なアプリケーションに使用できます。

共同作成者

この記事は、Microsoft によって保守されています。 当初の寄稿者は以下のとおりです。

プリンシパルの作成者:

その他の共同作成者:

  • Andy Beach | 最高技術責任者 (CTO)、Media and Entertainment Worldwide
  • Simon Powell | Principal Program Manager

パブリックでない LinkedIn プロファイルを表示するには、LinkedIn にサインインします。

次のステップ