你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

使用 Azure OpenAI 处理播客音频文件

Azure AI 搜索
Azure OpenAI 服务

解决方案构想

本文介绍了一种解决方案构想。 云架构师可以通过本指南来帮助可视化此体系结构的典型实现的主要组件。 以本文为起点,设计一个符合工作负荷特定要求的架构合理的解决方案。

本文提供了可用于处理音频文件的管道设计示例。 该管道使用 Azure AI 服务进行语音转文本,并使用 Azure OpenAI 服务进行分析。 该体系结构由一个提供操作仪表板的静态 Web 应用程序和三个用于协调和处理媒体文件的 Azure 函数组成。 可以将此解决方案用于需要自动化且可扩展 AI 分析的媒体工作负载。

体系结构

此图显示了使用 Azure OpenAI 分析处理音频文件的体系结构。

下载此体系结构的 Visio 文件

工作流

  1. 用户转到具有用于上传音频文件的 UI 的网页。

  2. 静态 Web 应用包含将音频文件上传到 Azure Blob 存储的代码。

  3. 用户与网页交互,该网页触发一个使用 HTTP 端点的功能,启动音频文件向存储账户内指定容器的传输。

  4. Blob 存储检测到上传新文件后,将调用另一个函数,该函数使用 Azure AI 语音将音频转换为文本。 听录结果以文本文件格式存储,并上传到另一个容器。

  5. 第三个函数使用生成 AI 来检测和处理听录并生成摘要、搜索引擎优化关键字和翻译。

组件

  • Static Web Apps 是一项服务,可用于简化托管和部署静态 Web 应用程序。 Static Web Apps 提供与 GitHub 存储库的无缝集成,用于自动部署和持续集成和持续部署 (CI/CD) 管道。

  • Azure Functions 是一种无服务器计算服务,开发人员可以使用它来运行代码,而无需管理基础结构。

  • Blob 存储是一项存储服务,可用于存储大量非结构化数据,例如文本或二进制数据。

  • AI 服务 是一套基于云的 API 和预生成的 AI 模型,可提供语音识别、自然语言理解和计算机视觉等功能。

  • Azure OpenAI 是 Microsoft Azure 与 OpenAI 之间的合作关系,通过 Azure 平台提供对 OpenAI 模型和技术的访问权限。

方案详细信息

播客是分享想法、故事和观点的有效媒介。 许多组织和个人都发现了使用播客来连接和扩大受众的力量。 为了吸引更广泛的受众,创作者可以使用播客摘要和内容本地化功能,让其他语言的用户更容易理解他们的内容。

播客摘要是创作者向听众介绍播客内容的一种快速简便的方法。 播客摘要可以帮助听众决定是否要收听。 翻译后的摘要使潜在的国际听众更容易发现播客并了解其内容。

本地化是将播客内容适应特定语言和文化的过程。 本地化超出了翻译范围,还考虑了目标受众的细微差别、偏好和期望。 本地化可以帮助您与听众建立更深层次的联系,提高他们的参与度和忠诚度。

制作和发布内容是困难的。 AI 可帮助您自动执行流程并扩展播客生产和分发。 您可以使用人工智能和人工智能基础设施来转录播客音频、翻译摘要并生成各种语言和口音的配音。

本文介绍如何使用 AI 创建播客摘要,将播客本地化为多种语言,并自动生成有助于扩大内容受众的营销和搜索引擎优化 (SEO) 关键字。 此解决方案演示如何使用 GPT 的强大功能通过语音和 Azure OpenAI 自动执行此过程的大部分工作。 您可以使用 GPT 将音频自动转录为文本、生成特定风格和语气的摘要、建议捕获的标记行和 SEO 关键字,并将该内容翻译成多种语言,以在几分钟内吸引全球受众。

Web 应用程序

静态 Web 应用程序公开此应用程序的功能。 应用程序是使用 React Web 库编写的。 您可以使用 React Web 库上传音频文件。 处理音频文件后,React 将生成可查看和可下载的结果,其中包括:

  • 摘要。
  • 翻译后的摘要。
  • 备用标题。
  • 短信关键字。

存储

此解决方案使用包含多个容器的单个 Azure 存储帐户来存储原始文件(音频)、听录(音频文本听录)和 Azure OpenAI 结果。

计算

此解决方案在特定工作流中使用三个 Azure 函数来处理音频文件。 这三个函数都是用 Python 编写的。

HTTP 触发的函数

静态网站使用第一个 HTTP 触发函数。 该函数具有 Flask 应用框架,并公开两个终结点:

  • 将音频文件上传到 Blob 存储的 POST 操作
  • 用于检索生成的 AI 见解结果的 GET 操作

原始文件容器的 Blob 触发函数

第二个函数是 Blob 触发的函数,该函数的绑定设置为使用存储帐户的原始文件容器。 当文件上传到此容器时,该函数会自动触发。 此函数还利用使用 Azure Files 挂载的ffmpegCLI 工具将音频文件转换为 WAV语音使用 WAV 格式。 将文件转换为 WAV 文件格式后,会将其传递给语音。 语音创建音频文件的文本听录。 然后将文本听录上传到存储帐户中的听录容器。

转录容器的 Blob 触发函数

第三个和最后一个函数是一个 Blob 触发函数,其绑定设置为使用存储帐户的听录容器。 上传到此容器的任何文件都触发要运行的函数。 此最终函数在 Azure OpenAI 中编写了一系列提示,用于汇总听录、生成标记行和 SEO 关键字,并将脚本翻译为非英语语言。

生成摘要、SEO 关键字和翻译后,Azure OpenAI 响应将上传到存储帐户中的 open-ai-results 容器。

AI 和机器学习

此解决方案使用两个 Azure AI 工作负载:

  • 语音
  • Azure OpenAI

语音中的语音转文本功能将音频转录为文本。 Azure OpenAI GPT 模型处理文本。 模型使用生成功能生成标记、SEO 关键字、摘要和翻译服务。 它们使用听录来执行文本内容生成任务。

可能的用例

体系结构框架专为 AI 自动分析的媒体任务而设计。 此框架适用于媒体应用程序,但可用于更广泛的应用程序,特别是需要音频录制文本摘要的任务,并使用 AI 生成的内容进行转录、摘要、标记和概要。

作者

本文由 Microsoft 维护, 它最初是由以下贡献者撰写的。

主要作者:

其他参与者:

若要查看非公开领英个人资料,请登录领英。

后续步骤