你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

什么是语音转文本?

Azure AI 语音服务提供高级语音转文本功能。 此功能支持实时和批量听录,为将音频流转换为文本提供了多种解决方案。

核心功能

语音转文本服务提供以下核心功能:

  • 实时听录:对实时音频输入进行即时转录并得出中间结果。
  • 快速听录:对于具有可预测延迟的情况,同步输出最快。
  • 批量听录:高效处理大量预录制的音频。
  • 自定义语音:针对特定领域和条件的具有增强准确性的模型。

实时语音转文本

实时语音转文本功能将从麦克风或文件中识别出的音频转录为文本。 这一功能非常适合需要立即听录的应用程序,例如:

  • 现场会议的听录、辅助字幕或字幕:实时转录音频,以方便获取信息和保存记录。
  • 分割:识别并区分音频中的不同发言人。
  • 发音评估:评估发音准确性并提供反馈。
  • 呼叫中心代理协助:提供实时听录以协助客户服务代表。
  • 听写:将口语转录为书面文本以供记录。
  • 语音代理:使交互式语音应答系统能够转录用户查询和命令。

可以通过语音 SDK、语音 CLI 和 REST API 访问实时语音转文本,因此该功能可以集成到各种应用程序和工作流中。 可以通过语音 SDK、语音 CLI 和 REST API(例如快速听录 API)实现实时语音转文本。

快速听录(预览版)

快速听录 API 用于听录音频文件,同步返回结果,速度比实时音频快。 在需要尽快获得音频录制脚本且可预测延迟的情况下使用快速听录,例如:

  • 快速音频或视频听录和字幕:一次性快速获得整个视频或音频文件的听录。
  • 视频翻译:如果有不同语言的音频,可立即为视频获取新的字幕。

注意

快速听录 API 只能通过语音转文本 REST API 版本 2024-05-15-preview 及更高版本使用。

若要开始使用快速听录,请参阅使用快速听录 API(预览版)

批量听录 API

批量听录旨在听录存储在文件中的大量音频。 此方法以异步方式处理音频,适合以下场景:

  • 预录制的音频的听录、辅助字幕或字幕:将存储的音频内容转换为文本。
  • 联系中心呼叫后分析:分析通话录音以获取有价值的见解。
  • 分割:在录制的音频中区分发言人。

可通过以下方式提供批量听录:

自定义语音

借助自定义语音,可以评估应用程序与产品的语音识别并提高其准确度。 自定义语音模型可用于实时语音转文本语音翻译批量听录

提示

无需托管部署终结点即可将自定义语音识别与批量听录 API 配合使用。 如果自定义语音模型仅用于批量听录,则可以节省资源。 有关详细信息,请参阅语音服务定价

现成的语音识别可利用通用语言模型作为一个基本模型(使用 Microsoft 自有数据进行训练),并反映常用的口语。 此基础模型使用了代表各常见地域的方言和发音进行了预先训练。 发出语音识别请求时,默认使用每个支持的语言的最新基础模型。 基础模型在大多数语音识别场景中都效果良好。

自定义语音支持定制语音识别模型,以更好地满足应用程序的特定需求。 这对于以下方面特别有用:

  • 提升对特定领域词汇的识别:使用与你的领域相关的文本数据训练模型。
  • 针对特定音频条件,提升准确性:使用带有参考听录的音频数据来完善模型。

有关自定义语音的更多信息,请参阅自定义语音概述语音转文本 REST API 文档。

有关每种语言和区域设置的自定义选项的详细信息,请参阅文档语音服务的语言和语音支持

用法示例

下面是如何使用 Azure AI 语音转文本的一些实际示例:

用例 方案 解决方案
实时会议听录和字幕 虚拟活动平台需要为网络研讨会提供实时字幕。 使用语音 SDK 集成实时语音转文本功能,将语音内容转录为活动期间实时显示的字幕。
客户服务增强 呼叫中心希望通过提供客户通话的实时听录来协助代理。 通过语音 CLI 使用实时语音转文本来听录通话,使代理能够更好地理解和响应客户查询。
视频字幕 某视频托管平台想快速为某视频生成一组字幕。 使用快速听录快速获取整个视频的一组字幕。
教育工具 电子学习平台希望为视频讲座提供听录。 通过语音转文本 REST API 应用批量听录来处理预先录制的讲座视频,为学生生成文本记录。
健康护理文档 健康护理提供方需要记录患者咨询。 使用实时语音转文本进行听写,让健康护理专业人员可以讲出他们的笔记并让系统立即听录。 使用自定义模型增强对特定医疗术语的识别。
媒体娱乐 一家媒体公司希望为大量视频档案创建字幕。 使用批量听录批量处理视频文件,为每个视频生成准确的字幕。
市场研究 市场研究公司需要分析录音中的客户反馈。 使用批量听录将音频反馈转换为文本,从而更轻松地展开分析并提取见解。

负责任 AI

AI 系统不仅包括技术,还包括使用它的人员、受其影响的人员以及部署它的环境。 阅读透明度说明,了解如何在系统中负责任地使用和部署 AI。