获取媒体听录、翻译和语言识别见解

项目
10/09/2024

媒体听录、翻译和语言识别

听录、翻译和语言识别可检测、转录语音，并将媒体文件中的语音翻译为 50 多种语言。

Azure AI 视频索引器（VI）处理音频文件中的语音，以提取随后翻译成多种语言的听录。选择翻译为特定语言时，听录和关键字、主题、标签或 OCR 等见解将翻译成指定语言。听录可以按原样使用，也可以与说话人见解结合使用，这些见解将脚本分配给演讲者。可以在音频文件中检测到多个扬声器。向每个说话人分配一个 ID，并显示在其转录的语音下。

语言识别（LID） 识别视频文件中支持的主导口语。有关详细信息，请参阅 “应用 LID”。

多语言识别（MLID） 自动识别音频文件中不同段中的口语，并发送每个段以标识的语言进行转录。此过程结束时，所有听录合并到同一文件中。有关详细信息，请参阅应用 MLID。生成的见解在 JSON 文件中的分类列表中生成，其中包含 ID、语言、转录文本、持续时间和置信度分数。

使用多个扬声器为媒体文件编制索引时，Azure AI 视频索引器执行说话人分割，以识别视频中的每个说话人，并将每个转录行的属性都转录为扬声器。为说话人提供唯一标识，例如说话人 #1 和说话人 #2。这允许在对话期间识别说话人，并可用于各种场景，例如医生-患者对话、代理-客户交互和法庭诉讼。

媒体听录、翻译和语言识别用例

通过使用 Azure AI 视频索引器为听力障碍者提供内容来生成语音转文本听录和翻译成多种语言，从而提升辅助功能。
通过使用 Azure AI 视频索引器的听录和翻译功能以多种语言提供内容，从而改善不同区域和语言中不同受众的内容分发。
通过使用 Azure AI 视频索引器的听录和翻译功能，以及使用 Azure AI 视频索引器生成的隐藏式字幕（采用受支持的格式之一）来增强和改进手动隐藏式字幕和字幕生成。
使用语言识别（LID）或多语言识别（MLID）以未知语言转录视频，使 Azure AI 视频索引器能够自动识别视频中显示的语言并相应地生成听录。

使用 Web 门户查看见解 JSON

上传并编制视频索引后，可以使用 JSON 格式获取见解，以便使用 Web 门户进行下载。

选择“ 库 ”选项卡。
选择要处理的媒体。
选择“下载”和“见解”（JSON）。 JSON 文件将在新的浏览器选项卡中打开。
查找示例响应中所述的密钥对。

使用 API

使用“获取视频索引”请求。建议传递 &includeSummarizedInsights=false。
查找示例响应中所述的密钥对。

示例响应

视频中检测到的所有语言都位于 sourceLanauge 下，听录 sectin 中的每个实例都包括被描述的语言。

    "insights": {
      "version": "1.0.0.0",
      "duration": "0:01:50.486",
      "sourceLanguage": "en-US",
      "sourceLanguages": [
        "es-ES",
        "en-US"
      ],
      "language": "en-US",
      "languages": [
        "en-US"
      ],
      "transcript": [
        {
          "id": 1,
          "text": "Hi, I'm Doug from office. We're talking about new features that office insiders will see first and I have a program manager,",
          "confidence": 0.8879,
          "speakerId": 1,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:00",
              "adjustedEnd": "0:00:05.75",
              "start": "0:00:00",
              "end": "0:00:05.75"
            }
          ]
        },
        {
          "id": 2,
          "text": "Emily Tran, with office graphics.",
          "confidence": 0.8879,
          "speakerId": 1,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:05.75",
              "adjustedEnd": "0:00:07.01",
              "start": "0:00:05.75",
              "end": "0:00:07.01"
            }
          ]
        },

重要

阅读所有 VI 功能的透明度说明概述非常重要。每个见解也有其自己的透明度说明：

听录、翻译和语言识别说明

谨慎使用时，Azure AI 视频索引器是许多行业的宝贵工具。必须始终尊重他人的隐私和安全，并遵守当地和全球法规。我们建议：

仔细考虑结果的准确性，促进更准确的数据，检查音频的质量，低质量音频可能会影响检测到的见解。
视频索引器不执行说话人识别，因此不会在多个文件中为说话人分配标识符。无法在多个文件或脚本中搜索单个说话人。
说话人标识符是随机分配的，只能用于区分单个文件中的不同说话人。
跨对话和重叠语音：当多个说话人同时交谈或相互中断时，模型很难准确区分和分配相应的说话人的正确文本。
说话人重叠：有时，说话人可能具有类似的语音模式、口音或使用类似的词汇，从而使模型难以区分它们。
干扰音频：音频质量差、背景噪音或低质量录音可能会妨碍模型正确识别和转录扬声器的能力。
情感语音：语音中的情感变化，如喊叫、哭泣或极端兴奋，可能会影响模型准确分割说话人的能力。
说话人伪装或模拟：如果说话人故意模仿或伪装其语音，则模型可能会误演说话人。
模棱两可的说话人识别：某些语音段可能没有足够的独特特征，使模型能够自信地归因于特定说话人。
包含所选语言以外的语言的音频会产生意外的结果。
检测每种语言的最小段长度为 15 秒。
语言检测偏移量平均为 3 秒。
语音应是连续的。语言之间的频繁交替可能会影响模型的性能。
非本机说话人的语音可能会影响模型的性能（例如，当说话人使用其第一种语言并切换到另一种语言时）。
该模型旨在通过合理的音频音响效果（而不是语音命令、唱歌等）识别自发对话语音。
项目创建和编辑不适用于多语言视频。
使用多语言检测时，自定义语言模型不可用。
不支持添加关键字。
导出的隐藏式字幕文件中不包含语言指示。
API 中的更新脚本不支持多种语言文件。
该模型旨在识别自发的对话语音（而不是语音命令、唱歌等）。
如果 Azure AI 视频索引器无法识别具有足够置信度（大于 0.6）的语言，则回退语言为英语。

下面是支持的语言列表。

听录、翻译和语言识别组件

在听录、翻译和语言识别过程中，处理媒体文件中的语音，如下所示：

组件	定义
源语言	用户上传源文件进行索引，或者： - 指定视频源语言。 - 选择自动检测单语言（LID）以标识文件的语言。输出单独保存。 - 选择自动检测多语言（MLID）以识别文件中的多种语言。将单独保存每种语言的输出。
听录 API	音频文件将发送到 Azure AI 服务，以获取转录和翻译的输出。如果指定了语言，则会相应地处理它。如果未指定任何语言，则运行 LID 或 MLID 进程以标识处理文件之后的语言。
输出统一	转录和翻译的文件统一到同一文件中。输出的数据包括每个提取句子的说话人 ID 及其置信度。
置信度值	每个句子的估计置信度计算为 0 到 1 的范围。置信度分数表示结果准确性的确定性。例如，82% 的确定性表示为 0.82 分数。

代码示例

查看所有 VI 示例

通过