获取光学字符识别(OCR)见解

光学字符识别 (OCR)

OCR 从图片、街道标志和媒体文件中的产品等图像中提取文本,以创建见解。

OCR 从打印文本和手写文本中提取超过 50 种语言的见解,包括来自具有多种语言文本的图像。 有关详细信息,请参阅 OCR 支持的语言

有关 OCR 的详细信息,请参阅 OCR 技术

OCR 用例

  • 例如,在执法部门中,深入搜索媒体镜头,寻找带有路标、街道名称或汽车车牌的图像。
  • 从媒体文件中的图像中提取文本,然后在标签中将其翻译为多种语言,以便进行辅助功能,例如媒体或娱乐。
  • 检测图像中的品牌名称并将其标记为翻译目的,例如广告和品牌。
  • 提取图像中的文本,然后自动标记和分类,以便进行辅助功能和将来的用法,例如在通讯社生成内容。
  • 在联机说明中提取警告中的文本,然后翻译文本以符合当地标准,例如,使用设备的电子学习说明。

使用 Web 门户查看见解 JSON

上传并编制视频索引后,可以使用 JSON 格式获取见解,以便使用 Web 门户进行下载。

  1. 选择“ ”选项卡。
  2. 选择要处理的媒体。
  3. 选择“下载“见解”(JSON)。 JSON 文件将在新的浏览器选项卡中打开。
  4. 查找示例响应中所述的密钥对。

使用 API

  1. 使用“获取视频索引”请求。 建议传递 &includeSummarizedInsights=false
  2. 查找示例响应中所述的密钥对。

示例响应

    "ocr": [
        {
          "id": 1,
          "text": "2017 Ruler",
          "confidence": 0.4365,
          "left": 901,
          "top": 3,
          "width": 80,
          "height": 23,
          "angle": 0,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:45.5",
              "adjustedEnd": "0:00:46",
              "start": "0:00:45.5",
              "end": "0:00:46"
            },
            {
              "adjustedStart": "0:00:55",
              "adjustedEnd": "0:00:55.5",
              "start": "0:00:55",
              "end": "0:00:55.5"
            }
          ]
        },
        {
          "id": 2,
          "text": "2017 Ruler postppu - PowerPoint",
          "confidence": 0.4712,
          "left": 899,
          "top": 4,
          "width": 262,
          "height": 48,
          "angle": 0,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:44.5",
              "adjustedEnd": "0:00:45",
              "start": "0:00:44.5",
              "end": "0:00:45"
            }
          ]
        }

重要

阅读 所有 VI 功能的透明度说明概述 非常重要。 每个见解也有其自己的透明度说明:

OCR 注释

  • 视频索引器每个索引视频的 OCR 限制为 50,000 个单词。 达到限制后,不会生成其他 OCR 结果。
  • 仔细考虑结果的准确性,促进更准确的检测,检查图像的质量,低质量图像可能会影响检测到的见解。
  • 仔细考虑何时用于执法。 OCR 可能会误读或未检测到文本的某些部分。 为了确保公平和高质量的 VI 决定,将基于 OCR 的自动化与人工监督相结合。
  • 提取手写文本时,请避免使用人类和计算机难以读取的签名的 OCR 结果。 使用 OCR 的更好方法是使用它来检测签名是否存在以进一步分析。
  • 不要将 OCR 用于可能对个人或组产生严重不利影响的决策。 提取文本的机器学习模型可能会导致文本输出未检测到或不正确。 基于错误输出的决策可能会对必须避免的严重不利影响。 应始终包括人工审查对可能对个人产生严重影响的决定。

OCR 组件

在 OCR 过程中,处理媒体文件中的文本图像,如下所示:

组件 定义
源文件 用户上传源文件进行索引。
“读取”模型 图像在媒体文件和文本中检测到,然后由 Azure AI 服务提取和分析。
获取读取结果模型 提取文本的输出显示在 JSON 文件中。
置信度值 每个单词的估计置信度计算为 0 到 1 的范围。 置信度分数表示结果准确性的确定性。 例如,82% 的确定性表示为 0.82 分数。

代码示例

查看所有 VI 示例