获取光学字符识别（OCR）见解

项目
10/09/2024

光学字符识别 (OCR)

OCR 从图片、街道标志和媒体文件中的产品等图像中提取文本，以创建见解。

OCR 从打印文本和手写文本中提取超过 50 种语言的见解，包括来自具有多种语言文本的图像。有关详细信息，请参阅 OCR 支持的语言。

有关 OCR 的详细信息，请参阅 OCR 技术。

OCR 用例

例如，在执法部门中，深入搜索媒体镜头，寻找带有路标、街道名称或汽车车牌的图像。
从媒体文件中的图像中提取文本，然后在标签中将其翻译为多种语言，以便进行辅助功能，例如媒体或娱乐。
检测图像中的品牌名称并将其标记为翻译目的，例如广告和品牌。
提取图像中的文本，然后自动标记和分类，以便进行辅助功能和将来的用法，例如在通讯社生成内容。
在联机说明中提取警告中的文本，然后翻译文本以符合当地标准，例如，使用设备的电子学习说明。

使用 Web 门户查看见解 JSON

上传并编制视频索引后，可以使用 JSON 格式获取见解，以便使用 Web 门户进行下载。

选择“ 库 ”选项卡。
选择要处理的媒体。
选择“下载”和“见解”（JSON）。 JSON 文件将在新的浏览器选项卡中打开。
查找示例响应中所述的密钥对。

使用 API

使用“获取视频索引”请求。建议传递 &includeSummarizedInsights=false。
查找示例响应中所述的密钥对。

示例响应

    "ocr": [
        {
          "id": 1,
          "text": "2017 Ruler",
          "confidence": 0.4365,
          "left": 901,
          "top": 3,
          "width": 80,
          "height": 23,
          "angle": 0,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:45.5",
              "adjustedEnd": "0:00:46",
              "start": "0:00:45.5",
              "end": "0:00:46"
            },
            {
              "adjustedStart": "0:00:55",
              "adjustedEnd": "0:00:55.5",
              "start": "0:00:55",
              "end": "0:00:55.5"
            }
          ]
        },
        {
          "id": 2,
          "text": "2017 Ruler postppu - PowerPoint",
          "confidence": 0.4712,
          "left": 899,
          "top": 4,
          "width": 262,
          "height": 48,
          "angle": 0,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:44.5",
              "adjustedEnd": "0:00:45",
              "start": "0:00:44.5",
              "end": "0:00:45"
            }
          ]
        }

重要

阅读所有 VI 功能的透明度说明概述非常重要。每个见解也有其自己的透明度说明：

OCR 注释

视频索引器每个索引视频的 OCR 限制为 50,000 个单词。达到限制后，不会生成其他 OCR 结果。
仔细考虑结果的准确性，促进更准确的检测，检查图像的质量，低质量图像可能会影响检测到的见解。
仔细考虑何时用于执法。 OCR 可能会误读或未检测到文本的某些部分。为了确保公平和高质量的 VI 决定，将基于 OCR 的自动化与人工监督相结合。
提取手写文本时，请避免使用人类和计算机难以读取的签名的 OCR 结果。使用 OCR 的更好方法是使用它来检测签名是否存在以进一步分析。
不要将 OCR 用于可能对个人或组产生严重不利影响的决策。提取文本的机器学习模型可能会导致文本输出未检测到或不正确。基于错误输出的决策可能会对必须避免的严重不利影响。应始终包括人工审查对可能对个人产生严重影响的决定。

OCR 组件

在 OCR 过程中，处理媒体文件中的文本图像，如下所示：

组件	定义
源文件	用户上传源文件进行索引。
“读取”模型	图像在媒体文件和文本中检测到，然后由 Azure AI 服务提取和分析。
获取读取结果模型	提取文本的输出显示在 JSON 文件中。
置信度值	每个单词的估计置信度计算为 0 到 1 的范围。置信度分数表示结果准确性的确定性。例如，82% 的确定性表示为 0.82 分数。

代码示例

查看所有 VI 示例

通过