获取对象检测见解

对象检测

Azure AI 视频索引器检测视频中的对象,例如汽车、手提包和背包和笔记本电脑。

支持的对象

  • airplane
  • apple
  • 背包
  • banana
  • 棒球手套
  • 长椅
  • 自行车
  • 船只
  • 书籍
  • bowl
  • 西兰花
  • 公交车
  • 蛋糕
  • car
  • 胡萝卜
  • cell phone
  • 椅子
  • clock
  • 计算机鼠标
  • 沙发
  • 杯子
  • 餐桌
  • donut
  • 消防栓
  • 分支
  • 飞盘
  • 电吹风
  • 手提包
  • 热狗
  • keyboard
  • 风筝
  • knife
  • laptop
  • 微波
  • 摩托车
  • 计算机鼠标
  • 领带
  • orange
  • 烤箱
  • 停车计时器
  • pizza
  • 盆花
  • sandwich
  • scissors
  • 接收器
  • skateboard
  • 滑雪板
  • 滑雪板
  • 勺子
  • 运动球
  • 停车标志
  • 手提箱
  • 冲浪板
  • 玩具熊
  • 网球拍
  • 吐司炉
  • 厕所
  • 牙刷
  • 交通灯
  • 定型 (train)
  • 雨伞
  • 花瓶
  • 酒杯

使用 Web 门户查看见解 JSON

上传并编制视频索引后,可以使用 JSON 格式获取见解,以便使用 Web 门户进行下载。

  1. 选择“ ”选项卡。
  2. 选择要处理的媒体。
  3. 选择“下载“见解”(JSON)。 JSON 文件将在新的浏览器选项卡中打开。
  4. 查找示例响应中所述的密钥对。

使用 API

  1. 使用“获取视频索引”请求。 建议传递 &includeSummarizedInsights=false
  2. 查找示例响应中所述的密钥对。

示例响应

检测到和跟踪的对象显示在下载 的insights.json 文件中的“检测到的对象”下。 每次检测到唯一对象时,都会为其指定 ID。 该对象也会被跟踪,这意味着模型监视检测到的对象以返回到帧。 如果这样做,则会将另一个实例添加到具有不同开始和结束时间的对象实例中。

在此示例中,检测到第一辆车,并给出 ID 为 1,因为它也是检测到的第一个对象。 然后,检测到另一辆车,该车被赋予 ID 为 23,因为它是检测到的第 23 个对象。 后来,第一辆车再次出现,另一个实例已添加到 JSON。 下面是生成的 JSON:

detectedObjects: [
    {
    id: 1,
    type: "Car",
    thumbnailId: "1c0b9fbb-6e05-42e3-96c1-abe2cd48t33",
    displayName: "car",
    wikiDataId: "Q1420",
    instances: [
        {
        confidence: 0.468,
        adjustedStart: "0:00:00",
        adjustedEnd: "0:00:02.44",
        start: "0:00:00",
        end: "0:00:02.44"
        },
        {
        confidence: 0.53,
        adjustedStart: "0:03:00",
        adjustedEnd: "0:00:03.55",
        start: "0:03:00",
        end: "0:00:03.55"
        }    
    ]
    },
    {
    id: 23,
    type: "Car",
    thumbnailId: "1c0b9fbb-6e05-42e3-96c1-abe2cd48t34",
    displayName: "car",
    wikiDataId: "Q1420",
    instances: [
        {
        confidence: 0.427,
        adjustedStart: "0:00:00",
        adjustedEnd: "0:00:14.24",
        start: "0:00:00",
        end: "0:00:14.24"
        }    
    ]
    }
]
定义
ID 媒体文件中检测到对象的增量 ID 数
类型 对象类型,例如 Car
ThumbnailID 表示对对象的单个检测的 GUID
displayName 要显示在 VI 门户体验中的名称
WikiDataID WikiData 结构中的唯一标识符
实例 跟踪的所有实例的列表
置信度 0-1 之间的分数,指示对象检测置信度
adjustedStart 使用编辑器时调整了视频的开始时间
adjustedEnd 使用编辑器时调整了视频的结束时间
start 对象出现在框架中的时间
end 对象不再出现在帧中的时间

组件

没有为对象检测定义任何组件。

透明度说明

重要

阅读 所有 VI 功能的透明度说明概述 非常重要。 每个见解也有其自己的透明度说明:

  • 每个帧最多有 20 个检测用于标准和高级处理,每个类最多有 35 个轨迹。
  • 对象大小不应大于帧的 90%。 无法识别一致跨越大部分帧的大型对象。
  • 小型或模糊对象可能难以检测。 他们要么被错过,要么被错误分类(酒杯,杯子)。
  • 无法识别暂时性且出现在极少数帧中的对象。
  • 可能影响物体检测准确性的其他因素包括低光条件、相机运动和遮挡。
  • Azure AI 视频索引器仅支持实际对象。 不支持动画或 CGI。 计算机生成的图形(如新闻贴纸)可能会产生奇怪的结果。
  • 联编机、小册子和其他书面材料往往被检测为“书籍”。

代码示例

查看所有 VI 示例