获取对象检测见解

项目
10/09/2024

对象检测

Azure AI 视频索引器检测视频中的对象，例如汽车、手提包和背包和笔记本电脑。

支持的对象

airplane
apple
背包
banana
棒球手套
床
长椅
自行车
船只
书籍
瓶
bowl
西兰花
公交车
蛋糕

car
胡萝卜
cell phone
椅子
clock
计算机鼠标
沙发
杯子
餐桌
donut
消防栓
分支
飞盘

电吹风
手提包
热狗
keyboard
风筝
knife
laptop
微波
摩托车
计算机鼠标
领带
orange
烤箱
停车计时器
pizza
盆花

sandwich
scissors
接收器
skateboard
滑雪板
滑雪板
勺子
运动球
停车标志
手提箱
冲浪板
玩具熊

网球拍
吐司炉
厕所
牙刷
交通灯
定型 (train)
雨伞
花瓶
酒杯

使用 Web 门户查看见解 JSON

上传并编制视频索引后，可以使用 JSON 格式获取见解，以便使用 Web 门户进行下载。

选择“ 库 ”选项卡。
选择要处理的媒体。
选择“下载”和“见解”（JSON）。 JSON 文件将在新的浏览器选项卡中打开。
查找示例响应中所述的密钥对。

使用 API

使用“获取视频索引”请求。建议传递 &includeSummarizedInsights=false。
查找示例响应中所述的密钥对。

示例响应

检测到和跟踪的对象显示在下载 的insights.json 文件中的“检测到的对象”下。每次检测到唯一对象时，都会为其指定 ID。该对象也会被跟踪，这意味着模型监视检测到的对象以返回到帧。如果这样做，则会将另一个实例添加到具有不同开始和结束时间的对象实例中。

在此示例中，检测到第一辆车，并给出 ID 为 1，因为它也是检测到的第一个对象。然后，检测到另一辆车，该车被赋予 ID 为 23，因为它是检测到的第 23 个对象。后来，第一辆车再次出现，另一个实例已添加到 JSON。下面是生成的 JSON：

detectedObjects: [
    {
    id: 1,
    type: "Car",
    thumbnailId: "1c0b9fbb-6e05-42e3-96c1-abe2cd48t33",
    displayName: "car",
    wikiDataId: "Q1420",
    instances: [
        {
        confidence: 0.468,
        adjustedStart: "0:00:00",
        adjustedEnd: "0:00:02.44",
        start: "0:00:00",
        end: "0:00:02.44"
        },
        {
        confidence: 0.53,
        adjustedStart: "0:03:00",
        adjustedEnd: "0:00:03.55",
        start: "0:03:00",
        end: "0:00:03.55"
        }    
    ]
    },
    {
    id: 23,
    type: "Car",
    thumbnailId: "1c0b9fbb-6e05-42e3-96c1-abe2cd48t34",
    displayName: "car",
    wikiDataId: "Q1420",
    instances: [
        {
        confidence: 0.427,
        adjustedStart: "0:00:00",
        adjustedEnd: "0:00:14.24",
        start: "0:00:00",
        end: "0:00:14.24"
        }    
    ]
    }
]

键	定义
ID	媒体文件中检测到对象的增量 ID 数
类型	对象类型，例如 Car
ThumbnailID	表示对对象的单个检测的 GUID
displayName	要显示在 VI 门户体验中的名称
WikiDataID	WikiData 结构中的唯一标识符
实例	跟踪的所有实例的列表
置信度	0-1 之间的分数，指示对象检测置信度
adjustedStart	使用编辑器时调整了视频的开始时间
adjustedEnd	使用编辑器时调整了视频的结束时间
start	对象出现在框架中的时间
end	对象不再出现在帧中的时间

组件

没有为对象检测定义任何组件。

透明度说明

重要

阅读所有 VI 功能的透明度说明概述非常重要。每个见解也有其自己的透明度说明：

每个帧最多有 20 个检测用于标准和高级处理，每个类最多有 35 个轨迹。
对象大小不应大于帧的 90%。无法识别一致跨越大部分帧的大型对象。
小型或模糊对象可能难以检测。他们要么被错过，要么被错误分类（酒杯，杯子）。
无法识别暂时性且出现在极少数帧中的对象。
可能影响物体检测准确性的其他因素包括低光条件、相机运动和遮挡。
Azure AI 视频索引器仅支持实际对象。不支持动画或 CGI。计算机生成的图形（如新闻贴纸）可能会产生奇怪的结果。
联编机、小册子和其他书面材料往往被检测为“书籍”。

代码示例

查看所有 VI 示例

通过