本文共 932 字,大约阅读时间需要 3 分钟。
在无人机捕获的视觉数据中,有一组物体被严重遮挡(见自行车的橙色边框)。如果我们使用非最大抑制(NMS)来抑制检测器中的重复检测,将不可避免地删除大多数真正的正对象。在一些实际应用中,对人群中的单个目标进行定位是不必要且不切实际的。因此,使用一个带计数的较大边界框来表示同一类别的一组物体更为合理(见自行车的白色边界框)。
同时,如果我们使用新的标注补救,我们需要重新设计度量来评价检测算法,即在评价时既要考虑定位精度又要考虑计数精度。
当前的对象检测方法使用包围盒来表示对象实例,即4元组(x;y;w;h),其中x、y为边界框左上角的坐标,w、h为边界框的宽、高。
时间相干性。利用时间相干性的一个可行方法是使用对象跟踪器,例如ECO[98]和SiamRPN++[99],引入检测算法。具体来说,我们可以为每一帧中检测到的对象实例分配一个跟踪器来指导连续帧中的检测,有效地抑制检测中的假阴性。
同时,集成再识别模块是另一种有前途的方式,利用时间一致性,以更好的性能,正如在D&T中所描述的[105]。
功能聚合。在连续帧中聚合特征也是提高性能的有效方法。正如FGFA[95]中所述,沿运动路径聚合附近的特征以利用时间一致性显著提高检测精度。因此,我们可以将几个连续的帧作为输入,将它们输入到深度神经网络中,利用三维卷积运算或光流算法提取时间显著性特征。
在数据关联问题中,不同检测帧之间的相似度计算是提高跟踪性能的关键。
相似度的计算需要考虑图像和运动信息。
例如,在ImageNet VID数据集[3]上离线训练的Siamese网络可以用于开发对象的时间区分特征。
在跟踪过程中可以对Siamese网络进行微调,以进一步提高跟踪精度。
同时,一些低层和中层的运动特征对MOT算法也是有效和有用的,如KLT和光流
场景的理解。
是提高MOT性能的另一有效途径。
例如,基于场景理解模块,我们可以推断出场景中的进入或退出端口。
在跟踪器中,输入和输出端口的信息具有很强的先验性,可以区分目标的遮挡、终止或再现。
同时,跟踪器还能够基于一般知识和场景理解抑制假轨迹,例如车辆只在道路上行驶,而不是在建筑物上行驶。
综上所述,这一领域值得进一步研究,以提高MOT的性能。
转载地址:http://vjdlf.baihongyu.com/