Transparent Object Tracking Benchmark
针对透明物体的跟踪数据集
论文链接:https://arxiv.org/abs/2011.10875
写在前面
很久没有更新论文Markdown了,最近看了篇关于透明数据集的文章,感觉很有趣,以后测试跟踪器性能就可以用上新的dataset了~
摘要
提出TOTB数据集,该数据集中包含225个视频,分为15类。TOTB是第一个针对透明物体跟踪的数据集,选择了25个算法来在该数据集上进行测试。我们发现一些nontrivial的结论,如,深层特征并不是总能带来很好的增幅。同时,我们提出了TransATOM跟踪器,利用transparency特征,跟踪性能超过上述25个跟踪器。
介绍
transparent目标,指,玻璃杯或塑料制品。 (其他的文字描述感觉没有什么很特别的,就不记录了)
Contribution
- 提出TOTB,第一个针对透明物体的数据集
- 对25个跟踪算法进行对比分析
- 设计了一个针对透明物体的跟踪器,叫做TransATOM
相关工作
跟踪算法
可以分为相关滤波和深度学习两个方向。总的来说,相关滤波跟踪器将跟踪器视为在线回归问题。
跟踪数据集
可以把现有的数据集分为,通用跟踪数据集和特定数据集。
-
通用跟踪数据集
OTB-2013:第一个通用场景数据集,有50个视频。OTB-2015是扩展后的数据集。
TC-128:128个colorful的视频,针对研究图像颜色信息。
VOT:60个视频
NfS:高速率,high frame rate
NUS-PRO:365个视频,针对rigid object
TracKlinic:2390个视频
Ox-UvA:366个视频 针对long-term
TrackingNet:包含超过30k个视频
GOT-10k:提供10K视频,丰富的运动轨迹
LaSOT:包含1400个long-term视频 -
specific跟踪数据集
UAV123:无人驾驶飞行器所拍摄的123个视频
CDTB:RGB-D视频序列
PTB:RGB-D视频序列
VOT-TIR:VOT中的RGB-T视频序列
Vsion中处理透明物体
现有一些算法来对静止图片中的透明物体进行检测和分割,而本文针对视频中静止物体的定位任务更为复杂。
透明物体跟踪数据集
视频收集
TOTB中有15类透明物体,其中window和door现实生活中很常见,但是多为静止所以不适合用于跟踪数据集中。从YouTube数据集中收集每类相关的视频数据,每类收集到至少30个视频,总共超过600视频序列。然后,我们仔细检查每个序列的可跟踪性,并为每个类别选择15个序列。我们对每个原始序列的内容进行验证,去掉不相关的部分,得到一个适合跟踪的视频片段。我们将每个视频的帧数限制在500帧以内,这足以测试跟踪器在透明对象上的性能,同时还可以管理标记。最终TOTB包含225个视频,15类透明物体,86K视频帧。
标注
我们遵守视频标注的准则,根据给定的视频,对于每帧,如果目标出现则使用axis-aligned目标框进行标注,若没有出现则对该帧给出absence标签,full occlusion或out of view。根据以上准则,我们使用三步策略进行标注,包括,包括人工标签、检查和目标框优化。在第一部分,每个视频由专门的人进行标注。虽然在该阶段会出现标注不一致的情况,但是在第二阶段通过visual检查进行修改。
属性
我们对每个视频标注12个属性。1)光照变化 2)部分遮挡 3)形变 4)运动模糊 5)旋转 6)背景复杂 7)尺度变化 8)完全遮挡 9)快速移动,目标中心移动超多上一帧目标尺寸50% 10)超出视野 11)低分辨率 12)aspect ratio change
TOTB中最常见的挑战为旋转,而opaque数据集常见的挑战为尺度变化。
新的baseline:TransATOM
我们采用ResNet18和简单的FCN构建分割网络来进行inference。在我们的任务中,我们只分割尺寸小、可移动的透明物体。训练完分割网络,我们用该网络提取透明物体的相关特征。将其特征与ATOM相融合,称为TransATOM。TransATOM包含两个特征分支,一个分支是ResNet18用来分类,另一个是我们训练得到的分割网络。对于两个分支,提取block4之后的特征,concatenate两者来获取更加鲁棒特征。
分类网络包含两层卷积网络
TransATOM能够很好地对透明物体进行定位,实时速度为26fps。
评估
我们采用OPE和PRE来对跟踪器进行评估。不同的算法根据他们的PRE分数进行排序,(阈值为20像素)。为了排除不同尺寸的影响,采用NPRE归一化precision,来评价跟踪器的表现。SUC分数为跟踪结果与真实值之间的重叠区域值,同时SUC分数是计算IoU值大于0.5的跟踪结果。
评估跟踪器
我们评估了25个跟踪器,将其分为三类:基于相关滤波、基于孪生网络、基于深度学习。
评估结果
具体看论文啦,我就不写了~
写完bb:
觉得这篇文章的出发点,很有意思,也得出了与以往跟踪文章所认为深度特征对跟踪效果有improve作用的相反结论。但是感觉所提出的baseline的创新貌似不是很大,就单纯是两个branch对应两个任务的特征,最后concate一下再使用,感觉还可以再refine一下。秋招陆陆续续结束,学校附近的疫情也有反复的情况,那就安安静静的在实验室搞科研吧555,希望一切都快点好起来。