一些单目标跟踪数据集

2023-10-02 14:06:34

1. GOT-10k

《GOT-10k: A Large High-Diversity Benchmark for Generic Object Tracking in the Wild》

Generic Object Tracking Benchmark，提供了一个通用目标跟踪基准，发布于2018年。
网站：GOT-10k: Generic Object Tracking Benchmark (http://got-10k.aitestunion.com/)

完整数据大概有 66 66 66 GB。

部分数据预览（来自官网）：

主要一些特点：

（1）提供了短期，通用类别跟踪的大规模数据。有 10 , 000 10,000 10,000 段视频，超过 1 , 500 , 000 1,500,000 1,500,000 个手工标注的包围框。一共有 563 563 563 个目标种类， 87 87 87 种运动形式。
（2）
（2）测试集由 420 420 420 个视频组成，含有 84 84 84 个目标类别和 31 31 31 个运动类别。训练集和测试集完全没有重叠数据，避免评估结果偏向于熟悉的对象，促进跟踪器泛化能力的开发。
（3）提供了额外的标签，例如运动类型、目标的可见比率、遮挡指示，促进了跟踪器的运动感知和遮挡感知的开发。
（4）作者用了 39 39 39 个典型的跟踪算法及其变体，在 GOT-10k 上进行了分析和实验。进行了广泛的实验来研究数据集不同的方面对于训练深度跟踪器的影响。意思是你可以相信这个数据集。
（5）作者提供了功能齐全的工具包，很容易接入和使用。测试集的标注是没有公开的，跑完之后要把结果提交到它们服务器，避免大家作弊。

表格里面有 5 5 5 个大类，GOT-10k 的 563 563 563 个目标类别都是从这 5 5 5 个大类扩展来的。

2. LaSOT

《LaSOT: A High-quality Benchmark for Large-scale Single Object Tracking》

Large-scale Single Object Tracking，旨在提供一个专用的平台，为了训练一个需要大量数据的深度跟踪器，也为了评估长期跟踪的性能。

网址：http://vision.cs.stony*.edu/~lasot/

第一版有里有 70 70 70 个种类， 1 , 400 1,400 1,400 个视频序列，大概 227 227 227GB 左右。
第二版进行了扩展，额外提供了 15 15 15 个种类， 150 150 150 个视频序列，大约 59 59 59GB 的数据。

2018年左右的数据集。有以下特点：

（1）Large-scale，大规模： 1 , 550 1,550 1,550 个视频序列，超过 3 , 870 , 000 3,870,000 3,870,000 帧图像。
（2）High-quality，高质量：手工标注，每一帧都仔细检擦。
（3）Category balance，类别平衡： 85 85 85 个类别，其中 70 70 70 个每个有二十个序列，其中 15 15 15 个每个有十个序列。无论目标属于哪个类别，都希望跟踪器表现鲁棒，我们包含了不同的目标集合，来自 70 70 70 个类别，每个类别拥有相同数量的视频。
（4）Long-term tracking，长期跟踪：我们保证每个序列有至少 1 , 000 1,000 1,000 帧，平均视频长度大概 2 , 500 2,500 2,500 帧（例如 30 fps 30\text{fps} 30fps 的视频有 83 83 83 秒）。最短的视频有 1 , 000 1,000 1,000 帧，最长的一个有 11 , 397 11,397 11,397 帧（ 378 378 378 秒）。
（5）Comprehensive labeling，详尽的标签：每个序列提供了视觉的语言的标注。
（6）Flexible Evaluation Protocol，灵活的评估协议：在三种不同协议下进行评估：无约束、完全重叠和一次性。

LaSOT 由 70 70 70 种对象类别组成。大多数类别是从 ImageNet 的1000个类中选择的，只有少数例外（例如无人机）是为流行的跟踪应用程序精心选择的。与现有的密集基准不同，这些基准的类别少于 30 30 30 个，而且通常分布不均匀，LaSOT 为每个类别提供相同数量的序列，以缓解潜在的类别偏差。

LaSOT 的每个类别有 20 20 20 种目标，反映了自然场景的类别平衡和多样性。

我们关注长期的视频，在这些视频中，目标物体可能会消失，然后再次进入视图。
此外，我们为每个序列提供了自然语言描述。

为了进一步分析跟踪器的性能，我们对每个序列标注了 14 14 14 条属性：
照明变化（illumination variation，IV）
完全遮挡（full occlusion，FOC）
部分遮挡（partial occlusion，POC）
变形（deformation，DEF）
运动模糊（motion blur，MB）
快速运动（fast motion，FM）
尺度变化（scale variation，SV）
相机运动（camera motion，CM）
旋转（rotation，ROT）
背景杂波（background clutter，BC）
低分辨率（low resolution，LR）
视点变化（viewpoint change，VC）
超出视野（out-of-view，OV）
长宽比变化（aspect ratio change，ARC）

从上图中，我们观察到 LaSOT 中最常见的挑战因素是尺度变化（SV，ARC）、遮挡（POC，FOC）、变形（DEF）、旋转（ROT），这是跟踪器在现实世界的众所周知的挑战。此外，可以看到 LaSOT 有超过 1 , 300 1,300 1,300 条视频涉及尺度变化，有 477 477 477 个序列含有超出视野（OV）的属性，大大高于其他基准数据集。

本数据集提供了两种算法评估协议。
∙ \bullet ∙ 协议 I \text{I} I ：用整个 1 , 400 1,400 1,400 个序列来验证跟踪器的性能。研究者可以使用 LaSOT 以外的任何数据来开发跟踪器。

协议 I \text{I} I 旨在提供大规模的评估。

∙ \bullet ∙ 协议 II \text{II} II ：我们把 LaSOT 拆分成 training 和 testing 两个子集。根据 80 / 20 80/20 80/20 原则，我们从每个类别的 20 个视频中选择 16 个进行训练，剩下的 4 个用于测试。其中训练集包含 1 , 120 1,120 1,120 个视频， 2 , 830 , 000 2,830,000 2,830,000 帧图片。测试集包含 280 280 280 个序列， 690 , 000 690,000 690,000 帧图片。

协议 II \text{II} II 旨在同时为训练和评估提供大量的视频。

3. TrackingNet

《TrackingNet: A Large-Scale Dataset and Benchmark for Object Tracking in the Wild》

网址：https://tracking-net.org/

2018年发布的数据集。说当时都是一些小的数据集，没办法用于训练深度学习、机器学习的跟踪算法。缺乏大规模的数据集。

共 30 , 643 30,643 30,643 段视频，平均时长 16.6 16.6 16.6s， 14 , 341 , 266 14,341,266 14,341,266 个密集标注框，约 1.14 1.14 1.14 TB。

从 Youtube-BoundingBoxes (YT-BB) 中精心挑选 30 , 132 30,132 30,132 段视频作为训练集。
构建了一个由 511 511 511 段视频组成的新集合作为测试集，其分布与训练集相似。

Youtube-BoundingBoxes (YT-BB) 是一个用于目标检测的大规模数据集，包含约380,000个视频片段。这些视频都是直接从YouTube上收集的，在分辨率、帧率和持续时间上有很大的差异。YT-BB包含23个对象类别，其中 person 类占 25 % 25\% 25%，我们把它分成了 7 7 7 个具体类。

为了保证视频的质量，用于跟踪任务，我们基于属性规则过滤掉了 90 % 90\% 90% 的东西。
首先，我们删掉了那些小于 15 15 15 秒的视频。
第二，我们只考虑那些包围框占画面 50 % 50\% 50% 以内的。
第三，保留了那些包围框在合理变化范围内的视频段。

经过过滤后，我们保留了 21 21 21 个目标种类，保留了它们在 YT-BB 中的原始分布，防止数据集存在偏差。最终得到的训练集有 30 , 132 30,132 30,132 段视频，我们把它们分成了 12 12 12 份，每份包含 2 , 511 2,511 2,511 段视频，它们每个里面也维持着 YT-BB 中的原始分布。（意思是你合起来用也行，当做大型数据。分开用也行，数据量小一点，但数据的属性和分布是一样的。）

对于测试数据，提供了 15 15 15 条属性，上面 5 5 5 个是自动提取的，根据分析包围框在一定时间内的变化得到的。下面 10 10 10 个是对数据集的 511 511 511 条视频人工查看分析来手动确认的。

我们能够更好地控制数据集中每个视频的帧数，并且相对于其他数据集具有更大的包容性。们认为这种包含长度多样性更适合于固定批量的训练。

其次，在TrackingNet中，包围框的分辨率的分布更加多样化，提供了要跟踪的对象的尺度更加多样化。

对于在 YT-BB 上运动得很快的东西，TrackingNet 展现出更自然的运动分布。而 OTB100 和 VOT17 上的挑战主要就是集中在运动特别大的目标上。

码农公寓

1. GOT-10k

2. LaSOT

3. TrackingNet

相关文章