(一 原文阅读)
来源:PRCV2021
项目地址:https://sites.google.com/view/langtrackbenchmark/
主要思想:针对基于BBox的追踪方法存在着难以对第一帧进行初始化、初始化的BBox对目标可能不是最优化表示、对目标外观大幅度变化处理不佳等问题,提出使用自然语言处理方式来进行追踪。通过NLP来提升目标对象从空间位置到高级语义信息(属性、类别、形状、以及其他对象的结构关系)的更精确的表达,帮助BBox对抗模型漂移或同时进行多视频追踪。开发了一个基于自然语言追踪的数据集TNL2K(以后有可能作为NLP进行追踪的又一基准数据集),并使用一个新的基线方法AdaSwitcher在该数据集进行追踪实验。
文章翻译:
Abstract:通过自然语言规范进行追踪是一个新兴的研究主题,只在基于目标对象的语言描述在视频序列中对其进行定位。和传统的基于Bounding Box的方法相比,这种设置用高级语义信息指导目标追踪,解决了BBox的模糊性,并将局部和全局搜索有机的连接在一起。这些优点可能会在实际场景中带来更灵活、鲁棒和准确的追踪性能。然而现有的自然语言初始化追踪器被开发出来,并在BBox追踪提出的基准数据集上进行了比较,并不能反映处语言追踪器的真正能力。在本文中,我们提出了一个专门针对语言跟踪的新基准,其中包括大规模数据集强大而多样的基准方法。具体来说,我们收集了2k个视频序列(总共包含1,244,340帧,663个单词),并分别将1300/700分割用于训练/测试。我们为每个视频都密集标注了一个英语句子和目标对象对应的边界框。我们还在TNL2K中引入了目标追踪任务的两个新挑战,即对抗样本和模态切换。提出了一种基于自适应局部-全局搜索方案的强大基准方法,以供将来作比较。我们相信,这一基准将极大地促进有关自然语言引导追踪的相关研究。
Introduction:单目标追踪是计算机视觉中最重要的任务之一,它在许多应用中都有着广泛运用比如:视频监督、机器人、自动驾驶等。通常,它们在第一帧用一个边界框(BBox)初始化目标对象,如图所示。1 (a),并调整BBox随目标物体的运动。大多数现有的单对象追踪器都是基于此设置开发的,并且为此提出了许多基准数据集。尽管这些追踪器已经被许多应用采取,但通过BBox来追踪的设置仍然存在着一下问题:1)在实际场景中,用BBox来来初始化第一帧中的目标对象是不容易的。换句话说,初始化限制了现有BBox追踪器的应用。2)初始化的BBox对于目标对象的表示可能不是最优的,这可能导致歧义。如图1 (a)所示,跟踪器可能会被混淆来跟踪自行车或行人的下体。类似的观点也见于[21,43,65,78]。3)当前基于BBox的追踪器对目标对象突然出现的外观变化时可能效果不佳,例如图1(b)中的面部/换衣服或物种变化。因为在第一帧中初始化的外观特征和追踪过程中的目标有很大的不同。在第一帧中只有一个初始化样本不足以解决这些具有挑战的场景。这些观察结果都启发着我们开始思考如何以更使用和准确的方法来进行追踪?
最近,一些学者试图通过自然语言描述来代替BBox进行追踪,称为自然语言追踪。这种设置允许在对象追踪中使用一种新型的人机交互。例如,它可以增强现有的基于BBox的追踪器,帮助它们对抗模型漂移或同时进行多视频追踪。更重更的是,与BBox相比,自然语言对人类的表达更加直观方便。它可以提供目标对象从空间位置到高级语义信息(属性、类别、形状、以及其他对象的结构关系)的更精确的表达。这些信息将有助于解决BBox的模糊性问题和目标物体的巨大外观变化。同时,该语言还可以更灵活地指定目标对象,如图1(c)中的“控制球的玩家”。智能追踪器应该专注于目标球员,甚至将球传给不同的人,而不需要像标准的视觉追踪设置那样重新初始化目标球员。然而这一研究课题远比标准化目标追踪受到的关注要小。在专门为基于BBox的追踪器设计的追踪基准数据集上,只有少数作品被开发和比较。这些基准可能无法很好的反映按语言进行追踪的真正性能,这激发了我们为此任务设计新的大规模基准。
在这项工作中,我们收集了一个包含2000个视频序列的大规模视频数据集,命名为TNL2K。这些视频从YouTobe收集来的,监控摄像头和移动。对于每个视频,我们都为每一帧中的目标密集的标注了位置信息,并为整个视频标注了一个英文句子。具体的,我们描述了目标对象的类别、形状、属性、和空间位置,为追踪提供了丰富的细粒度外观信息和高层次的语义信息。我们选择了1300个视频用于训练,其余的700个用于测试。我们的视频也反映了追踪任务的两个属性,即RGB和热数据之间的对抗性样本和模态切换。为了提供一个基线方法供其他研究者做比较,我们设计了一个简单但强大的基于自适应全局搜索方案的算法。具体而言,提供了三种基准结果,即,按BBox进行跟踪,按语言进行跟踪,按BBox进行跟踪和语言。
本文的贡献可以概括为以下三个方面:
1):我们提出了一个基于自然语言追踪的数据集TNL2K,它由2000个视频序列组成。它的目的是为开发和和评估基于自然语言的追踪算法提供一个专门的平台。
2):我们提出了一个简单但功能强大的基线方法(AdaSwitcher)供以后的工作进行比较,该方法可以自适应地在本地追踪算法和全局边界模块之间进行切换。
3):为了给TNL2K数据集提供的基准进行一个更广泛的比较,我们还评估了40多个基于BBox的代表性追踪器,并使用不同的评估指标分析了它们的性能。
Related Work:
Tracking by Bounding Box:标准跟踪器基于第一帧中初始化的BBox开始跟踪过程,包括基于分类的[24,31,52,53],基于暹罗网络的[11、12、35、64、72],基于相关性过滤器[13] ,15、27、48]和基于回归的方法[26]。受神经网络在图像分类方面成功的启发,目前大多数跟踪器都是基于深度学习开发的。具体来说,基于Siamese网络的跟踪器在多个跟踪基准上实现了最先进的性能。以前的Siamese跟踪器只是用提取的建议来衡量静态目标模板之间的相似性,并将得分最高的建议作为它们的跟踪结果。最近,一些研究人员开始收集跟踪结果,这些结果可用于动态更新目标模板并获得更好的结果[75,81]。除了学习强大的特征表示和进行局部搜索跟踪外,一些跟踪器试图通过全局搜索实现全面跟踪[22,29,59,63,66,74]。有关标准视觉跟踪的更多相关工作,请查阅以下调查论文[39,42,49,56,79]。
Tracking by Natural Language:由于这是一个新兴的研究主题,仅开发出几个算法,[43]的作者首先通过设计三个模块验证了自然语言对跟踪任务的有效性。Wang [65]和Feng [21]也建议使用语言信息来生成用于跟踪的全局建议。Yang等人提出了GTI[78],将跟踪问题分解为grounding、跟踪和集成三个子任务,这些模块同时工作,逐帧预测盒序列。这些方法是针对专门为按BBox跟踪而设计的数据集进行评估,这些数据集可能无法反映按语言跟踪的特点。我们相信我们的基准测试将极大地促进与自然语言相关的目标追踪的研究。
Benchmarks for tracking:根据是否包含训练数据,现有的可视跟踪基准可以归纳为两个主要类别。如表1所示,以前的基准[32 34,41,41,44,70,71]只在深度跟踪出现之前提供测试视频。值得注意的是,OTB-2013[70]和OTB-2015[71]是第一个视觉跟踪的公共基准,分别包含50和100个视频序列。在深度学习时代,提出了一些大规模的跟踪基准来训练深度跟踪器。 例如,GOT-10k [28]包含10,000个视频,可以分为563个类别。 TrackingNet [51]是视频对象检测基准YT-BB [54]的子集(选择了31K序列),地面实况以1 FPS手动标记。 OxUvA [58]和LaSOT [19]是两个长期跟踪基准,分别由366个视频序列和1400个视频序列组成。尽管LaSOT实际上提供了目标对象的语言规范,但上述跟踪基准主要都是为BBox跟踪而设计的。但是,它们只描述目标对象的外观,而忽略了相对位置,这可能会限制自然语言的整合。换句话说,他们的基准适用于自然语言辅助跟踪,但不适用于语言初始化跟踪的任务。现有基准的另一个问题是,这些视频不包含有明显的外观变化的视频,例如行人的衣服变化。这也限制了现有的追踪器在实际场景中的应用。此外,这些基准还忽略了对抗性样本,这限制了对抗性学习的追踪器的发展。相比之下,我们提出的TNL2K是专门为按照自然语言规范进行追踪而设计的,其中包含多个视频,这些视频的外观变化和对抗性样本都很大。它还包含了自然视频、动画视频、红外视频、虚拟游戏视频,适用于评估当前跟踪器的域适应性。 我们还提供了三种设置的基线结果,这将有助于将来的跟踪器进行比较。
Tracking by Natural Language
TNL2K datasets:data collection and annotation:提出的TNL2K数据集包含2000个视频序列,它们中的大多数都是从YouTube、智能监控摄像头和手机中下载或裁剪来的。我们邀请了7个人对这些数据进行标注。具体来说,我们为每个视频标注了一个英语句子,并为视频中的每一帧标注了一个边界框。目标的边界框的左上角点(x1,y1),宽度w和高度h用作ground truth,即[x1,y1,w,h]。标注的自然语言描述在第一帧中表示空间位置、与其他目标的相对位置、目标对象的属性、类别和属性。我们还为每个帧标注了“absent”标签,以丰富信息,可用于更准确的追踪。为了构建丰富多样的基准,我们还从现有的数据集中借用了一些热学视频,并在必要时重新标注了要追踪的对象。
Attribute Definition:根据流行的追踪基准,我们还定义了每个视频序列的多个属性,用于在每个挑战因素下进行评估。如图2所示,我们提出了的TNL2K数据集包含以下17个属性:CM (Camera Motion), ROT(Rotate Of Target), DEF (DEFormation), FOC (Fully OC-cluded), IV (Illumination Variation), OV (Out of View),POC (Partially OCcluded), VC (Viewpoint Change), SV(Scale Variation), BC (Background Clutter), MB (MotionBlur), ARC (Aspect Ratio Change), LR (Low Resolution),FM (Fast Motion), AS (Adversarial Sample), TC (ThermalCrossover), MS (Modality Switch).值得注意的是我们的数据集包含了一些拥有TC(目标与背景相似)、MC(视频同时包含热视频和RGB图片)等挑战因素的热视频。为了给神经网络的追踪攻击提供一个良好的平台,我们还使用了攻击工具包生成了100个包含对抗性样本的视频作为测试子集的一部分。因此这些视频也包含了额外的挑战因子,如AS(对抗样本的影响)。值得留意的是,AS和MS是这项工作中首次提出的追踪社区的两个新属性。每个挑战的更详细分布如图3 ©所示。
Statistical Analysis:我们提出的TNL2K数据集包含663个英语单词,重点在于表达目标的空间位置,如图3(a)。对于所有视频的长度分布,我们可以从图2中看到。 图3(b)中,TNL2K包含[648、479、415、139,319]个视频,其类别为1-300、300-500、500-800,800-1000,且大于1000。更多详细信息,用于训练和评估的这五个部分的数量分别为[488,304,258,75,175]和[160,175,157,64,144]。我们可以发现我们的测试集包含144个长期视频 (每个视频大于1000帧)这将会更适合长期追踪器的评估。从图3©中,我们可以发现我们的TNL2K包含许多具有挑战性属性的视频,如背景杂波、尺度变化、视图变化、部分遮挡、视图外。这些具有挑战性因素的视频将为当前跟踪器的评估提供一个良好的平台。
Our proposed Approach:我们提出了一种通过自然语言规范的自适应追踪和grounding开关框架,如图4所示。我们将首先介绍视觉grounding和视觉追踪模块,然后我们将重点介绍我们的AdaSwitcher。
Visual Grounding Module:在自然语言的追踪任务中,我们首先仅需要根据语言描述S= [w1,w2,…,wT].来定位目标。这是一个标准的视觉基础任务,由于其良好的性能和效率,我们沿用了Yang等人提出的算法[77]。如图4所示,视觉接地模块以视频帧和自然语言描述为输入。我们使用主干CNN获得第i个视频帧Fi的深度特征表示。对于自然语言,我们首先将单词嵌入特征表示se = [e1,e2,…]BERT[16]是一种广泛应用于自然语言相关任务的词嵌入模型。然后,将此特征输入到两个完全连接的层中进行进一步的微调。继[77]之后,我们还将这个特征向量复制到特征图中,并将它们与视频帧的视觉特征连接起来。视觉grounding的另一个重要信息是空间位置编码,这是由于通常采用空间配置来指代目标对象。因此,每个位置的空间特征也通过以下方式在本作品中明确编码[77]。
将全局帧的视觉特征、重复的语言特征和空间坐标串联在一起,并输入核大小为1X1的卷积层进行信息融合。然后将输出的特征图发送到grounding module,该模块将输出目标物体的预测位置。我们将这种visual grounding视为一种自然语言追踪的全局搜索过程,它在视频开始和追踪过程中重新检测目标时起着重要作用。visual grounding和SiamRPN++的集成在表3中被称为our-i,此外,我们还探索了[65,66]中提出的目标感知注意(TANet),即表3中的our - ii。TANet以目标对象和视频图像的特征图作为输入,利用去卷积网络输出相应的全局注意值,可以从全局角度搜索目标对象。我们参考读取器来检查[65,66],以进一步理解这个模块。
Visual Tracking module:之前提出的visual grounding能够在一开始帮助检测目标物体,然而仅通过grounding是无法实现高性能的追踪的,因为它很容易受背景杂波的影响。在本文中,我们基于从第一帧中的视觉grounding预测的边界框,以局部搜索的方式初始化目标位置的视觉追踪器。由于SiamRPN++具有良好的性能,因此我们在实验中采用了它。
AdaSwitcher Module:给定视觉grounding和视觉追踪模块,我们可以分别从全局和局部试图捕获目标对象。当我们使用视觉grounding的全局搜索(或视觉追踪的局部搜索)时,一个棘手的问题仍然存在 。一种直观的方法是基于追踪器的置信度来进行这种切换,但是置信度评分不总是可靠的,特别是在具有挑战性的情况下。例如,如图5所示,在一些帧中,置信值非常高(大于0.9),但模型实际上定位错了对象。受异常检测(也称为异常检测)的启发,异常检测的目标是识别稀有项,事件或观察结果,这些发现与大多数数据有很大不同,从而引起了人们的怀疑。在本文中,我们将视觉追踪的失败作为一种异常检测,并提出了一种新颖的AdaSwitcher模块来检测这种异常。一旦异常被检测到(AdaSwitcher的预测大于预先定义的阈值),我们可以将候选搜索区域从视觉追踪模块切换到视觉grounding模模块以实现更鲁棒和更准确的跟踪。
在本文中,利用置信度评分(1-D)、BBox(4-D)、结果图像((3030 3)-D)、响应图(23*23)-D)和语言嵌入(512-D)作为AdaSwitcher的输入。每一帧中的信息都可以很容易的从视觉追踪器中收集,过去视频帧中的信息也可以用于当前异常检测。假设我们使用过去中的N帧,那么它们的输入分别是:N×1,N×4,N×(23∗23),N×(30∗30∗3),andN×512,我们使用多个并行的全连接层来编码这些信息,并将它们嵌入到固定的特征向量中。我们有f =[Fs,Fb,Fimg,Fmap,Femb],其尺寸分别为N 10, n10, n512, n512和n512。然后,将这些特征连接到一个双向的gru[7]中,学习时间信息。由于不同帧可能产生不同的作用,我们引入了注意力机制来对输入进行不同的编码。注意权重αi(i= 1,…,N)可以通过多层感知器(MLP)得到:
其中[,]表示连接操作。将注意权重αi(i= 1,…,N)叠加为特征向量 αi(i= 1,…,N),这些特征向量与每帧i的特征表示fi (i= 1,…,N)具有相同的维数。因此可以通过以下方式来获取特征表示:
然后,用两个全连通层来决定是否将候选搜索区域从当前的跟踪结果切换到grounding result。
Implementation Detail:
Training parse:在我们的实验中,我们直接使用基线跟踪器的预训练权重进行视觉跟踪。对于grounding module,我们在TNL2K的训练子集上进行了400个epoch的训练,它包含了1300个视频序列。初始学习率为1e-4,批量为5。在此网络中使用YOLO损失函数[55,77]。对于AdaSwitcher,我们首先通过在TNL2K数据集的训练子集上运行基线跟踪器来收集训练数据。在此过程中,我们将平均IoU (Intersectionover Union)得分大于0.7的视频片段作为正类,小于0.5的视频片段作为负类。对于平均IoU得分在0.5到0.7之间的数据,我们将其直接丢弃,因为这可能会给我们的模型带来混乱。学习率为1e-5, batchsize为1,采用Adagrad[18]作为优化器,共训练了30个epoch。我们将视觉跟踪和基础之间的切换作为一个二分类问题,因此,我们选择了BCE损失函数来训练AdaSwitcher。
Inference Phase:在此基准中研究了三种方法:1)仅使用自然语言来追踪,首先需要视觉grounding模块来定位目标对象。然后,我们可以进行自适应跟踪(在这个设置中使用的siamrpn++[35])和grounding,以实现高性能的目标定位。2)通过自然语言和BBox进行跟踪:我们将自然语言作为一种外部方式,并基于语言和BBox进行了可靠的跟踪。 在此设置中使用SiamRPN ++ [35]和TANet [66]。3)仅通过BBox进行跟踪:为了构建全面的基准,我们还提供了仅通过BBox进行跟踪的基线结果,即视觉对象跟踪的标准设置。 所有评估的跟踪器都可以在我们的补充材料中找到。
Experiments:
Datasets and Evaluation Protocols:在我们的实验中,使用OTB-Lang、LaSOT和我们提出的TNL2K数据集进行评估。OTB-lang包含发布的99个视频,自然语言规范由Li等提供LaSOT是最近发布的长期跟踪数据集,可提供边界框和自然语言注释。 LaSOT的测试子集包含280个视频序列。两种流行的指标被用来评估跟踪性能,包括精确曲线和成功曲线。具体来说,Precision Plot演示了物体位置和ground truth之间的中心位置误差小于预定义阈值(通常采用20像素阈值)的帧的百分比。Success plot演示了预测的真值边界框和地面真值边界框的IoU高于给定比例的帧的百分比。
Benchmark Result:
Result of tracking by Natural Language Only:如表3所示,Li等人的[43]在otb - lang数据集上达到0.29|0.25,Feng等人在[20]和[21]上分别达到0.56|0.54和0.78|0.54。当我们将第一帧的视觉基础结果作为视觉跟踪器siamrpn++的初始化bbox时,我们在OTB-Lang数据集上实现了0.24|0.19。在LaSOT和TNL2K数据集上,我们分别获得0.49 | 0.51和0.06 | 0.11 | 0.11。我们可以发现我们的方法与Li等人的方法相当。 在OTB-Lang数据集上。 在较大的LaSOT数据集上,与Feng等人相比,获得了更好的结果。 [20]。这些实验结果表明,我们的基线方法也可以在现有LaSOT和我们提出的TNL2K数据集上实现良好的性能。
Results of Tracking by Bounding Box Only:该设置在现有的追踪算法中应用最为广泛,。我们提供了2015-2021的43个具有代表性的追踪器结果,如图6所示:
这些跟踪器包括基于分类的,基于siamesenet的,基于相关过滤器的,基于强化学习的,基于长期的和其他跟踪器。由于篇幅有限,更多关于这些跟踪器的详细介绍可以在我们的补充资料中找到。从图6中,我们可以发现SiamRCNN [59]在我们的基准数据集上实现了最佳性能,即在精度/成功图上分别为0.528 | 0.523。由于采用了局部和全局联合搜索方案,其他跟踪器也获得了良好的性能,如LTMU [9], KYS [22],TACT[6]。这些实验充分证明了局部和全局联合搜索对视觉跟踪的重要性。我们还发现,基于Siamese网络的跟踪器通常比基于多域的跟踪器[31,52,53]、基于回归的跟踪器[26]和基于相关滤波器的跟踪器[2,10,27]取得更好的效果。我们也还发现仅使用全局搜索模式的GlobalTrack实现了与local搜索的追踪器相当的性能,但比最先进的要差一些。这可能表明,只有全局搜索是不够的鲁棒跟踪。综上所述,全局场景的结构信息挖掘和离线学习确实有助于实现高性能的视觉跟踪。
Results of tracking by Joint Language and BBox:如表3所示,针对该设置设计了5个跟踪器[20、21、43、65、78]。具体来说,Li等人的[43]在OTB-Lang数据集上实现了0.72|0.55,Feng等人[20,21]在OTB-Lang数据集上分别实现了0.73|0.67,0.79|0.61。GTI [78]结合了SiamRPN ++和可视化接地模块,在OTB-Lang和LaSOT数据集上实现了0.73 | 0.58、0.47 | 0.47。相比之下,我们在otb - lang上可以实现0.88|0.68,在LaSOT上可以实现0.55|0.51,在tnl2k上可以实现0.42|0.50|0.42(表3中的we - ii),这明显优于GTI[78]、Wang等[65]和Feng等[20]在三个基准数据集上的实验验证了该跟踪器的有效性和优越性。相关跟踪结果可视化如图12所示。
Ablation Study:在这节中我们首先分析了模型主要组件的有效性。然后我们重点验证了每个输入对AdaSwitcher的贡献。最后进行了参数分析和属性分析。
Effective of AdaSwitcher:如表5所示,基线追踪器SiamRPN++(AlexNet Version)在precision和success上分别达到了0.344/0.353的结果,当整合了AdaSwitcher模块之后,性能能够提高到0.355/0.370,这个结果也比使用Native融合方式还要好。这都充分说明了我们所采用的Switch机制的有效性。
Effective of Frame Attention:由于不同帧可能对于我们提出的A大Switcher贡献有所不同,我们引入了帧注意机制来实现这一目标。如表4所示,在帧注意机制的帮助下,追踪结果能够从0.353/0.369提高到0.355/0.379,这充分说明了帧注意机制在提出的框架中的重要作用。
Effective of Spatial Coordinates:在我们的视觉grounding Module中,空间坐标被引入来进一步提升最终的结果,如图4所示我们的grounding模块在有和没有空间坐标的帮助下分别达到0.143/0.159和0.103/0.124的结果。这验证来空间坐标在visual grounding模块中的重要性。
Analysis on History Information:我们的adaswitcher接受多个输入作为最终决策,在本节中,我们通过比较表5中相应的结果来分析它们的贡献。具体地说,当丢弃BBox时,我们发现性能从0.355 / 0.370下降到0.350 / 0.365,这表明预测的BBox的几何信息是我们跟踪的重要线索。同样,当忽略生成的图像(即ResImg)时,我们获得的跟踪结果也会更差,结果从0.355 / 0.370下降到0.345 / 0.362。当所有这些模块都删除后,仅在精度图和成功图上达到0.344 / 0.353。说明这些信息对于追踪过程中的异常(或故障)检测非常重要。
Parameter Analysis:我们在表6中报告了不同转换阈值的跟踪结果。可以发现,当转换阈值设置为0.7时,性能更好。
Attribute Analysis:在每个挑战性因素下进行评估是视觉追踪社区中最重要的指标之一。在这个基准测试中,我们还报告了所有定义的17个属性下评估追踪器的结果。然而,由于本文篇幅有限,我们选择了4个属性,即对抗样本(Adversarial Samples)、尺度变化(Scale Variation)、背景杂波(background Clutter)和完全遮挡(full Occlusion),来展示这些跟踪器对这些挑战的抵抗能力。如图7所示,我们可以发现SiamRCNN[59]的性能最好,远远好于第二和第三个,分别是DiMP[4]和LTMU[9]。有趣的是,很容易发现,专为对抗性攻击而设计的RTAA [30]在挑战性因子“对抗性样本”中取得的结果甚至比其基线DaSiamRPN [84]还要差。这证明了对抗性样本的检测对于高性能跟踪很重要。 关于属性分析的更多实验结果可以在我们的补充材料中找到。
Conclusion:在本文中,我们重新审视了自然语言追踪,并提出了一个大规模的基准。提出了一个包含2000个视频序列的大规模数据集,命名为:TNL2K。该数据集使用bounding box和目标对象的自然语言描述进行了密集标注。为了构建一个良好的基准,我们提出了一种基于自适应转换的追踪算法(AdaSwitcher)作为基准方法,并根据以下设置测试了追踪器:仅通过自然语言追踪、通过BBox追踪,以及联合BBox和语言进行追踪。我们相信我们的基准将大大促进自然语言引导跟踪的相关研究。在我们未来的工作中,我们将考虑通过引入更多的视频和基线跟踪器来进一步扩展这个基准。此外,我们将重点改进visual grounding模块,以实现高性能的语言初始化跟踪。