【新智元专访】阿里巴巴“NASA计划”新进展：刷新视觉计算世界纪录

2021-08-08 08:02:39

5月18日，机器视觉算法测评平台KITTI的世界纪录再次被刷新——阿里云将其车辆检测的准确率拉升至90.46%。车辆检测被认为是实现无人驾驶的关键技术，极具挑战。

该成果公布后，新智元第一时间采访到了华先胜，解读他们所提出的基于区域融合决策和上下文相关的多任务深度神经网络。另外，就准确率上的疑惑、GAN思想的应用等问题，华先胜也与新智元进行了分享。

在这次比赛中，他们提出了基于区域融合决策和上下文相关的多任务深度神经网络，用于复杂场景下的车辆检测任务，重点解决其中多视角，多姿态以及车辆遮挡等问题。

华先胜对新智元表示，他们所设计的网络结构融合了目标的空间信息、自身属性信息、上下文信息以及局部相关性等多种信息，最终构建了一个多任务深度神经网络结构。另外以区域（region）为单位还设计了融合决策机制，进一步优化每个目标的检测结果。他们所提出的方法，对中小目标、高遮挡目标的检测效果有着十分明显的提升效果。

在网络结构设计上，团队利用反卷积操作提高了小目标的召回率，同时拼接了多层特征以融合低层的局部信息和高层的语义信息，提高了边框定位的准确率。

他们也提到，在训练过程中，还借鉴了GAN（生成对抗网络）中的对抗训练模式。华先胜对新智元说：“我们在设计检测网络的过程中，借鉴了GAN的对抗特性，提升了模型对于遮挡、形变、光照和噪声的鲁棒性。该思想的引入，对于高难度目标的检测有很大的帮助。”

被问到KITTI 上的结果，阿里云的准确度为90.46%，第二名为90.43%，第10名也有90.04%各种算法之间，准确率上这样的差距算大吗？

华先胜对新智元说，随着指标的不断上升，在准确率上的任何一点提升都是需要付出很多的努力，需要对算法进行不断优化。例如曾经被大家刷爆的LFW，大家的提升都在小数点后面几位。越到后面，难以解决的多是很难的样本，虽然提升看起来不大，但却能解决其中很困难的样本，而真实场景中往往困难样本的比例会更高，所以这些提升仍然是很有意义的。

华先胜表示，“现在我们已经将这样的技术集成到阿里云ET当中，并在城市大脑中得以应用。它能够帮助城市大脑准确的看懂车流信息，快速的做出全局性判断”。华先胜是视觉识别和搜索领域的国际级权威学者，曾获选国际电气与电子工程协会院士(IEEE Fellow)、美国计算机协会ACM杰出科学家。

城市大脑是包括阿里云在内的13家企业联合杭州市*发起的项目，旨在构建一个城市级的人工智能中枢，让城市能够与人类友好互动。这其中分析视频是城市大脑获取信息的关键。

他在接受新智元的采访时说，城市大脑中的视觉技术很多也是通用的技术，也能用到其他的场合。不论是城市大脑还是无人驾驶，精准的目标检测技术都在其中起着十分重要的作用，而我们团队关注技术本身，旨在打造世界领先的视觉算法，以支持多种视觉相关的应用。

另外，提到即将在7月份召开的计算机视觉领域国际*会议CVPR，华先胜表示，团队的研究内容包括：视频分析、事件检测、人脸识别、医疗图像识别、智能设计，以及大规模视觉搜索等方面。部分研究成果也将逐步在学术界公开，本次CVPR会介绍一些他们在城市和电商等多个场景下的目标Re-ID和大规模搜索的一些最近技术进展和实践。

在视觉计算领域的持续攻坚，是阿里巴巴“NASA”计划的一部分。该计划聚焦于机器学习、芯片、IoT、操作系统、生物识别等核心领域，他们希望能解决10年、20年后的困难。此前，已在光量子计算机、全浸没液冷服务器等方面取得重大进展。

KITTI是目前国际上最大的自动驾驶场景下的计算机视觉算法评测数据集，可以用于评测目标检测等计算机视觉技术在复杂真实环境下的性能。KITTI包含市区、乡村和高速公路等场景采集的真实图像数据，有大量的微小目标、欠曝和过曝、多种视角变化以及各种遮挡情况。

文章转自新智元公众号，原文链接

码农公寓

相关文章