本文节选《2019人工智能发展报告》第三章计算机视觉篇,涵盖计算机视觉概念、发展历史、人才概况、论文解读以及计算机视觉当前进展的深度解读。
本报告共393页,足够详实,想要下载报告请戳链接:https://yq.aliyun.com/download/3877
3.1计算机视觉概念
计算机视觉(computer vision),顾名思义,是分析、研究让计算机智能化的达到类似人类的双眼“看”的一门研究科学[3]。即对于客观存在的三维立体化的世界的理解以及识别依靠智能化的计算机去实现。确切地说,计算机视觉技术就是利用了摄像机以及电脑替代人眼使得计算机拥有人类的双眼所具有的分割、分类、识别、跟踪、判别决策等功能。总之,计算机视觉系统就是创建了能够在2D的平面图像或者3D的三维立体图像的数据中,以获取所需要的“信息”的一个完整的人工智能系统。
计算机视觉技术是一门包括了计算机科学与工程、神经生理学、物理学、信号处理、认知科学、应用数学与统计等多门科学学科的综合性科学技术。由于计算机视觉技术系统在基于高性能的计算机的基础上,其能够快速的获取大量的数据信息并且基于智能算法能够快速的进行处理信息,也易于同设计信息和加工控制信息集成。
计算机视觉本身包括了诸多不同的研究方向,比较基础和热门的方向包括:物体识别和检测(Object Detection),语义分割(Semantic Segmentation),运动和跟踪(Motion & Tracking),视觉问答(Visual Question & Answering)等[4]。
物体识别和检测
物体检测一直是计算机视觉中非常基础且重要的一个研究方向,大多数新的算法或深度学习网络结构都首先在物体检测中得以应用如VGG-net,GoogLeNet,ResNet等等,每年在imagenet数据集上面都不断有新的算法涌现,一次次突破历史,创下新的记录,而这些新的算法或网络结构很快就会成为这一年的热点,并被改进应用到计算机视觉中的其它应用中去。
物体识别和检测,顾名思义,即给定一张输入图片,算法能够自动找出图片中的常见物体,并将其所属类别及位置输出出来。当然也就衍生出了诸如人脸检测(Face Detection),车辆检测(Viechle Detection)等细分类的检测算法。
语义分割
语义分割是近年来非常热门的方向,简单来说,它其实可以看作一种特殊的分类——将输入图像的每一个像素点进行归类,用一张图就可以很清晰地描述出来。很清楚地就可以看出,物体检测和识别通常是将物体在原图像上框出,可以说是“宏观”上的物体,而语义分割是从每一个像素上进行分类,图像中的每一个像素都有属于自己的类别。
运动和跟踪
跟踪也属于计算机视觉领域内的基础问题之一,在近年来也得到了非常充足的发展,方法也由过去的非深度算法跨越向了深度学习算法,精度也越来越高,不过实时的深度学习跟踪算法精度一直难以提升,而精度非常高的跟踪算法的速度又十分之慢,因此在实际应用中也很难派上用场。
学术界对待跟踪的评判标准主要是在一段给定的视频中,在第一帧给出被跟踪物体的位置及尺度大小,在后续的视频当中,跟踪算法需要从视频中去寻找到被跟踪物体的位置,并适应各类光照变换,运动模糊以及表观的变化等。但实际上跟踪是一个不适定问题(ill posed problem),比如跟踪一辆车,如果从车的尾部开始跟踪,若是车辆在行进过程中表观发生了非常大的变化,如旋转了180度变成了侧面,那么现有的跟踪算法很大的可能性是跟踪不到的,因为它们的模型大多基于第一帧的学习,虽然在随后的跟踪过程中也会更新,但受限于训练样本过少,所以难以得到一个良好的跟踪模型,在被跟踪物体的表观发生巨大变化时,就难以适应了。所以,就目前而言,跟踪算不上是计算机视觉内特别热门的一个研究方向,很多算法都改进自检测或识别算法。
视觉问答
视觉问答也简称VQA(Visual Question Answering),是近年来非常热门的一个方向,其研究目的旨在根据输入图像,由用户进行提问,而算法自动根据提问内容进行回答。除了问答以外,还有一种算法被称为标题生成算法(Caption Generation),即计算机根据图像自动生成一段描述该图像的文本,而不进行问答。对于这类跨越两种数据形态(如文本和图像)的算法,有时候也可以称之为多模态,或跨模态问题。
3.2 计算机视觉发展历史
尽管人们对计算机视觉这门学科的起始时间和发展历史有不同的看法,但应该说,1982年马尔(David Marr)《视觉》(Marr,1982)一书的问世,标志着计算机视觉成为了一门独立学科。计算机视觉的研究内容,大体可以分为物体视觉(object vision)和空间视觉(spatial vision)二大部分。物体视觉在于对物体进行精细分类和鉴别,而空间视觉在于确定物体的位置和形状,为“动作(action)”服务。正像著名的认知心理学家J.J.Gibson所言,视觉的主要功能在于“适应外界环境,控制自身运动”。适应外界环境和控制自身运动,是生物生存的需求,这些功能的实现需要靠物体视觉和空间视觉协调完成。
计算机视觉40多年的发展中,尽管人们提出了大量的理论和方法,但总体上说,计算机视觉经历了三个主要历程。即:马尔计算视觉、多视几何与分层三维重建和基于学习的视觉。下面将对这三项主要内容进行简要介绍[5]。
马尔计算视觉(Computational Vision)
现在很多计算机视觉的研究人员,恐怕对“马尔计算视觉”根本不了解,这不能不说是一件非常遗憾的事。目前,在计算机上调“深度网络”来提高物体识别的精度似乎就等于从事“视觉研究”。事实上,马尔的计算视觉的提出,不论在理论上还是研究视觉的方法论上,均具有划时代的意义。
马尔的计算视觉分为三个层次:计算理论、表达和算法以及算法实现。由于马尔认为算法实现并不影响算法的功能和效果,所以,马尔计算视觉理论主要讨论“计算理论”和“表达与算法”二部分内容。马尔认为,大脑的神经计算和计算机的数值计算没有本质区别,所以马尔没有对“算法实现”进行任何探讨。从现在神经科学的进展看,“神经计算”与数值计算在有些情况下会产生本质区别,如目前兴起的神经形态计算(Neuromorphological computing),但总体上说,“数值计算”可以“模拟神经计算”。至少从现在看,“算法的不同实现途径”,并不影响马尔计算视觉理论的本质属性。
多视几何与分层三维重建
上世纪90年代初计算机视觉从“萧条”走向进一步“繁荣”,主要得益于以下二方面的因素:首先,瞄准的应用领域从精度和鲁棒性要求太高的“工业应用”转到要求不太高,特别是仅仅需要“视觉效果”的应用领域,如远程视频会议(teleconference),考古,虚拟现实,视频监控等。另一方面,人们发现,多视几何理论下的分层三维重建能有效提高三维重建的鲁棒性和精度。
多视几何的代表性人物首数法国INRIA的O.Faugeras,美国GE研究院的R.Hartely和英国牛津大学的A.Zisserman。应该说,多视几何的理论于2000年已基本完善。2000年Hartley和Zisserman合著的书(Hartley & Zisserman2000)对这方面的内容给出了比较系统的总结,而后这方面的工作主要集中在如何提高“大数据下鲁棒性重建的计算效率”。
大数据需要全自动重建,而全自动重建需要反复优化,而反复优化需要花费大量计算资源。所以,如何在保证鲁棒性的前提下快速进行大场景的三维重建是后期研究的重点。举一个简单例子,假如要三维重建北京中关村地区,为了保证重建的完整性,需要获取大量的地面和无人机图像。假如获取了1万幅地面高分辨率图像(4000×3000),5千幅高分辨率无人机图像(8000×7000)(这样的图像规模是当前的典型规模),三维重建要匹配这些图像,从中选取合适的图像集,然后对相机位置信息进行标定并重建出场景的三维结构,如此大的数据量,人工干预是不可能的,所以整个三维重建流程必须全自动进行。这样需要重建算法和系统具有非常高的鲁棒性,否则根本无法全自动三维重建。在鲁棒性保证的情况下,三维重建效率也是一个巨大的挑战。所以,目前在这方面的研究重点是如何快速、鲁棒地重建大场景。
基于学习的视觉
基于学习的视觉,是指以机器学习为主要技术手段的计算机视觉研究。基于学习的视觉研究,文献中大体上分为二个阶段:本世纪初的以流形学习为代表的子空间法和目前以深度学习为代表的视觉方法。
物体表达是物体识别的核心问题,给定图像物体,如人脸图像,不同的表达,物体的分类和识别率不同。另外,直接将图像像素作为表达是一种“过表达”,也不是一种好的表达。流形学习理论认为,一种图像物体存在其“内在流形”(intrinsic manifold),这种内在流形是该物体的一种优质表达。所以,流形学习就是从图像表达学习其内在流形表达的过程,这种内在流形的学习过程一般是一种非线性优化过程。深度学习的成功,主要得益于数据积累和计算能力的提高。深度网络的概念上世纪80年代就已提出来了,只是因为当时发现“深度网络”性能还不如“浅层网络”,所以没有得到大的发展。
目前似乎有点计算机视觉就是深度学习的应用之势,这可以从计算机视觉的三大国际会议:国际计算机视觉会议(ICCV),欧洲计算机视觉会议(ECCV)和计算机视觉和模式识别会议(CVPR)上近年来发表的论文可见一般。目前的基本状况是,人们都在利用深度学习来“取代”计算机视觉中的传统方法。“研究人员”成了“调程序的机器”,这实在是一种不正常的“群众式运动”。牛顿的万有引力定律,麦克斯韦的电磁方程,爱因斯坦的质能方程,量子力学中的薛定谔方程,似乎还是人们应该追求的目标。
3.3 人才概况
全球人才分布
学者地图用于描述特定领域学者的分布情况,对于进行学者调查、分析各地区竞争力现况尤为重要,下图为计算机视觉领域全球学者分布情况:
图 3-1计算机视觉全球学者分布
地图根据学者当前就职机构地理位置进行绘制,其中颜色越深表示学者越集中。从该地图可以看出,美国的人才数量优势明显且主要分布在其东西海岸;亚洲也有较多的人才分布,主要集中在我国东部及日韩地区;欧洲的人才主要分布在欧洲中西部;其他诸如非洲、南美洲等地区的学者非常稀少;计算机视觉领域的人才分布与各地区的科技、经济实力情况大体一致。
此外,在性别比例方面,计算机视觉中男性学者占比91.0%,女性学者占比9.0%,男性学者占比远高于女性学者。
计算机视觉学者的h-index 分布如下图所示,大部分学者的h-index 分布在中间区域,其中h-index 在20-30 区间的人数最多,有706 人,占比34.7%,小于20 的区间人数最少,有81人。
中国人才分布
图 3-3中国计算机视觉学者分布
我国专家学者在计算机视觉领域的分布如下图所示。通过下图我们可以发现,京津地区在本领域的人才数量最多,其次是珠三角和长三角地区,相比之下,内陆地区的人才较为匮乏,这种分布与区位因素和经济水平情况不无关系。同时,通过观察中国周边国家的学者数量情况,特别是与日韩、东南亚等亚洲国家相比,中国在计算机视觉领域学者数量相对较多。
中国国际合作
中国与其他国家在计算机视觉的合作情况可以根据AMiner数据平台分析得到,通过统计论文中作者的单位信息,将作者映射到各个国家中,进而统计中国与各国之间合作论文的数量,并按照合作论文发表数量从高到低进行了排序,如下表所示。
从上表数据可以看出,中美合作的论文数、引用数、学者数遥遥领先,表明中美间在计算机视觉领域合作之密切;同时,中国与世界各地区之间的合作非常广泛,前10名合作关系里包含了欧洲、亚洲、北美洲以及大洋洲等;中国与加拿大合作的论文数虽然不是最多,但是拥有最高的平均引用数说明在合作质量上中加合作达到了较高的水平。
3.4 论文解读
本节对本领域的高水平学术会议论文进行挖掘,解读这些会议在2018-2019年的部分代表性工作。会议具体包括:
IEEE Conference on Computer Vision and Pattern Recognition
IEEE International Conference on Computer Vision
European Conference on Computer Vision
我们对本领域论文的关键词进行分析,统计出词频Top20的关键词,生成本领域研究热点的词云图。其中,计算机视觉(computer vision)、图像(images)、视频(videos)是本领域中最热的关键词。
论文题目:Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation
中文题目:具有空洞分离卷积的编码-解码器用于语义图像分割
论文作者:Liang-Chieh Chen,Yukun Zhu,George Papandreou,Florian Schroff,Hartwig Adam
论文出处:Proceedings of the European conference on computer vision (ECCV). 2018: 801-818.
论文地址:https://link.springer.com/chapter/10.1007%2F978-3-030-01234-2_49
研究问题:
语义分割是计算机视觉中一项基本且重要的研究内容,它是为图像中的每个像素分配语义标签。在深度学习语义分割任务中经常会使用空间金字塔池化和编码-解码器结构。空间金字塔池化可以通过不同分辨率的池化特征捕捉丰富的上下文信息,但网络中具有步进操作的池化或卷积会导致与对象边界有关的详细信息丢失。这可以通过空洞卷积提取更密集的特征图来缓解,但大大增加了计算资源的消耗。而编码-解码器结构则可以通过逐渐恢复空间信息来捕获更清晰的对象边界。通过组合两种方法的优点,提出新的模型—DeepLabv3+。
研究方法:
如下图是DeepLabv3+的网络结构,通过添加一个简单但有效的解码器模块来优化分割结果,尤其是对象边界的分割结果,扩展了DeepLabv3。编码器模块(DeepLabv3)通过在多个尺度上应用空洞卷积,编码多尺度上下文信息。空洞卷积可以明确控制由深度卷积神经网络所提特征的分辨率,并调整滤波器的感受野以捕获多尺度信息。而简单而有效的解码器模块则沿对象边界调整分割结果。
为了进一步提高模型的性能和速度,将深度分离卷积应用于ASPP(空洞空间金字塔池化)和解码器模块。深度分离卷积将传统的卷积分解为一个深度卷积和一个1×1的逐点卷积,在深度卷积操作时应用膨胀率不同的空洞卷积,以获取不同的尺度信息。
研究结果:
以用ImageNet-1k预训练的ResNet-101和修改的对齐Xception(更多的层、步进深度分离卷积替代最大池化、额外的BN和ReLU)为骨架网络,通过空洞卷积提取稠密特征。在PASCAL VOC 2012和Cityscapes数据集上证明了DeepLabv3+的有效性和先进性,无需任何后处理即可实现89%和82.1%的测试集性能。但是对非常相近的物体(例如椅子和沙发)、严重遮挡的物体和视野极小的物体较难进行分割。
论文题目:MobileNetV2: Inverted Residuals and Linear Bottlenecks
中文题目:MobileNetV2: 反向残差和线性瓶颈
论文作者:Sandler Mark,Howard Andrew,Zhu Menglong,Zhmoginov Andrey,Chen Liang-Chieh
论文出处:2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, CVPR 2018
论文地址:https://ieeexplore.ieee.org/document/8578572
研究问题:
在众多计算机视觉领域中,深度神经网络正扮演越来越重要的角色。但是优秀性能的获得通常是以高昂计算资源为代价的,从而大大限制了在计算资源严重受限的移动端或嵌入式设备中使用。因此轻量化网络的研究在近期收到了大量关注,本文提出了一种新的移动端轻量化模型——MobileNetV2,在保持相同精度的同时显着减少了所需的操作和内存需求,关键是设计了具有线性瓶颈的反向残差模块。将上述模型应用于移动端目标检测,介绍了一种有效的方法—SSDLite。此外,通过简化的DeepLabv3构建移动端语义分割模型—Mobile DeepLabv3。
研究方法:
MobileNetV2的关键是具有线性瓶颈的反向残差模块,该模块以低维压缩表示作为输入,首先将其扩张到高维,然后使用轻量级的深度卷积进行过滤,最后使用线性卷积将特征投影回低维表示。其包含两个主要的技术:深度分离卷积和残差模块。
深度分离卷积是很多有效的神经网络结构中关键的组成部分,其基本思想是将传统卷积分解为两部分:第一层称为深度卷积,它通过对每个输入通道应用单个卷积滤波器来执行轻量化滤波;第二层是1×1卷积,称为逐点卷积,它通过计算输入通道的线性组合来构建新特征。深度分离卷积的计算量相对于传统卷积减少了大约k2(k是卷积核大小),但是性能只有极小的降低。
我们可以认为深度神经网络中任意层的激活组成一个“感兴趣流形”,它可以嵌入到低维子空间中。也就是说,深度卷积层中所有单个通道的像素,其中编码的信息实际上位于某种流形中,而该流形可以嵌入到低维子空间中。通过分析作者得到两个属性:
(1)如果感兴趣流形在ReLU变换后仍保持非零值,则对应于线性变换;
(2)ReLU能够保留输入流形的完整信息,但前提是输入流形位于输入空间的一个低维子空间中。
基于以上两个观点,帮助作者优化现有的神经网络结构:假设感兴趣流形是低维的,可以通过向卷积块插入线性瓶颈获得该流形,即本文核心具有线性瓶颈的反向残差模块,其结构如下图所示。先使用逐点卷积扩大通道数+ReLU激活,然后使用逐深度卷积提取特征+ReLU激活,最后使用逐点卷积降低通道数+线性激活,并且使用了shortcut连接。
研究结果:
研究者首先通过实验验证了反向残差连接和线性瓶颈的有效性,然后在图像分类、目标检测和语义分割三个任务上证明了本文网络结构的先进性。ImageNet图像分类任务上MobileNetV2的Top1最好可达74.7,优于MobileNetV1、ShuffleNet和NASNet-A。在目标检测任务上,MNetV2+SSDLite与MNetV1+SSDLite的mAP很接近,但参数量和计算时间都明显减少。在语义分割任务上保持较好性能的同时减少了参数量和计算资源的消耗。
论文题目:The Unreasonable Effectiveness of Deep Features as a Perceptual Metric
中文题目:深度特征作为感知度量的有效性
论文作者:Zhang Richard,Isola Phillip,Efros Alexei A.,Shechtman Eli,Wang Oliver
论文出处:2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, CVPR 2018
论文地址:https://ieeexplore.ieee.org/document/8578166
研究方法:
对于人类来说,评估两幅图像之间的感知相似度几乎是毫不费力且快速的,但其潜在过程却被认为是相当复杂的。视觉模式是高维且高度相关的,视觉相似性的概念十分主观。例如在图像压缩领域,压缩图像是为了人类看来与原始图像没有很大区别,而不关注它们在像素值上可能有很大的差别。
当今最广泛使用的、传统的基于像素值的度量方法(例如L2 欧式距离、PSNR)或感知距离度量(如SSIM、MSSIM 等)是简单的浅层函数,无法解决人类感知的许多细微差别,一个最典型的例子就是模糊会造成图像在感知上的很大不同,但是在L2 范数上却差别不大。如下图所示,传统的评价指标与人类的感知判断是完全相反的。
近期深度学习社区发现,将在ImageNet 分类中训练的VGG 网络模型所提取的深度特征,用作图像合成的训练损失是非常有用,一般将这种损失称为“感知损失” (perceptual losses)。但是这些感知损失的作用有多大?哪些要素对其成功至关重要?本文研究者们尝试探讨了这些问题。
研究方法:
对于人类来说,评估两幅图像之间的感知相似度几乎是毫不费力且快速的, _但其潜在过程却被认为是相当复杂的。视觉模式是高维且高度相关的,视觉相似性的概念十分主观。例如在图像压缩领域,压缩图像是为了人类看来与原始图像没有很大区别,而不关注它们在像素值上可能有很大的差别。
当今最广泛使用的、传统的基于像素值的度量方法(例如L2 欧式距离、PSNR)或感知距离度量(如SSIM、MSSIM 等)是简单的浅层函数,无法解决人类感知的许多细微差别,一个最典型的例子就是模糊会造成图像在感知上的很大不同,但是在L2 范数上却差别不大。如下图所示,传统的评价指标与人类的感知判断是完全相反的。近期深度学习社区发现,将在ImageNet 分类中训练的VGG 网络模型所提取的深度特征,用作图像合成的训练损失是非常有用,一般将这种损失称为“感知损失” (perceptual losses)。
但是这些感知损失的作用有多大?哪些要素对其成功至关重要?本文研究者们尝试探讨了这些问题。
研究方法:
为了研究将深度神经网络提取的深度特征作为感知损失的有效性,本文研究者们构造了一个人类感知相似性判断的新数据集——Berkeley-Adobe Perceptual Patch Similarity Dataset(BAPPS 数据集)。该数据集包括484K 个人类判断,具有大量传统失真,如对比度、饱和度和噪声等;还有基于CNN 模型的失真,例如自编码、降噪等造成的失真;以及一些真实算法的失真,如超分辨率重建、去模糊等真实应用。
论文用如下公式计算在给到一个网络时,参考和失真图像块的距离。首先提取特征,然后将通道维度的激活归一化,用向量缩放每个通道,并采用2 距离。最后对空间维度的所有层取平均。
研究结果:
作者进行了大量的实验,系统地评估了不同网络结构和任务中的深度特征, _并将它们与经典指标进行比较,发现深度特征是一种非常好的感知度量指标。更令人惊讶的是,该结果不仅限于ImageNet 训练的VGG 提取的深度特征,而且还适用于不同的深度网络结构和不同的训练方式(监督,自监督,甚至无监督)。
论文题目:Residual Dense Network for Image Super-Resolution
中文题目:基于残差密集网络的图像超分辨率重建
论文作者:Yulun Zhang,Yapeng Tian,Yu Kong,Bineng Zhong,Yun Fu
论文出处:2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, CVPR 2018
论文地址:https://ieeexplore.ieee.org/document/8578360
研究内容:
单幅图像超分辨率(SISR)旨在通过其退化的低分辨率(LR)观测结果生成视觉上令人愉悦的高分辨率(HR)图像。最近,深度卷积神经网络在图像超分辨率重建方面取得了巨大的成功,网络的不断加深使模型能提供丰富分层特征,图像中的目标具有不同的比例、视角和宽高比,来自非常深的网络的分层特征能为重建提供更多线索。但是,大多数基于卷积神经网络的深层图像超分辨率模型都没有充分利用原始低分辨率(LR)图像中的分层特征,以致获得了相对较低的性能。在本文中,研究者提出了一种新颖的残差密集网络(RDN)来解决图像超分辨率中的上述问题,使模型能充分利用所有卷积层提取的分层特征。
研究方法:
如下图是残差密集网络RDN,主要包含四部分:浅层特征提取网络(SFEnet)、残差密集块(RDBs)、密集特征融合(DFF)和上采样网络(UPNet)。
一个非常深的网络直接提取LR 空间中每个卷积层的输出是困难且不切实际的,所以使用残差密集块(RDB)作为RDN 的构建模块。RDB 由密集连接层和具有局部残差学习能力的局部特征融合(LFF)组成。RDB还支持RDB之间的连续存储,一个RDB的输出可以直接访问下一个RDB中每一层,形成连续的状态传递。RDB中的每个卷积层都可以访问所有后续层,并传递需要保留的信息。局部特征融合将先前的RDB和当前RDB中所有先前层的状态连接在一起,通过自适应保留信息来提取局部密集特征。LFF通过更高的增长率来稳定更宽网络的训练。在提取多层局部密集特征后,进一步进行全局特征融合(GFF),以全局方式自适应地保留分层特征。在RDN中每个卷积层卷积核大小为3×3,局部和全局特征融合卷积核大小为1×1。在上采样部分使用ESPCNN提升图像的分辨率。
研究结果:
使用DIV2K数据集中全部的800幅训练图像训练模型,测试选用5个标准基准数据集:Set5、Set14、B100、Urban和Manga109。为了全面地说明所提方法的有效性,模拟了三种图像退化过程:
(1)双三次下采样(BI);
(2)高斯核模糊HR图像,再下采样(BD);
(3)先双三次下采样,再加入高斯噪声(DN)。
作者进行了大量的实验发现:
(1)RDB数量或RDB中卷积层数量越多,模型性能越好;增长率越大也会获得更好的性能。当上述模块使用数量较少时RDN依然比SRCNN性能好。
(2)进行了消融实验,验证了所提模型中连续存储、局部残差学习和全局特征融合的有效性。
(3)在三种退化模型上与六种先进的模型进行了对比:SRCNN、LapSRN、DRNN、SRDenseNet、MemNet和MDSR。在不同比例因子、退化模型和数据集中,RDN都表现出了相近甚至更好的性能。
论文题目:ShuffleNet V2: Practical guidelines for efficient cnn architecture design
中文题目:ShuffleNet V2:高效CNN网络结构设计实用指南
论文作者:Ma Ningning,Zhang Xiangyu,Zheng Hai-Tao,Sun Jian
论文出处:Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), v 11218 LNCS, p 122-138, 2018, Computer Vision – _ECCV 2018 - 15th European Conference, 2018, Proceedings
论文链接:https://link.springer.com/chapter/10.1007%2F978-3-030-01264-9_8
研究内容:
自AlexNet之后,ImageNet图像分类准确率被很多新的网络结构如ResNet和DenseNet等不断提高,但是除准确率外,计算复杂度也是CNN网络需要考虑的重要指标。实际任务通常是要在有限的计算资源下获得最佳的精度,过复杂的网络由于速度原因难以在移动端等设备中应用。
为此,研究者们提出了很多轻量化的CNN网络如MobileNet和ShuffleNet等,在速度和准确度之间做了较好地平衡。以往的移动端CNN网络结构设计在考虑计算复杂度时,直接致力于优化整体网络计算所需的FLOPs,并没有考虑真正关心的速度和延迟,且具有相似FLOPs的网络速度也是不同的。像内存访问开销(MAC)、计算平台等也是需要考虑的方面。为了实际需求,本文研究者不局限于追求理论FLOPs的减少,从更直接的角度为轻量化网络设计提供指导意见。
研究方法:
作者建议有效的网络结构设计应考虑两个原则。首先,应使用直接指标(例如速度)代替间接指标(例如FLOP)。其次,应在目标平台上评估此类指标。通过对两个代表性最新网络的分析,作者得出了关于有效网络设计的四项准则:
(1)卷积层的输入和输出特征通道数相等时MAC最小;
(2)过多的组卷积会增大MAC;
(3)网络碎片化会降低并行度;
(4)元素级的操作(element-wise)会增加时间消耗。
遵循以上准则提出了一个更有效的网络结构——ShuffleNet V2。下图是ShuffleNet V1(图中a和b)和ShuffleNet V2(图中c和d)组成模块的对比。对比(a)和(b),ShuffleNet V2首先用Channel Split操作将输入按通道分成两部分,一部分直接向下传递,另外一部分则用于计算;然后弃用了1x1的组卷积,将通道混洗操作(Channel Shuffle)移到了最后,并将前面的Add操作用Concat代替。
研究结果:
论文进行了大量的实验,与MobileNet V1/V2、ShuffleNet V1、DenseNet、Xception、IGCV3-D、NASNet-A等模型在速度、精度、FLOPs上进行了详细的对比。实验中不少结果都和前面几点发现吻合,ShuffleNet V2在准确率和速度方面达到了很好的平衡。
论文题目:A Theory of Fermat Paths for Non-Line-of-Sight Shape Reconstruction
中文题目:非视距形状重建的费马路径理论
论文作者:Shumian Xin, Sotiris Nousias, Kiriakos N. Kutulakos, Aswin C. Sankaranarayanan,Srinivasa G. Narasimhan, and Ioannis Gkioulekas.
论文出处:CVPR 2019 : IEEE Conference on Computer Vision and Pattern Recognition.
论文地址:https://www.ri.cmu.edu/wp-content/uploads/2019/05/cvpr2019.pdf
研究问题:
很多时候摄像头可能无法拍摄全部场景或物体,例如,面对摄像机的物体背面,拐角处的物体或通过漫射器观察到的物体。非视距(non-line-of-sight,NLOS)成像对于许多安全保护应用至关重要。一些传统方法通过分析隐藏场景投射阴影的细微本影和半影,以估计粗糙的运动和结构,或使用光的相干特性来定位隐藏的对象,但很难重建任意隐藏场景的3D形状。基于主动照明的瞬态NLOS成像大多采用快速调制光源和时间分辨传感器,但现有的SPAD强度估计不理想,而且重建NLOS对象的朗伯反射率假设。作者使用NLOS瞬态测量得出几何约束而非强度约束的方法来克服上述限制。
上图为非视距成像示例:被遮光板遮挡(a)和被漫射板遮挡(b)的物体表面重建结果与视距扫描结果(c)对比。
研究方法:
作者提出了一个新的光费马路径(Fermat path)理论,即光在已知的可见场景和不处于瞬态相机视线范围内的未知物体之间,这些光要么从镜面反射,要么被物体的边界反射,从而编码了隐藏物体的形状。作者证明,费马路径对应于瞬态测量中的不连续性,间断点的位置仅与NLOS对象的形状有关,与其反射率(BRDF)无关。并推导出一个新的约束条件,它将这些不连续处的路径长度的空间导数与曲面的曲率相关联。
基于此理论,作者提出了一种称为费马流(Fermat Flow)的算法,用于估计非视距物体的形状。其关键在于,费马路径长度的空间导数可唯一确定隐藏场景点的深度和法线,再拟合和估算平滑路径长度函数,进一步结合深度和法线获得光滑的网格,从而精确恢复了对复杂对象(从漫反射到镜面反射)形状,范围从隐藏在拐角处以及隐藏在漫射器后面的漫反射到镜面反射。最后,该方法与用于瞬态成像的特定技术无关。
研究结果:
作者使用了一些不同BRDF的凹凸几何形状的日常物品,包括半透明(塑料壶),光滑(碗,花瓶),粗糙镜面(水壶)和光滑镜面(球形)等。分别开展了使用SPAD和超快激光从皮秒级瞬态中恢复毫米级形状,以及使用干涉法实现从飞秒级瞬态中恢复毫米级形状的两种实验,实验结果显示重建细节与groundtruth形状非常吻合。
论文题目:Implicit 3D Orientation Learning for 6D Object Detection from RGB Images
中文题目:从RGB 图像检测6维位姿的隐式三维朝向学习
论文作者:Martin Sundermeyer , Zoltan-Csaba Marton , Maximilian Durner , Rudolph Triebel
论文出处:ECCV 2018: European Conference on Computer Vision.
研究问题:
对于诸如移动机器人控制和增强现实之类的应用而言,现代计算机视觉系统中最重要的组件之一就是可靠且快速的6D目标检测模块。至今尚无通用,易于应用,强大且快速的解决方案。原因是多方面的:首先,当前的解决方案通常不足以有效处理典型的挑战;其次,现有方法通常需要某些目标属性。而且,当前的方法在运行时间以及所需带标注的训练数据的数量和种类方面效率都不高。作者提出对单个RGB图像进行操作,可在很大程度上不需要深度信息,显著增加可用性。
研究方法:
上图为6D目标检测管道具有齐次坐标变换Hcam2obj(右上)和深度细化结果Hcam2obj(refined)(右下)。作者提出了一种基于RGB的实时目标检测和6D姿态估计流程。首先使用SSD(Single Shot Multibox Detector)来提供目标边界框和标识符。其次,在此基础上,采用新颖的3D方向估计算法,该算法基于之前的降噪自动编码器(Denoising Autoencoder)的通用版本,增强型自动编码器(AAE)。AAE使用一种新颖的域随机化策略,模型学到的并不是从输入图像到物体位姿的显式映射,而是会根据图像样本在隐含空间内建立一个隐式的物体位姿表征。因而,训练独立于目标方向的具体表示(例如四元数),避免从图像到方向的一对多映射,由此AAE可处理由对称视图引起的模糊姿态。另外学习专门编码3D方向的表征,同时实现对遮挡,杂乱背景的鲁棒性,并可推广到对不同环境和测试传感器。而且,AAE不需要任何真实的姿势标注训练数据。相反,它被训练为以自我监督的方式编码3D模型视图,克服了对大型姿势标注数据集的需要。下图为AAE训练过程。
研究结果:
作者在T-LESS和LineMOD数据集上评估了AAE和整个6D检测管道,仅包括2D检测,3D方向估计和投影距离估计。与最先进的深度学习方法相比,AAE准确性更好,同时效率更高。另外,作者也分析了一些失败案例,主要源于检测失败或强遮挡。
论文题目:SinGAN: Learning a Generative Model from a Single Natural Image
中文题目:SinGAN:从单张图像学习生成模型
论文作者:Tamar Rott Shaham ,Technion Tali Dekel ,Google Research ,Tomer Michaeli ,Technion
论文出处:ICCV 2019 : IEEE International Conference on Computer Vision.
论文地址:https://arxiv.org/pdf/1905.01164.pdf
研究问题:
生成对抗网络(Generative Adversarial Nets ,GAN)在模拟视觉数据的高维分布方面取得了巨大飞跃。特别是用特定类别的数据集(如人脸、卧室)进行训练时,非条件GAN在生成逼真的、高质量的样本方面取得了显著成功。但对高度多样化、多种类别的数据集(如ImageNet)的模拟仍然是一项重大挑战,而且通常需要根据另一输入信号来调整生成或为特定任务训练模型。对单个自然图像中各种图像块的内部分布进行建模已被公认为是许多计算机视觉任务的有用先验。作者将GAN带入到一个新领域—从单个自然图像中学习非条件生成模型。单个自然图像通常具有足够的内部统计信息,可学习到强大的生成模型,而不必依赖某个相同类别的数据集。为此,作者提出了一个新的单图像生成模型SinGAN,能够处理包含复杂结构和纹理的普通自然图像的神经网络。
相对于左边的原始图像,SinGAN生成新的逼真的图像样本,该样本在创建新的对象配置和结构的同时保留原始图像块分布。
研究方法:
作者的目标是学习一个非条件生成模型,该模型可捕获单个训练图像的内部统计数据。 此任务在概念上与常规GAN设置相似,不同之处在于,训练样本是单个图像的多尺度的图像块,而非整个图像样本。为此,SinGAN生成框架由具有层级结构的patch-GANs(马尔可夫判别器)组成,其中每个判别器负责捕获不同尺度的分布,这是第一个为从单个图像进行内部学习而探索的网络结构。图像样本从最粗尺度开始,然后依次通过所有的生成器直到最细尺度,且每个尺度都注入噪声。所有生成器和判别器具有相同的感受野,因此,随着生成过程推进可以捕获更细尺寸的结构。在训练时,对抗损失采用WGAN-GP损失,以增加训练稳定性。并设计了一种重建损失来确保可以生成原始图像的特定噪声图谱集合。
研究结果:
作者在图像场景跨度很大的数据集上进行了测试。直观上,SinGAN很好地保留目标的全局结构和纹理信息,很真实地合成了反射和阴影效果。再使用AMT真假用户调研和FID的单幅图像版本进行量化。AMT测试结果表明可以生成很真实的样本,对于细节保留的也更多,人类判别的混淆率较高。FID结果与AMT一致。
3.5 计算机视觉进展
近年来,巨量数据的不断涌现与计算能力的快速提升,给以非结构化视觉数据为研究对象的计算机视觉带来了巨大的发展机遇与挑战性难题,计算机视觉也因此成为学术界和工业界公认的前瞻性研究领域,部分研究成果已实际应用,催生出人脸识别、智能视频监控等多个极具显示度的商业化应用。
计算机视觉的研究目标是使计算机具备人类的视觉能力,能看懂图像内容、理解动态场景,期望计算机能自动提取图像、视频等视觉数据中蕴含的层次化语义概念及多语义概念间的时空关联等。计算机视觉领域不断涌现出很多激动人心的研究成果,例如,人脸识别、物体识别与分类等方面的性能已接近甚至超过人类视觉系统。本文根据近两年计算机视觉领域*会议最佳论文及高引论文,对该领域中的技术现状和研究前沿进行了综合分析。
近两年大多数研究都集中在深度学习、检测和分类以及面部/手势/姿势、3D传感技术等方面。随着计算机视觉研究的不断推进,研究人员开始挑战更加困难的计算机视觉问题,例如,图像描述、事件推理、场景理解等。单纯从图像或视频出发很难解决更加复杂的图像理解任务,一个重要的趋势是多学科的融合,例如,融合自然语言处理领域的技术来完成图像描述的任务。图像描述是一个融合计算机视觉、自然语言处理和机器学习的综合问题,其目标是翻译一幅图片为一段描述文字。目前主流框架为基于递归神经网络的编码器解码器结构其核心思想类似于自然语言机器翻译。
但是,由于递归网络不易提取输入图像和文本的空间以及层次化约束关系,层次化的卷积神经网络以及启发自认知模型的注意力机制受到关注。如何进一步从认知等多学科汲取知识,构建多模态多层次的描述模型是当前图像描述问题研究的重点。
事件推理目标是识别复杂视频中的事件类别并对其因果关系进行合理的推理和预测。与一般视频分析相比,其难点在于事件视频更加复杂,更加多样化,而最终目标也更具挑战性。不同于大规模图像识别任务,事件推理任务受限于训练数据的规模,还无法构建端到端的事件推理系统。目前主要使用图像深度网络作为视频的特征提取器,利用多模态特征融合模型,并利用记忆网络的推理能力,实现对事件的识别和推理认知。当前研究起源于视频的识别和检测,其方法并未充分考虑事件数据的复杂和多样性。如何利用视频数据丰富的时空关系以及事件之间的语义相关性,应是今后的关注重点。
场景理解的目的是计算机视觉系统通过分析处理自身所配置的传感器采集的环境感知数据,获得周围场景的几何/拓扑结构、组成要素(人、车及物体等)及其时空变化,并进行语义推理,形成行为决策与运动控制的时间、空间约束。近年来,场景理解已经从一个初期难以实现的目标成为目前几乎所有先进计算机视觉系统正在不断寻求新突破的重要研究方向。
利用社会-长短记忆网络(Social-LSTM)实现多个行人之间的状态联系建模,结合各自运动历史状态,决策出未来时间内的运动走向。此外神经网络压缩方向也是是目前深度学习研究的一个热门的方向,其主要的研究技术有压缩,蒸馏,网络架构搜索,量化等。
综上所述,视觉的发展需要设计新的模型,它们需要能考虑到空间和时间信息;弱监督训练如果能做出好的结果,下一步就是自监督学习;需要高质量的人类检测和视频对象检测数据集;结合文本和声音的跨模态集成;在与世界的交互中学习。
立即体验工业视觉智能平台训练:
https://www.aliyun.com/product/indvi?spm=5176.12825654.h2v3icoap.467.e9392c4a1KMEL9&aly_as=c7DQGDJ5
将阿里云基于工业各场景中的最佳实践所获得的预训练模型与用户实际场景中的样本数据结合,通过用户样本数据的训练对模型进行定制优化,从而适配用户实际使用场景。