[计算机视觉论文速递] 2018-03-30

通知:这篇文章有9篇论文速递信息,涉及目标检测、图像分割、目标跟踪、三维重建和立体匹配等方向
PS:由于时间问题,本文没有附上相应图示,还请见谅

前文回顾

TensorFlow和深度学习入门教程

YOLOv3:你一定不能错过

你现在应该阅读的7本最好的深度学习书籍

目标检测

[1]《Optimizing the Trade-off between Single-Stage and Two-Stage Object Detectors using Image Difficulty Prediction》

Abstract:主要有两种类型的最先进的物体探测器。一方面,我们two-stage探测器,比如Faster R-CNN(基于区域的卷积神经网络)或Mask R-CNN,它们(i)使用区域提议网络在第一阶段产生兴趣区域, (ii)将区域提案发送到pipeline中以进行对象分类和边界框回归。这样的模型达到了最高的准确率,但通常较慢。另一方面,我们有YOLO(You Only Look Once)和SSD(Singe Shot MultiBox Detector)等single-stage探测器,将物体探测作为一个简单的回归问题,它将输入图像作为输入图像并学习类概率,边界框坐标。这种模型的准确率较低,但比two-stage物体探测器快得多。在本文中,我们建议使用图像难度预测器来实现目标检测中精度和速度之间的最佳平衡。将图像难度预测器应用到测试图像上,将其分解为简易图像和困难图像。一旦分离后,简单的图像将被发送到更快的single-stage探测器,而困难图像被发送到更精确的two-stage探测器。我们在PASCAL VOC 2007上进行的实验表明,使用图像难度与图像的随机分割相比毫不逊色。我们的方法是灵活的,因为它允许选择一个期望的阈值,将图像分成简单和较难。

注:还能有这种操作?!感觉就是一个预处理,但实际中还是要训练两个模型,咦!不过如果总体测试,精度和速度若达到均衡也很棒!

arXiv:https://arxiv.org/abs/1803.08707

[2]《Speeding-up Object Detection Training for Robotics with FALKON》

Abstract:最新的物体检测深度学习方法得到了显著的性能提升,但在机器人应用中使用时会受到限制。最相关的问题之一是训练时间长,这是由于相关训练集的大小和不平衡造成的,其特征在于很少的正样本和负样本(即背景)例子。提出的方法,无论是基于反向传播的端对端学习[22],or standard kernel methods trained with Hard Negatives Mining on top of deep features [8],都证明是有效的,但对于在线应用却不合适。在本文中,我们提出了一种新颖的物体检测pipeline,克服了这个问题,并提供了与60倍训练加速相当的性能。我们的流程结合了(i)区域提议网络和[22]中的深度特征提取器,以有效地选择候选RoI并将它们编码成强大的表示,(ii)最近提出的FALKON [23]算法,一种新的基于内核的方法可以快速训练数百万分。我们通过利用方法中固有的随机子采样,结合一种新颖,快速的自举方法来解决训练数据的大小和不平衡问题。我们评估标准计算机视觉设置(PASCAL VOC 2007 [5])中该方法的有效性,并证明其适用于由iCubWorld Transformations [18]数据集表示的真实机器人场景。

arXiv:https://arxiv.org/abs/1803.08740

[3]《Object Detection for Comics using Manga109 Annotations》

Abstract:随着数字化漫画的发展,图像理解技术变得越来越重要。在本文中,我们着重于对象检测,这是图像理解的基础任务。尽管基于卷积神经网络(CNN)的方法在自然图像的对象检测中存档良好,但在将这些方法应用于漫画对象检测任务时存在两个问题。首先,没有大规模的带注释的漫画数据集。基于CNN的方法需要大规模的注释用于训练。其次,与自然图像相比,漫画中的物体高度重叠。这种重叠会导致现有的基于CNN的方法中的分配问题。为了解决这些问题,我们提出了一个新的注释数据集和一个新的CNN模型。我们注释了现有的漫画图像数据集,并创建了最大的注释数据集Manga109-annotations。对于分配问题,我们提出了一种新的基于CNN的探测器SSD300-fork。我们使用Manga109注释比较SSD300-fork与其他检测方法,并确认我们的模型基于mAP得分胜过了它们。

注:上述将annotation翻译成了注释,有些不妥,但思来想去,翻译成标签、标记都还是不好。讲真,还是意会比较好。

arXiv:https://arxiv.org/abs/1803.08670

图像分割

[4]《Context Encoding for Semantic Segmentation》

CVPR 2018

Abstract:最近的工作已经在利用全卷积网络(FCN)框架通过使用扩张/Atrous 卷积,利用多尺度特征和细化边界来提高用于像素标记的空间分辨率方面取得重大进展。在本文中,我们通过引入上下文编码模块来探索全局上下文信息在语义分割中的影响,上下文编码模块捕获场景的语义上下文并选择性地突出显示与类相关的特征图。所提出的上下文编码模块显著改善了语义分割结果,并且在FCN上仅有边际额外计算成本。我们的方法在PASCAL-Context上获得了51.7%的最新成果,在PASCAL VOC 2012上获得了85.9%的mIoU。我们的单一模型在ADE20K测试集上取得了0.5567的最终成绩,超过了COCO 2017冠军此外,我们还探讨了上下文编码模块如何改进CIFAR-10数据集上图像分类的相对浅层网络的特征表示。我们的14层网络已经实现了3.45%的错误率,这与具有10倍以上层数的最先进方法相当。完整系统的源代码是公开可用的。

注:期待源码早点公开!

arXiv:https://arxiv.org/abs/1803.08904

[5]《Deep learning and its application to medical image segmentation》

Abstract:在医学成像中最常见的任务之一是语义分割。自动实现这种分割一直是一个活跃的研究领域,但由于不同患者的解剖结构差异很大,这项任务已被证明非常具有挑战性。然而,深度学习的最新进展使得显著提高了计算机视觉领域中的图像识别和语义分割方法的性能。由于在深度学习框架中采用数据驱动的分层特征学习方法,这些进步可以毫不费力地转化为医学图像。深卷积神经网络的几种变体已成功应用于医学图像。特别是完全卷积体系结构已被证明是有效的3D医学图像分割。在本文中,我们将介绍如何构建一个可以处理3D图像以产生自动语义分割的3D完全卷积网络(FCN)。该模型经过临床计算机断层扫描(CT)数据集的训练和评估,并显示了多器官分割的最新性能。

arXiv:https://arxiv.org/abs/1803.08691

目标跟踪

[6]《Learning Spatial-Temporal Regularized Correlation Filters for Visual Tracking》

CVPR 2018

Abstract:鉴别相关滤波器(DCF)在视觉追踪中是有效的,但遭受不需要的边界效应。已经提出空间正则化DCF(SRDCF)来通过对DCF系数执行空间惩罚来解决这个问题,这不可避免地以复杂性增加的价格提高了跟踪性能。为了处理在线更新,SRDCF在多个训练图像上制定了模型,进一步增加了提高效率的难度。在这项工作中,通过将单个样本的时间正则化引入SRDCF,我们提出了我们的空间 - 时间正则化相关滤波器(STRCF)。受到在线被动 - 积极(PA)算法的启发,我们将时间正则化引入单样本SRDCF,从而产生我们的时空正则化相关滤波器(STRCF)。 STRCF公式不仅可以作为SRDCF与多个训练样本的合理近似,而且在外观变化大的情况下也可以提供比SRDCF更强大的外观模型。此外,它可以通过乘法器的交替方向法(ADMM)有效解决。通过结合时间和空间正则化,我们的STRCF可以处理边界效应,而不会产生太多的效率损失,并且在精确度和速度方面比SRDCF实现更好的性能。实验在三个基准数据集上进行:OTB-2015,Temple-Color和VOT-2016。与SRDCF相比,具有手工特征的STRCF提供了5倍的加速,分别在OTB-2015和Temple-Color上获得了5.4%和3.6%的AUC分数。此外,STRCF与CNN功能相结合,对于最先进的基于CNN的跟踪器也表现出色,并且在OTB-2015上获得了68.3%的AUC评分。

arXiv:https://arxiv.org/abs/1803.08679

[7]《Region-filtering Correlation Tracking》

Abstract:最近,相关滤波器已经证明了在视觉跟踪方面的出色表现。但是,基本训练样本区域大于目标区域,包括干涉区域(IR)。基训练样本的循环移位训练样本中的IR严重降低了跟踪模型的质量。在本文中,我们提出了新颖的区域滤波相关跟踪(RFCT)来解决这个问题。我们立即通过将空间图引入标准CF配方来过滤训练样本。与现有的相关滤波跟踪器相比,我们提出的跟踪器具有以下优点:(1)可以在较大的搜索区域上学习相关滤波器,而不受空间映射的干扰。 (2)由于通过空间图处理训练样本,在训练样本中控制背景信息和目标信息是更一般的方法。空间图的值不受限制,那么可以探索更好的空间图。 (3)增加精确过滤器的重量比例以减轻模型corruption。在两个基准数据集上进行实验:OTB-2013和OTB-2015。对这些基准的定量评估表明,所提出的RFCT算法对于几种最先进的方法有良好的表现。

arXiv:https://arxiv.org/abs/1803.08687

三维重建

ICIP 2017

[8]《CSfM: Community-based Structure from Motion》

Abstract:动态结构方法大致可以分为两类:增量式和全局式。虽然增量式方法对异常值具有鲁棒性,但会受到误差累积和大量计算负担的影响。全局方式具有同时估计所有相机姿态的优点,但它通常对极外几何异常值很敏感。在本文中,我们提出了一个基于自适应社区的SfM(CSfM)方法,该方法既考虑到鲁棒性又考虑效率。首先,极线几何图形被划分为不同的社区。然后,并行解决每个community 的重建问题。最后,重构结果由一种新的全局相似性平均方法合并,解决了三个凸L1优化问题。实验结果表明,我们的方法在计算效率方面比许多先进的SfM方法执行得更好,同时获得与许多最先进的增量SfM相似或更好的重构精度和鲁棒性方法。

arXiv:https://arxiv.org/abs/1803.08716

立体匹配

[9]《Pyramid Stereo Matching Network》

CVPR 2018

Abstract:最近的研究表明,从一对立体图像进行深度估计可以被制定为一个监督学习任务,用卷积神经网络(CNN)来解决。 然而,目前的体系结构依赖于基于parch的Siamese网络,缺乏利用上下文信息来查找在所示区域的对应关系的手段。为了解决这个问题,我们提出PSMNet,一个由两个主要模块组成的金字塔立体匹配网络:空间金字塔池和3D CNN。空间金字塔池模块通过聚合不同尺度和位置的上下文来利用全局上下文信息的能力来形成cost volume。3D CNN学习使用堆叠的多个hourglass网络结合中间监督来调整cost volume。所提出的方法在几个基准数据集上进行了评估。 我们的方法在2018年3月18日之前的KITTI 2012和2015排行榜中排名第一。

arXiv:https://arxiv.org/abs/1803.08669

github:https://github.com/JiaRenChang/PSMNet

上一篇:WPF -- 一种圆形识别方案


下一篇:[计算机视觉论文速递] 2018-03-20