[计算机论文速递] 2018-03-23

2024-03-23 14:09:16

通知：这篇文章有15篇论文速递信息，涉及目标检测、目标跟踪、姿态估计、SLAM、GAN、行为识别、去雾、网络优化等方向

创办CVer公众号，渐渐半个多月了，很感谢得到这么多童鞋的关注和支持。特别是看到后台有人给我留言：加油，我很喜欢你的公众号。我心里很满足，也很有动力。

我尽量维持1.5day频率的更新速度，但写一篇推文确实太耗时间了，哪怕暂时是以“译文”为主的文章。在此向那些奉献知识的工作者表示致敬。

最近有同学建议我，可以开启打赏功能，分享知识的同时，获得物质上的赞赏，也是作为对你的工作一种肯定。我没有想过靠此盈利，因为这是我个人的公众号，所以想问一下大家对此的态度（算是一种调研吧）

目标检测

[1]《Single-Shot Bidirectional Pyramid Networks for High-Quality Object Detection》

Abstract：近年来，使用深度学习技术在物体检测领域取得了令人振奋的成就。尽管取得了重大进展，但是大多数现有的检测器被设计用于检测具有相对低质量的位置预测的对象，即，通常在默认情况下用交叉点联合（IoU）阈值设置为0.5来训练，这可以产生低质量或者甚至是低质量嘈杂的检测。如何在不牺牲检测性能的情况下设计和训练能够实现更精确定位（即IoU [数学处理误差] 0.5）的高质量检测器仍然是一个公开挑战。在本文中，我们提出了一种双向金字塔网络（BPN）的新型单发检测框架，以实现高质量的目标检测，该框架由两个新颖的组件组成：（i）双向特征金字塔结构，用于更有效和更鲁棒的特征表示;和（ii）梯级锚定细化，以逐步改善预先设计的锚点的质量以进行更有效的训练。我们的实验表明，所提出的BPN在PASCAL VOC和MS COCO数据集上的所有单级物体检测器中都达到了最佳性能，特别是对于高质量检测。

注：咦，提高IoU的目标检测器！还是Single-Shot类型！Bidirectional Pyramid Networks (BPN)！！！实验结果IoU在0.5、0.6和0.7下的mAp是最高的！比two-stage还高！

arXiv：https://arxiv.org/abs/1803.08208

目标跟踪

[2]《Learning to Detect and Track Visible and Occluded Body Joints in a Virtual World》

Abstract：在开放的世界环境中进行多人追踪需要特别的努力来进行精确的检测。此外，当场景混乱引入遮挡目标的具有挑战性的问题时，检测阶段的时间连续性变得更加重要。为此，我们提出了一个深度网络体系结构，它可以共同提取人体部位，并在短暂的时间跨度内将它们关联起来。我们的模型明确地处理闭塞的身体部位，通过幻觉看不见关节的合理解决方案。我们提出了由\ textit提供的四个分支（\ textit {可见heatmaps}，\ textit {occluded heatmaps}，\ textit {零件关联字段}和\ textit {时间关联字段}）组成的新的端到端体系结构{时间链接器}功能提取器。为了克服跟踪，身体部分和遮挡注释缺乏监视数据，我们创建了最快的计算机图形数据集，用于人们在城市场景中进行跟踪，通过利用真实感的视频游戏进行跟踪。它是迄今为止在城市情景中跟踪人体的最快数据集（大约500,000帧，超过1000万个身体姿态）。我们在虚拟数据方面进行培训的体系结构在公共实际跟踪基准上具有良好的泛化能力，当图像分辨率和清晰度足够高时，可生成可用于进一步批量数据关联或重新标识模块的可靠tracklets。

arXiv：https://arxiv.org/abs/1803.08319

姿态估计

[3]《Unsupervised Adversarial Learning of 3D Human Pose from 2D Joint Locations》

Abstract：从单个图像中进行三维（3D）人体姿态估计的任务可以被分成两部分：（1）从图像中的二维（2D）人体关节检测和（2）根据二维关节估计3D姿态。这里，我们关注第二部分，即，来自2D关节位置的3D姿态估计。现有方法存在的问题是它们需要（1）从视频序列中获取的连续帧中的3D姿态数据集或（2）2D关节位置。我们旨在解决这些问题。我们第一次提出一种在没有任何3D数据集的情况下学习3D人体姿势的方法。我们的方法可以预测单个图像中2D关节位置的3D姿态。我们的系统基于生成的敌对网络，网络以无监督的方式进行训练。我们的主要想法是，如果网络可以正确预测3D人体姿态，则投射到2D平面上的3D姿态即使垂直旋转也不应该塌陷。我们使用Human3.6M和MPII数据集评估了我们方法的性能，结果表明我们的网络可以很好地预测3D姿态，即使3D数据集在训练期间不可用。

arXiv：https://arxiv.org/abs/1803.08244

[4]《PersonLab: Person Pose Estimation and Instance Segmentation with a Bottom-Up, Part-Based, Geometric Embedding Model》

Abstract：我们提出了一个无盒自下而上的方法，用于使用高效的单次模型对多人图像中的人进行姿态估计和实例分割。建议的PersonLab模型使用基于部件的建模来处理语义层推理和对象部分关联。我们的模型采用了卷积网络，可以学习检测各个关键点并预测它们的相对位移，从而使我们能够将关键点分组为人物姿势实例。此外，我们提出了一个部分诱导的几何嵌入描述符，它允许我们将语义人像素与其相应的人员实例相关联，从而提供实例级别的人员分段。我们的系统基于完全卷积体系结构，可以进行高效的推理，运行时间基本上与场景中出现的人数无关。仅依靠COCO数据训练，我们的系统通过单尺度推理获得了0.665的COCO测试 - 开发关键点平均精度，使用多尺度推理实现了0.687的COCO测试 - 开发关键点平均精度，明显优于所有以前的自下而上的姿势估计系统。我们也是第一种自下而上的自下而上方法来报告COCO实例细分任务中人员类别的竞争结果，实现人类分类平均精度为0.417。

arXiv：https://arxiv.org/abs/1803.08225

[5]《Deep Pose Consensus Networks》

Abstract：在本文中，我们解决了从单个图像估计三维人体姿态的问题，这很重要但很难解决，原因很多，如遮挡，外观变化以及二维3D估计的固有模糊性线索。这些困难使这个问题不适当，这已经变得越来越复杂的估计人员需要提高绩效。另一方面，大多数现有的方法都是基于单个复杂的估计器来处理这个问题，这可能不是很好的解决方案。在本文中，为了解决这个问题，我们提出了一个基于多部分假设的框架，用于从单个图像估计3D人体姿态的问题，可以以端到端的方式进行微调。我们首先使用所提出的采样方案从人类关节模型中选择几个关节组，并基于深度神经网络分别估计每个关节组的三维姿态。之后，使用建议的鲁棒优化公式来聚合它们以获得最终的3D姿势。整个过程可以以端到端的方式进行微调，从而获得更好的性能。在实验中，所提出的框架显示了在流行的基准数据集上的最新性能，即Human3.6M和HumanEva，它们证明了所提出的框架的有效性。

arXiv：https://arxiv.org/abs/1803.08190

[6]《A Unified Framework for Multi-View Multi-Class Object Pose Estimation》

Abstract：对象姿态估计的一个核心挑战是确保在复杂的背景杂波中为大量不同的前景对象提供精确和稳健的性能。在这项工作中，我们提出了一个可扩展的框架，可以为单个或多个视图中的大量对象类准确推断六个*度（6-DoF）姿态。为了学习辨别性姿态特征，我们将三种新功能集成到深度卷积神经网络（CNN）中：一种推理方案，它基于SE（3）的统一曲面细分将分类和姿态回归相结合，将先前类别融入训练通过平铺的类地图进行处理，以及使用深度监视和对象蒙版的附加正则化。此外，制定了一个有效的多视图框架来解决单视图模糊。我们证明这一贯地改善了单视图网络的性能。我们在三个大型基准测试中评估我们的方法：YCB-Video，JHUScene-50和ObjectNet-3D。我们的方法比目前最先进的方法实现了竞争力或卓越的性能。

arXiv：https://arxiv.org/abs/1803.08103

GAN

[7]《Branched Generative Adversarial Networks for Multi-Scale Image Manifold Learning》

Submitted to ECCV 2018

Abstract：我们引入了BranchGAN，一种新颖的训练方法，使无条件的生成对抗网络（GAN）能够学习多尺度的图像流形。 BranchGAN的独特之处在于它在多个分支进行了培训，随着培训图像分辨率的增加，逐渐覆盖网络的广度和深度，以显示更精细的特征。具体而言，作为输入到发生器网络的每个噪声向量被明确地分成几个子向量，每个子向量对应于并且被训练以学习特定尺度的图像表示。在训练过程中，我们逐步“逐步”解冻子矢量，因为一组新的高分辨率图像被用于训练，并且添加了更多的网络层。这种明确的子矢量指定的结果是我们可以直接操纵甚至组合与特定特征尺度关联的潜在（子矢量）代码。实验证明了我们的训练方法在图像流形和合成的多尺度，解体学习中的有效性，没有任何额外的标签，并且不会损害合成的高分辨率图像的质量。我们进一步演示了BranchGAN启用的两个新应用程序。

arXiv：https://arxiv.org/abs/1803.08467

行为识别

[8]《Towards Universal Representation for Unseen Action Recognition》

Accepted at CVPR 2018

Abstract：看不见的行为识别（UAR）旨在识别新的行为类别，没有训练的例子。虽然以前的方法专注于内部数据集看到/看不见的分裂，但本文提出了一种使用大规模训练源来实现通用表示（UR）的流水线，该泛化表示可推广到更现实的跨数据集UAR（CD-UAR）场景。我们首先将UAR称为广义多实例学习（GMIL）问题，并使用分布式内核从大规模ActivityNet数据集中发现“构建块”。必要的视觉和语义组件被保存在一个共享空间中，以实现可以高效地推广到新数据集的UR。通过简单的语义适应可以改进预测的UR范例，然后在测试过程中使用UR可以直接识别出看不见的动作。在没有进一步培训的情况下，广泛的实验显示出UCF101和HMDB51基准测试的显著改进。

arXiv：https://arxiv.org/abs/1803.08460

SLAM

[9]《PlaneMatch: Patch Coplanarity Prediction for Robust RGB-D Reconstruction》

Abstract：我们引入了一种新颖的RGB-D patch描述符，设计用于在SLAM重建中检测共面曲面。我们方法的核心是一个深卷积神经网络，它接收图像中平面斑点的RGB，深度和正常信息，并输出可用于从其他图像找到共面斑点的描述符。我们训练网络10 百万三平面共面和非共面面片，并评估由商品RGB-D扫描产生的新共面性基准。实验表明，我们的学习描述符胜过了为这个新任务扩展的备选方案，而且效果明显。此外，我们证明了在一个稳健的RGBD重建公式*面性匹配的好处。我们发现用我们的方法检测到的共面性约束足以获得与大多数场景中最先进的框架相媲美的重建结果，但优于其他方法在与简单的关键点方法相结合的标准基准测试中。

arXiv：https://arxiv.org/abs/1803.08407

优化

[10]《Group Normalization》

Abstract：批量标准化（BN）是深度学习发展中的一项里程碑式技术，可让各种网络进行培训。但是，沿着批量维度进行归一化会带来一些问题---批量统计估算不准确导致批量变小时，BN的误差会迅速增加。这限制了BN用于培训更大型号的功能，并将功能转移到计算机视觉任务，包括检测，分割和视频，这些任务都需要小批量的内存消耗。在本文中，我们提出组标准化（GN）作为BN的简单替代方案。 GN将通道分成组，并在每组内计算标准化的均值和方差。 GN的计算与批量大小无关，并且其准确度在各种批量大小下都很稳定。在ImageNet上训练的ResNet-50上，GN使用批量大小为2时的错误率比BN对手低10.6％;当使用典型的批量时，GN与BN相当，并且优于其他标准化变量。而且，GN可以自然地从预培训转向微调。 GN可以胜过其竞争对手，或者与其在国阵的对手进行COCO中的目标检测和分割以及Kinetics中的视频分类竞争，表明GN可以在各种任务中有效地取代强大的BN。 GN可以通过现代库中的几行代码轻松实现。

注：Yuxin Wu和何凯明的大作啊！！！Facebook AI出品，必属精品，期待论文复现的童鞋好好表现！

arXiv：https://arxiv.org/abs/1803.08494

综述

[11]《A Comprehensive Analysis of Deep Regression》

submitted to TPAMI

Abstract：深度学习使数据科学发生了革命性的变化，最近它的受欢迎程度呈指数级增长，使用深度网络的论文数量也呈指数增长。诸如人体姿势估计等视觉任务并没有摆脱这种方法上的改变。大量的深层架构导致过多的方法在不同的实验协议下评估。此外，网络体系结构或数据预处理过程中的微小变化以及优化方法的随机性导致了显着不同的结果，使得筛选出明显优于其他方法的方法变得非常困难。因此，当提出回归算法时，从业者可以通过反复试验来进行。这种情况激发了目前的研究，我们对香草深层回归的性能进行了系统评估和统计分析 - 对于具有线性回归顶层的卷积神经网络来说，这是一个缩写。据我们所知，这是对深度回归技术的首次综合分析。我们对三个视觉问题进行实验，并报告中值性能的置信区间以及结果的统计显着性（如果有的话）。令人惊讶的是，由于不同的数据预处理程序引起的变化性通常掩盖了由于网络体系结构中的修改而导致的变化性。

注：硬梆梆的文章！介绍并分析了VGGG-16、ResNet-50网络，AdaGrad、RMSProp、AdaDelta、Adam等优化器，Batch size、Batch Normalization和Dropout的作用。

arXiv：https://arxiv.org/abs/1803.08450

其它

[12]《Text2Shape: Generating Shapes from Natural Language by Learning Joint Embeddings》

Abstract：我们提出一种从自然语言生成彩色3D形状的方法。为此，我们首先学习*文本描述和彩色3D形状的联合嵌入。我们的模型结合并扩展了通过关联和度量学习方法进行的学习，以学习隐式的跨模态连接，并产生了一个联合表示，它捕捉语言和3D形状的物理属性（如颜色和形状）之间的多对多关系。为了评估我们的方法，我们收集ShapeNet数据集中物理3D对象的自然语言描述的大型数据集。通过这种学习的联合嵌入，我们展示了比基线方法更好的文本到形状检索。使用我们的带有新颖条件Wasserstein GAN框架的嵌入，我们从文本生成彩色3D形状。我们的方法是第一个将自然语言文本与真实的3D对象连接起来，呈现丰富的颜色，纹理和形状细节变化。

注：太硬的文章！！！

arXiv：https://arxiv.org/abs/1803.08495

[13]《Group Sparsity Residual with Non-Local Samples for Image Denoising》

Abstract：受到基于群组的稀疏编码的启发，最近提出的群体稀疏残差（GSR）方案在图像处理中表现出优越的性能。然而，GSR中的一个挑战是通过使用基于组的稀疏编码（GSC）的适当参考来估计残差，希望尽可能接近真实。以前的研究利用了其他算法（即GMM或BM3D）的估计，这些算法不准确或太慢。在本文中，我们建议使用非局部样本（NLS）作为GSR机制中的图像去噪的参考，因此称为GSR-NLS。更具体地说，我们首先通过图像非局部自相似性获得组稀疏系数的良好估计，然后通过有效的迭代收缩算法求解GSR模型。实验结果表明，所提出的GSR-NLS不仅胜过许多最先进的方法，而且还提供了速度的竞争优势。

arXiv：https://arxiv.org/abs/1803.08412

[14]《Densely Connected Pyramid Dehazing Network》

CVPR 2018

Abstract：我们提出了一种称为密集连接金字塔除雾网络（DCPDN）的新型端到端单图像去雾方法，它可以共同学习透射图，大气光和去雾。端到端学习是通过将大气散射模型直接嵌入到网络中来实现的，从而确保所提出的方法严格遵循物理驱动的散射模型。受密集网络的启发，可以最大限度地利用不同层次特征的信息流，我们提出了一种新的边缘保持密集连接的编码器 - 解码器结构，其中包含用于估计传输图的多层金字塔池模块。该网络使用新引入的边缘保留损失函数进行了优化。为了进一步在估计的传输图和去抖动结果之间结合相互结构信息，我们提出了一种基于生成对抗网络框架的联合鉴别器，以确定相应的去雾图像和估计的传输图是真实的还是假的。进行消融研究以证明在估计的传输图和去除颤动结果时评估的每个模块的有效性。大量的实验证明，所提出的方法比现有技术的方法有显着的改进。

arXiv：https://arxiv.org/abs/1803.08396

github：https://github.com/hezhangsprinter/DCPDN

[15]《Deep Learning using Rectified Linear Units (ReLU)》

Abstract：我们引入修正线性单元（ReLU）作为深度神经网络（DNN）中的分类函数。传统上，ReLU被用作DNN中的激活功能，其中Softmax功能作为其分类功能。但是，有几项关于使用除Softmax以外的分类功能的研究，本研究是对这些研究的补充。我们通过在神经网络中激活倒数第二层hn-1，然后将其乘以权重参数θ来获得原始分数oi。之后，我们将原始分数oi设为0，即f（o）= max（0，oi），其中f（o）是ReLU函数。我们通过argmax函数，即argmax f（x）提供类别预测y ^。

注：Amazing！！！ReLU直接做分类函数了！来，双击666666

arXiv：https://arxiv.org/abs/1803.08375

码农公寓

相关文章