[计算机视觉论文速递] 2018-05-10

2024-03-23 14:08:58

通知：这篇文章有6篇论文速递信息，涉及前景检测、行为分类、3D、SLAM和去模糊等方向（含2篇CVPR论文和一篇TIP论文）

编辑：Amusi

审稿：Amusi

Foreground Detection

[1]《A Fusion Framework for Camouflaged Moving Foreground Detection in the Wavelet Domain》

IEEE TIP 2018

Abstract：由于前景物体和背景之间的相似性，检测伪装的（camouflaged）移动前景物体是非常困难的。传统方法由于它们之间的差异很小，所以不能区分前景和背景，因此对于伪装的（camouflaged）前景对象的检测率很低。在本文中，我们提出了一个融合框架来解决小波域（wavelet domain）中的这个问题。我们首先表明，图像域的小差异可以在某些小波带中突出显示（highlight）。然后通过为每个小波带制定前景和背景模型来估计每个小波系数为前景的可能性。所提出的框架基于小波变换的特征有效地聚合来自不同小波带的可能性。实验结果表明，该方法在检测伪装前景物体方面明显优于现有方法。具体而言，该算法的平均F-measure为0.87，而其他最先进的方法则为0.71至0.8。

注：文中的伪装（camouflaged）其实是指前景和背景颜色和纹理等信息很相近

arXiv：https://arxiv.org/abs/1804.05984

Activity Classification

[2]《M-PACT: Michigan Platform for Activity Classification in Tensorflow》

Abstract：行动分类是一项广为人知的研究领域，它提供了一种视频理解的方法。现在并没有包含最新技术（SOTA）模型且易于使用的平台供给大众使用。考虑到单个研究代码并不是考虑最终用户编写的，并且在某些情况下代码没有发布，即使是已发布的文章，在减轻开发整个系统负担的同时，能够提供结果的通用统一平台的重要性不能夸大。为了尝试和解决这些问题，我们开发一个基于tensorflow端到端的pipeline安装方面，统一平台减少了不必要的开销，以允许用户快速，轻松地prototype action classification models。通过在不同模型之间使用一致的编码风格以及各种子模块之间的无缝数据流，该平台适用于各种数据集的各种SOTA方法的快速生成结果。所有这些功能都通过使用建立在一个小而强大的一套处理异步数据加载模块的功能，模式初始化，指标计算的顶部完全预先定义的培训和测试模块成为可能，保存和检查站的负荷，并记录结果。该平台旨在轻松创建模型，最低要求是定义网络体系结构，并从大量自定义层选择和预处理功能中预处理步骤。 M-PACT目前拥有4个SOTA活动分类模型，其中包括I3D，C3D，ResNet50 + LSTM和TSN。对于HMDB51，ResNet50 + LSTM的分类性能达到43.86％，而C3D和TSN分别达到UCF101的93.66％和85.25％。

arXiv：https://arxiv.org/abs/1804.05879

github：https://github.com/MichiganCOG/M-PACT

注：很强大的code

[3]《Pixels, voxels, and views: A study of shape representations for single view 3D object shape prediction》

CVPR 2018

Abstract：本论文的目的是比较基于表面的（surface-based）和基于体积的3D对象形状表示，以及用于单视图3D形状预测的以观察者为中心和以对象为中心的参考框架。我们提出了一种用于从多个视点预测深度图的新算法，其中单个深度或RGB图像作为输入。通过修改网络和评估模型的方式，我们可以直接比较体素（voxels）与表面（surfaces）的优点，以及从RGB或深度图像预测的熟悉与陌生物体的以观察者为中心与以物体为中心的优点。在我们的研究结果中，我们显示基于表面的方法胜过来自新类别的对象的体素表示并产生更高分辨率的输出。我们还发现，使用以观察者为中心的坐标对于新颖的物体是有利的，而以物体为中心的表示对于更熟悉的物体更好。有趣的是，坐标系显著地影响所学的形状表示，以物体为中心更重视隐式识别物体类别和以观察者为中心的生成形状表示，而对类别识别的依赖较小。

arXiv：https://arxiv.org/abs/1804.06032

SLAM

[4]《The TUM VI Benchmark for Evaluating Visual-Inertial Odometry》

Abstract：视觉测距和SLAM方法在诸如增强现实或机器人等领域具有大量的应用。利用惯性测量补充视觉传感器极大地提高了跟踪精度和鲁棒性，因此引起了人们对视觉 - 惯性（VI）测距方法发展的极大兴趣。在本文中，我们提出了TUM VI基准，这是一种新颖的数据集，它在不同的场景中具有多种序列，用于评估VI odometry。它提供20 Hz下的1024x1024分辨率的照相机图像，高动态范围和光度校准。一个IMU测量3个轴上200Hz的加速度和角速度，而摄像头和IMU传感器在硬件上进行时间同步。对于轨迹评估，我们还可以在运动捕捉系统中以高频（120 Hz）在序列的开始和结束处提供精确的姿态地面实况，这些序列与摄像机和IMU测量精确对齐。包含原始和校准数据的完整数据集是公开可用的。我们还在我们的数据集上评估了最先进的VI odometry方法。

arXiv：https://arxiv.org/abs/1804.06120

datasets：https://vision.in.tum.de/data/datasets/visual-inertial-dataset

Debluring

[5]《A Concatenated Residual Network for Image Deblurring》

Rejected by IJCAI 2018

Abstract：基于深度卷积神经网络（CNN）的恢复（restoration）方法最近在低级视觉任务中获得了相当大的进展，例如去噪，超分辨率，修复。然而，普通的CNN由于模糊退化造成严重的像素重叠而无法进行图像去模糊。在本文中，我们提出了一种新颖的级联残余CNN用于图像去模糊。在基于最小均方误差（MMSE）的区分性学习的驱动下，图像去模糊的解决方案被有趣地展开为一系列迭代残差分量，并且被分析以展示迭代残余去卷积（IRD）的贡献。此外，IRD激发了我们向前迈进一步，为图像去模糊设计CNN。具体来说，采用剩余的CNN单元来替代残差迭代，然后将它们连接起来并最终进行积分，从而产生连接的残余卷积网络（CRCNet）。实验结果表明，CRCNet不仅可以实现更好的定量指标，还可以恢复更多视觉上合理的纹理细节。

arXiv：https://arxiv.org/abs/1804.06042

注：这篇文章虽然被IJCAI拒了，但我觉得还是有点意思的

Reconstruction

[6]《PlaneNet: Piece-wise Planar Reconstruction from a Single RGB Image》

CVPR 2018

Abstract：本文提出了一种深度神经网络（DNN），用于从单个RGB图像中进行分段平面深度图重构。尽管DNN在单图像深度预测方面取得了显著进展，但分段（piece-wise）平面深度图重建需要结构化几何表示，并且即使对于DNN也需要掌握很多任务。所提出的端到端DNN学习从单个RGB图像直接推断一组平面参数和相应的平面分割掩模。我们已经为大规模RGBD视频数据库ScanNet的ScanNet培训和测试生成了超过50,000个分段平面深度图。我们的定性和定量评估表明，所提出的方法在平面分割和深度估计精度方面均优于基线方法。据我们所知，本文介绍了从单个RGB图像中分段平面重建的第一个端到端神经架构。

arXiv：

https://arxiv.org/abs/1804.06278

github：

https://github.com/art-programmer/PlaneNet

homepage：

http://art-programmer.github.io/planenet.html

注：一项很cool的工作，但Amusi不知道piecewise planar是个啥？！希望有童鞋可以补充一下

码农公寓

相关文章