2018年3月12日论文阅读

国内暂时泛读!title(4):Tell Me Where to Look: Guided Attention Inference Network(告诉我看向哪里:引导注意推理网络)---20180227

abstract:只有粗糙标签的弱监督学习可以通过反向传播梯度获得深度神经网络的视觉解释,例如注意力图。这些注意图随后可用作目标定位和语义分割等任务的先序任务。在一个通用框架中,我们解决了以往方法在建模这些注意图时存在的三个缺点:我们(1)首次使注意力映射到一个明确而自然的端到端训练的结构中(2)通过探索监督网络本身,直接在这些图上提供自我指导来改进它们(3)无缝地弥合使用弱监督和额外监督之间的差距(如果有的话)。尽管简单,在语义分割任务上的实验证明了我们方法的有效性。我们明显超越在Pascal VOC 2012验证集上的最新技术。此外,提出的框架不仅可以解释学习者的重点,还可以反馈直接指导具体任务。在温和假设下,我们的方法也可以理解为现有弱监督学习者的插件,以提高其泛化性能。

国内泛读!title(5):Depth CNNs for RGB-D scene recognition: learning from scratch better than transferring from RGB-CNNs(RGB-D场景识别的深度CNN:从头开始学习比从RGB-CNN转化更好)---20180121

abstract:由于卷积神经网络(CNN)和大型scenedatasets,RGB图像的场景识别已经得到了广泛的研究并且已经达到了非常显著的识别水平。相比之下,当前的RGB-Dscene数据更加有限,因此通常利用RGB大型数据集,通过传递预训练RGB CNN模型以及与目标RGB-D数据集进行微调。然而,我们表明这种方法有几乎达不到底层的限制,这是学习特定模态特征的关键。相反,我们专注于底层,并提出了一种可选择的策略来学习深度特征,这种深度特征结合了来自补丁的局部弱监督训练,然后是全局微调和图像。该策略能够学习具有有限深度图像的深度特异性特征,而不诉诸于Places-CNN。另外,我们提出了一种修改后的CNN体​​系结构,以进一步匹配模型的复杂性和可用数据量。对于RGB-D场景识别,深度和RGB特征通过将它们投影到一个公共空间中进行组合,并进一步借助多层分类器,在端到端网络中进行联合优化。我们的框架仅在深度和RGB-D数据两者中实现了NYU2和SUN RGB-D的最新精度。

上一篇:Android自定义基础-Color


下一篇:何凯明去雾算法