背景:在计算机视觉领域,单目深度估计试图模拟人类的视觉,旨在从一张图像作为输入的情况
在计算机视觉领域,单目深度估计试图模拟人类的视觉,旨在只有一张图像作为输入的情况下,预测每个像素点的深度值。
从人类的感知心理学的相关研究中可以发现人的视觉系统更倾向于利用形状结构特征进行判断,而卷积神经网络更依赖纹理特征进行判断。例如,给定一只猫,保留猫的轮廓,再使用大象的纹理去替代猫的皮毛纹理,人类倾向将替换后的图像识别为猫,但是网络会将替换后的图像判定为大象。而在深度估计领域,图像的纹理变化,例如不同的光照,天气,季节造成的影响都会对模型产生较大的影响。(在医学图像、遥感图像中的纹理变化是什么?该怎么描述)
作者首次探索了深度特定结构表征的学习,捕获了深度估计的基本特征,忽略不相关的风格信息。作者所提取出的S2R-DepthNet 可以很好地泛化到没有见过的真是数据,即使它仅仅使用合成数据进行训练。S2R-DepthNet由三个部分组成。(a)一个结构提取模块(Structure Extraction Module),可以通过解耦图像成域不变结构(domain-invariant structure)和特定域风格(domain-specific style)分量。(b)一个特定深度注意力模块(Depth-specific Attention),该模块学习任务相关(task-specific)的知识来抑制深度无关的(depth-irrelevant)结构来更好地估计深度,提高泛化。(c)一个深度预测模块,从特定深度表征中预测深度。S2r-Depth没有使用任何真实数据的情况下,已经超过其他最新的,并使用目标域数据训练的无监督域适应方法。
代码:https://github.com/microsoft/S2R-DepthNet