ECCV2020:SNE-RoadSeg:将表面法线信息整合到语义分割中,以实现精确的空间检测
摘要
无碰撞空间检测是自动驾驶汽车视觉感知的重要组成部分。近年来在数据融合卷积神经网络(CNNs)方面所做的努力,显著改善了语义驱动场景分割。无碰撞空间可以假设为一个地平面,其上的点具有相似的表面法线。因此,本文首先介绍了一种新的模块——表面法线估计器(SNE),它可以从密集深度/视差图像中高精度、高效率地推断出表面法线信息。
此外,我们提出了一种数据融合CNN架构,称为RoadSeg,它可以从RGB图像和推断的表面法线信息中提取和融合特征,以实现精确的*空间检测。为了研究目的,我们发布了一个大型合成的freespace检测数据集,命名为Ready-to-Drive (R2D)道路数据集,在不同的光照和天气条件下收集。实验结果表明,我们所提出的SNE模块可以使所有最新的CNNs都受益于空间检测,而我们的SNE- roadseg在不同的数据集中获得了最佳的整体性能。
简介
自动驾驶汽车是科幻电影和系列电影中的一个常见场景,但由于人工智能的兴起,在您的车库前院挑选一辆这样的汽车的幻想已经变成了现实。驾驶场景下对周围环境的理解是自动汽车的一项重要任务,随着人工智能的最新进展,它有了很大的飞跃。无碰撞空间(Collision-free space,简称freespace)检测是驾驶场景理解的一个基本组成部分。*空间检测方法一般将RGB或深度/差值图像中的每个像素分类为可驾驶或不可驾驶。这种像素级的分类结果会被自主系统中的其他模块所利用,如轨迹预测和路径规划,以确保自动驾驶汽车能够在复杂的环境中安全航行。
现有的无碰撞空间检测方法可以分类为传统方法或基于机器/深度学习的方法。传统方法通常使用显式几何模型来构造*空间,并使用优化方法找到其最佳系数。《B-spline modeling of road surfaces with an application to free-space estimation.》是一种典型的传统*空间检测算法,其中通过将B样条模型拟合到2D视差直方图(通常称为v-视差图像)上的道路视差投影来执行道路分割。随着机器/深度学习最新进展的提出,无碰撞空间检测通常被视为语义驱动场景分割问题,其中使用卷积神经网络(CNN)来学习最佳解决方案。例如,《Monocular semantic occu-pancy grid mapping with convolutional variational encoder–decoder networks.》采用编码器-解码器体系结构在鸟瞰图中分割RGB图像,以进行端到端无碰撞空间检测。最近,许多研究人员已采用数据融合CNN架构来进一步提高语义图像分割的准确性。例如,《Fusenet: Incorporating depth intosemantic segmentation via fusion-based cnn architecture.》通过数据融合CNN架构将深度信息整合到常规语义分割中,极大地提高了驾驶场景分割的性能。
在本文中,首先介绍一种名为表面法线估计器(SNE)的新型模块,该模块可以从密集的视差/深度图像中以高精度和高效率推断出表面法线信息。此外,设计了一种名为RoadSeg的数据融合CNN架构,该架构能够将RGB和表面法线信息合并到语义分割中,以进行准确的无碰撞空间检测。由于现有的具有各种光照和天气条件的无碰撞空间检测数据集既没有视差/深度信息也没有*空间ground truth,因此本文创建了一个大规模的合成无碰撞空间检测数据集,称为“ Ready-to-Drive(R2D)”道路数据集(包含11430对RGB和深度图像),涵盖了在不同的光照和天气条件下的道路数据,同时R2D道路数据集也可以公开用于研究目的。为了验证引入的SNE模块的可行性和有效性,实验部分使用了三个道路数据集(KITTI 、SYNTHIA [和我们的R2D)训练了十个最新的CNN(六个单模态CNN网络和四个数据融合CNN网络),并且对嵌入或不嵌入SNE模块进行对比。实验表明,本文提出的SNE模块可以使所有这些CNN在无碰撞空间检测任务上有性能提升。同样,SNE-RoadSeg方法在无碰撞空间检测方面也优于其他CNN,其整体性能在KITTI道路基准benchmark上排名第二。
RoadSeg
U-Net已经证明了使用跳过连接恢复全空间分辨率的有效性。然而,它的skip连接只在编码器和解码器的相同比例的特征映射上强制聚合,我们认为这是一个不必要的约束。受DenseNet的启发,我们提出了RoadSeg,它利用密集连接的跳跃连接,在解码器中实现灵活的特征融合。如图1所示,我们提出的RoadSeg也采用了目前流行的编码器结构。采用RGB编码器和表面法线编码器分别从RGB图像和表面法线信息中提取特征映射。提取的RGB和表面法线特征映射通过元素求和分层融合。融合后的特征映射通过密集连接的跳跃连接在解码器中再次融合,以恢复特征映射的分辨率。在RoadSeg的最后,使用sigmoid层生成概率图,进行语义驾驶场景分割。
我们使用ResNet作为我们的RGB和曲面法线编码器的骨干,它们的结构是彼此相同的。具体来说,初始块由卷积层、批处理归一化层和ReLU激活层组成。然后,采用最大池化层和4个残差层逐步降低分辨率,同时增加feature map通道数量。ResNet有五种架构:ResNet-18、ResNet-34、ResNet-50、ResNet-101和ResNet-152。我们的RoadSeg遵循相同的ResNet命名规则。
译码器由两个不同类型的模块:a)特征提取器和b) upsampling层,连接密集实现灵活的特性融合。利用特征提取器对融合的特征图进行特征提取,保证了特征图分辨率不变。采用上采样层提高分辨率,减少特征映射通道。feature extractor中的三个卷积层和upsampling层具有相同的kernel size为3×3,相同的stride为1,相同的padding为1。
SNE
SNE是基于最近的工作《Three-filters-to-normal: An accurate and ultrafast surface normal estimato》(3F2N)开发出来的。其架构如图2所示。对于透视相机模型,可以使用以下公式将欧几里得坐标系中的3D点与2D图像像素点连接起来:
这部分是这篇论文的核心部分,提出了一种利用深度图估计表面法线信息的方法。整体思路是对于有一幅深度图,可以联系CCS坐标获得每个pixel的三维信息,在此基础上利用Sobel算子或者其他梯度算子计算水平和垂直梯度以此获得法线信息的x,y方向分量。既然是是深度图,那就可以用一个邻域来估计z方向的法向量分量,这里采用K-D tree选出8个近邻点来求邻域中像素的深度差得到法向量。
实验结果
结论
本文的主要贡献包括:1)SNE模块,能够高精度、高效率地从深度/视差图像中推断表面法线信息;b)一种名为RoadSeg的数据融合CNN架构,能够融合RGB和表面法线信息,实现精确的无碰撞空间检测;c)用于语义驱动场景分割的公共合成数据集。为了证明所提出的SNE模块的可行性和有效性,我们将其嵌入到10个最先进的cnn中,并评估了它们的无碰撞空间检测性能。实验结果表明,我们所引入的SNE可以使所有的cnn都受益于*空间的检测。此外,我们提出的数据融合CNN架构RoadSeg与我们提出的SNE最兼容,在检测可行驶道路区域时,它的性能优于所有其他CNN。
原文及代码地址
论文地址:https://arxiv.org/abs/2008.11351
代码地址:https://github.com/hlwang1124/SNE-RoadSeg