2019/09/16
论文地址:https://arxiv.org/abs/1711.06375
摘要
为了用语义合理性和上下文细节修补三维模型,本文推出了由3D编解码生成对抗网络(3D-ED-GAN)和长期循环卷积(LRCN)组成的混合架构。
其中:
3D-ED-GAN用来在低分辨率下填补缺失的3D数据;
LRCN则是用循环网络来最小化GPU显存的使用,并把编解码器整合到LSTM网络中。把3D模型当成2D切片序列,LRCN可以把粗糙的3D形状变成更完整和高分辨率的体块,因为捕获了3D形状的上下文,LRCN在局部拥有细粒度的细节。
一、简介
3D传感器(如LiDAR、Kinect)获得的很多数据,受遮挡、传感器噪声和光照的影响,导致三维模型不完整且有噪声,比如扫描建筑是被树木挡住,获得的模型就不完整。
通常,处理3D体素模型时,使用3D卷积。目前存在的问题,3D卷积计算量太大,占用显存太大,这限制了3D卷积的分辨率。
本文方法,没有上述限制,因此可以做到:
(1)修补丢失或被破坏的部分,重构一个完成的3D结构
(2)预测一个具有细粒度细节的高分辨率3D形状
二、网络结构
整体网络结构如图1所示:
Slice左侧部分是3D-ED-GAN,作用是修补低分辨率3D模型;右侧部分就是LRCN部分,使用RNN避开显存限制,来实现高分辨率的预测。
1、3D-ED-GAN网络
网络结构如图2,编解码生成网络。
这部分有两个loss,一个是修补结果和完整结果之间的loss:
一个是判别器的loss:
、表示x、中的第i个体素,其余符号意义如图2。
2、LRCN网络
结构如图3所示,步骤如下:
- PCA为了获得最多的上下文信息,要保证非空白切片尽可能的多,使用了PCA来对齐3D模型。
- 将切片放入3D CNN中编码
- 编码结果放如LSTM,形成上下文
- 同时LSTM的输出放入2D Full-CNN解码,上采样成高分辨率结果。
这个网络只有一个loss,作者尝试了L1和L2,发现L1效果更好。
三、实验结果
对真实物体扫描结果进行实验,结果如图4
还有引入少量噪声的实验结果、分类的结果,这里就不贴了。