又一篇3D点云detection的顶会。这篇文章是two stage的方法,非end-to-end。文章的前提是利用faster rcnn得到2D图像的image crop;然后才是本文介绍的PointFusion,即将image crop和对应的3D点云数据作为输入,得到3D box。可以说这篇文章实际2D检测基础上做3D检测。
整个模型如图:
- 输入:2D 图像块(fatser RCNN检测结果);对应的3D点云
- 模型:
- 特征提取:
- 2D图像用预训练的ResNet50提取1024d的特征
- 用多个PointNet网络(去除BN层)提取1024d的全局特征($1024\time1$)和每个点的64d特征($64\time n$)
- 特征提取: