相机+激光雷达重绘3D场景

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/vn9PLgZvnPs1522s82g/article/details/82599040

相机+激光雷达重绘3D场景


将激光雷达与相机结合,再通过深度学习的方式获得场景的3D模型——Ouster首席执行官在博客中介绍了相机OS-1,并装有激光雷达。LiveVideoStack对原文进行了摘译。


文 / Angus Pacala. Ouster 

译 / 王月美

技术审校 / 田栋

原文 https://medium.com/ouster/the-camera-is-in-the-lidar-6fcf77e7dfa6


很明显,当Ouster三年前开始开发OS-1时,相机的深度学习研究就超过了激光雷达研究。激光雷达数据具有突出的独特优势,——简举二例,如空间信息丰富、环境光照不敏感,——然而它缺乏类似于传统相机图像的原始(高)分辨率和高效的阵列存储结构,因而3D点云在神经网络学习或处理中迄今缺乏高效快速的硬件算法及实现。


考虑到两种传感模式之间的权衡,我们从一开始就将激光雷达和相机的优势集中在一个设备中。今天,我们发布了固件升级并更新到了我们的开源驱动程序中来实现这一目标。我们的OS-1激光雷达现在可以实时的输出固定分辨率的深度图像、信号图像和环境图像,而所有这些都不需要摄像头的参与。数据层在空间上完全相关,具有零时间失配或快门效应,并且每个像素具有16位和线性光响应。


让我们一探究竟:


相机+激光雷达重绘3D场景


同时从OS-1输出的实时图像层。你从上到下看到的是环境、强度、范围和点云——这些所有来自我们的激光雷达。请注意,环境图像捕获了多云的天空和树木及车辆的阴影。


相比大多数数码单反相机,OS-1的光学系统具有更大的光圈,并且我们开发的光子计数ASIC具有极低的光敏度,因此即使在低光照条件下也能够收集环境图像。OS-1捕获近红外信号和环境数据,因此数据非常类似于相同场景的可见光图像,这使得数据具有自然的外观,且为摄像机开发的算法很好地转换为数据提供了更高的可能性。未来,我们将努力从这些环境图像中去除固定模式噪声,但与此同时我们希望可以让客户获得数据!


另外,还更新了我们的开源驱动程序,将这些数据层输出为固定分辨率的360°全景帧,以便客户能够立即开始使用新的功能。而且,我们将提供基于VTK构建的新的跨平台可视化工具,用于查看、记录 、并在Linux,Mac和Windows上并排播放图像和点云。传感器输出的数据不需要后期处理即可实现此功能——该神奇之处是在于硬件,而驱动程序只是将流数据包组装成图像帧。


相机+激光雷达重绘3D场景


我们的新开源可视化工具。完整未经编辑的视频:https://www.youtube.com/watch?v=LcnbOCBMiQM


获得早期访问更新权的客户已经被打动了,我们鼓励任何对OS-1感兴趣的人在线观看我们未经编辑的视频,或者下载我们的原始数据并使用可视化工具自行播放。


固件更新页面:https://www.ouster.io/downloads


Github和样本数据:www.github.com/ouster-LIDAR


这不是噱头


我们已经看到多家激光雷达公司推出激光雷达/相机融合解决方案。通过将一个单独的相机与一个激光雷达联合安装,执行伪劣的外部校准,并为最终无用的产品推出了新闻稿。但是,我们没有这样做。为了证明这一点,我们想要分享一些证明OS-1传感器数据有多么强大的例子,这将让我们回到深度学习。


由于传感器在每个像素处输出具有深度,信号和环境数据的固定分辨率图像帧,因此我们能够将这些图像直接馈送到最初为相机开发的深度学习算法中去。我们在矢量中编码深度,强度和环境信息,这很像彩色图像的网络将编码输入层的红色,绿色和蓝色通道。当然,我们训练过的网络已经非常适用于新的激光雷达数据类型。


作为一个示例,我们训练了每像素语义分类器,以识别来自旧金山周围的一系列深度和强度帧中的可驾驶道路,车辆,行人和骑自行车的人。我们能够在NVIDIA GTX 1060上实时运行生成的网络,并取得了可喜的成果,特别是考虑到其实这是我们尝试的第一个实现。请查阅:


相机+激光雷达重绘3D场景


完整视频: https://www.youtube.com/watch?v=JxR9MasA9Yc


因为每个像素都提供了所有的数据,所以我们能够无缝地将2D掩码转换为3D帧,以进行额外的实时处理,如边界框估计和跟踪。


相机+激光雷达重绘3D场景


在其他情况下,我们选择将深度,信号和环境图像分开,并将它们独立地传递到同一网络中去。例如,我们从DeTone等人的SuperPoint项目中获取了预先训练好的网络,并直接在我们的强度和深度图像上运行它。网络在大量通用RGB图像上进行训练,且从未见过深度/激光雷达数据,但强度和深度图像的结果却令人惊叹:


相机+激光雷达重绘3D场景


完整视频: https://www.youtube.com/watch?v=igsJxrbaejw


仔细检查后,很明显地发现,网络正在拾取每个图像中的不同关键点。任何从事激光雷达和视觉测距的人都会掌握这个结果中所体现的冗余的价值。激光雷达测距仪只在隧道和高速公路等几何均匀的环境中使用,而视觉测距仪则在无纹理和光线不足的环境中使用。而OS-1的相机/激光雷达融合将为这个长期存在的问题提供多模式解决方案。


以上这些结果令我们相信,融合的激光雷达和相机数据远远超过其各部分的单纯总和,我们期望未来激光雷达和相机之间能够有进一步融合。



相机+激光雷达重绘3D场景

上一篇:使用WebRTC和WebVR进行VR视频通话


下一篇:常青:小程序音视频能力再升级