雷锋网按:对那些想在自动驾驶行业一展拳脚的研究人员和开发者来说,最大的准入门槛之一就是怎样获取持续不断的数据流。诚然,眼下用于机器视觉系统的开源数据库并不少见,但它们覆盖的范围还是较为局限。为此,开发者不得不亲自驾车上路,耗费大量燃油以采集所需数据。
好消息是,终于有人站出来了,没有“后台”的研究人员和开发者们将迎来一场及时雨!今天,脱胎于德尔福的安波福(Aptiv)正式推出名为 nuScenes 的开源数据集。
如今,大多数自动驾驶感知系统都非常依赖于机器学习或深度神经网络,这是它们处理传感器信号并对车辆周边物体进行分类的“大脑”。
为了让软件能顺利完成这项任务,开发者必须用相关数据训练感知系统,而所谓的相关数据则指的是那些已经为所有道路参与者打了标记或给出注释的数据。
说实话,这个标记数据的过程恐怕比采集原始数据还要花时间。
如此巨大的需求还催生了像 Mighty AI 这样专攻数据标记的公司,其工作的中心就是制造出训练机器学习系统时能用到的数据,而安波福的 nuScenes 数据集强就强在已经打好了标记,开发者无需做任何处理就能直接使用。
据悉,nuScenes 数据集中的数据来自安波福部署在新加坡和波士顿的自动驾驶测试车队,它囊括了两大测试车队两年半的数据采集成果。与大多数现有的开放数据集不同,nuScenes 不但包含了 140 万张图片,还增加了 39 万条激光雷达扫描、雷达、GPS 和加速计数据。
在 nuScenes 数据集中,有超过 140 万个包围盒,安波福的员工已经对其中的道路参与者进行了手动标记。此外,安波福还将这些数据组织进了 1000 个场景中。安波福宣称,这些数据包含了大多数它在测试中遇到过的富有挑战性的城市驾驶场景,而且将左右舵(新加坡靠左行驶)国家“一网打尽”。
除了正确区分道路参与者,自动驾驶系统还必须预测它下一步的动向。由于不同国家驾驶员驾驶习惯差异巨大,因此这是个相当复杂的工作。虽然没在全世界部署自动驾驶测试车,但新加坡和波士顿这两个风格迥异的城市已经能为预测引擎的开发提供强大助力了。
一直以来,自动驾驶公司们都是“死敌”,因为竞争的原因大家不愿分享自己的数据。当然,造成自动驾驶行业数据壁垒高企的还有其他实际原因,比如数据的通用性。
就拿 nuScenes 数据集来说,安波福可不是来做慈善的,它也给自家自动驾驶系统装了“密匙”。简单来说,训练数据需要考虑到传感器的技术条件和它在车上的装载位置,即使一家公司在采集数据时用了和安波福完全相同的配置方式,如果不对视差进行调整,也得不到有用的训练数据。
不过,对于研究人员来说,安波福的数据对分类与预测算法的开发来说依然价值连城。
业内专家认为,安波福如此大方也是希望未来几年内能有人利用 nuScenes 拿出什么创新解决方案,到时它再通过收购或授权就能将其用在自家平台中。
如果你对 nuScenes 数据集有兴趣,可以在 https://www.nuscenes.org/ 下载。
雷锋网注:如想获得峰会限时免费门票,扫描上方图片二维码报名,审核通过后即可获取雷锋网(公众号:雷锋网)新智驾 2019 AI+智能汽车创新峰会门票。