李飞飞团队新突破：低成本高泛化机器人训练法，零样本迁移成功率90%！

2024-10-30 14:25:05

在机器人训练中，如何高效地利用模拟环境一直是研究者们关注的重点问题。
近日，美国斯坦福大学李飞飞教授团队提出了一种突破性的“数字表亲”（digital cousins）概念。这一创新方法既保留了数字孪生的优势，又大大降低了从真实到模拟环境的生成成本，同时提高了学习的泛化能力。
“数字表亲”不仅能有效地将真实世界的数据扩展到模拟环境中进行学习，还有望为机器人训练带来显著进展，为解决长期存在的模拟到现实迁移问题提供了新的思路。
项目主页：https://digital-cousins.github.io/论文地址：https://arxiv.org/abs/2410.07408
▍什么是“数字表亲”？与“数字孪生”有何不同?
什么是“数字表亲”？它与我们熟知的“数字孪生”有何不同？
“数字孪生”作为真实场景的精确虚拟复制品，虽然能够准确地对场景进行建模，但其生成成本极为昂贵，且无法提供良好的跨域泛化能力。而“数字表亲”则是一种介于数字孪生与完全随机化之间的创新概念。它不直接模拟现实世界的特定对应物，但仍然能够捕捉相似的几何形状和语义功能。

通过这种方式，“数字表亲”大大降低了生成类似虚拟环境的成本。同时，由于提供了一系列相似但不完全相同的训练场景，它还能提高从模拟到真实环境的迁移鲁棒性。
“数字表亲”方法的一大亮点在于，它能够同时实现以下三个目标：
1、将单幅图像转换为完全交互式的虚拟场景2、全自动处理过程，无需人工注释3、训练出的机器人策略可以直接在原始场景中进行零样本部署

这意味着，理论上只需拍摄一张照片，就能完成从现实到虚拟再到现实的全流程训练。研究团队发现，ACDC方法生成的数字表亲场景成功保留了原始环境的几何结构和语义特征。具体而言，这些策略在零样本迁移到真实世界时，达到了90%的成功率，远远超过了在传统数字孪生环境中训练的策略（仅为25%）。
▍ACDC：自动创建数字表亲的核心算法
为了实现“数字表亲”的自动生成，李飞飞教授团队提出了一种名为ACDC（Automated Creation of Digital Cousins）的算法。这个算法包含三个关键步骤：

1、信息提取：
从输入的单张RGB图像中提取每个物体的关键信息，包括位置、大小、朝向等。
2、数字表亲匹配：
利用第一步提取的信息，结合预先准备的3D模型资产库，为检测到的每个物体匹配最合适的数字表亲模型。
3、场景生成：
对选定的数字表亲模型进行后处理和组合，生成一个物理上合理且完全可交互的虚拟场景。
ACDC通过这三个阶段，能自动生成在语义层面与输入图片相近但又不尽相同的虚拟环境。这为机器人策略学习提供了丰富多样的训练场景。

值得注意的是，与数字孪生不同，数字表亲并不追求在所有微小细节上都完美重建给定场景，而是专注于保留更高层次的细节，如物体间的空间关系和语义信息。这种做法不仅降低了计算成本，还有助于提高学习策略的泛化能力。
在构建了一组数字表亲场景后，研究团队采用了基于脚本演示的模仿学习方法来训练机器人策略。他们实现了包括打开、关闭、拿取和放置等基础技能，这些技能足以用于收集各种日常任务的演示数据，如物体重新排列和操作家具等。
▍实验验证：“数字表亲”的优越性能
为了全面评估"数字表亲"方法的有效性，研究团队设计了一系列实验，旨在回答以下问题：
研究团队通过一系列实验，全面评估了ACDC方法的性能和潜力。他们探讨了ACDC从单张RGB图像生成高质量数字表亲的能力，特别关注其捕捉原始场景语义和空间细节的准确性。
同时，团队比较了数字表亲和数字孪生在策略训练方面的效果，既在原始环境中进行评估，也测试了在分布外设置中的表现，以验证数字表亲训练策略的稳健性和适应能力。
此外，研究还着重考察了这些策略实现零样本从模拟到现实迁移的可能性。场景重建质量评估
首先，研究者们对ACDC生成的场景进行了定量和定性评估。结果显示，ACDC在多个指标上都取得了令人满意的表现：

ACDC在真实到虚拟场景转换中的表现通过这些指标得到了量化。值得注意的是，系统能为同一场景生成多个不同的数字表亲版本。

基于这些全面的评估结果，研究团队有充分理由得出积极结论：ACDC确实展现了出色的能力，能够从单一RGB图像出发，创建保留原始场景语义和空间特征的数字表亲。这些虚拟复制品不仅在物体识别上表现出色，还能准确还原其在场景中的位置和尺寸。
这些数据表明，ACDC能够准确捕捉输入场景中的语义和空间信息，并生成高质量的数字表亲模型。
sim2sim策略学习
为了验证数字表亲在策略学习中的效果，研究团队在三个典型任务上进行了对比实验：开门、打开抽屉和收起碗。实验结果表明：

1、在数字表亲上训练的策略通常可以匹配，甚至优于数字孪生的表现。 2、随着测试环境与训练环境差异的增大，数字表亲训练的策略展现出更强的鲁棒性。
3、简单的领域随机化（All Assets）策略效果较差，说明"数字表亲"方法的优势。

这些结果证实了数字表亲在保持分布内性能的同时，还能提供更好的分布外泛化能力。
sim2real策略迁移
研究团队进行了深入的实验评估，比较了基于数字孪生和数字表亲的策略在真实世界中的零样本表现。实验任务设定为开启宜家柜门，以成功率作为关键评估指标。

为确保结果的可靠性，模拟环境中进行了超过50次的测试，而在真实环境中则完成了20多次的验证。

real2sim2real全流程验证
在机器人学习领域，无论采用数字孪生还是数字表亲技术，最终的检验标准始终是真实世界的应用表现。基于这一理念，研究团队在实验的收官阶段选择了一个未经预设的真实厨房环境，对ACDC的完整流程和自动化策略学习框架进行了全面的端到端测试。
经过在数字表亲环境中的针对性训练后，机器人成功完成了开启厨房橱柜的任务，有力证明了ACDC方法在真实场景中的适用性和有效性。为了直观展示这一突破，研究团队提供了一个演示视频，展示了数字表亲的全自动生成过程。

实验证明，零样本从模拟到现实（sim2real）的策略迁移实验取得了显著成果。仅仅依靠从四个生成的数字表亲中学习的策略，就能直接应用于相应的真实厨房场景，实现了无缝迁移。

基于数字表亲训练的策略展现出了多方面的优势：首先，在原始分布上，其性能与基于数字孪生训练的策略相当；其次，在面对分布外场景时，表现出了更强的适应能力和鲁棒性；最后，也是最关键的，这些策略成功实现了从模拟到现实的零样本迁移，无需额外调整就能在真实环境中有效运作。
这些成果不仅验证了ACDC方法的实用价值，还为机器人学习在复杂、多变的真实环境中的应用开辟了新的可能性。
▍结论与展望
通过一系列全面的实验，李飞飞教授团队的研究得出了以下重要结论：
1、ACDC能够快速、自动地生成与单张真实世界RGB图像对应的交互式数字表亲场景。
2、在数字表亲上训练的策略展现出更强的鲁棒性，特别是在分布外场景中。
3、数字表亲训练的策略在领域内性能上与数字孪生相当，但在领域外泛化能力上表现更优。
4、数字表亲方法实现了高效的零样本sim2real策略迁移。

然而，研究团队也指出了当前方法存在的一些局限性，如在处理高频深度信息、遮挡物体和特殊语义类别时可能遇到困难。这些问题为未来的研究指明了方向。

总体来说，李飞飞教授团队提出的“数字表亲”技术为机器人学习领域带来了新的思路。这项技术不仅对学术研究具有重要意义，也为机器人技术的实际应用开辟了新的可能性。业界将继续关注这一技术的发展，期待它带来更多创新和突破。

码农公寓

相关文章