一周AI最火论文 | 拟合力学模型，谷歌教机器人用5分钟的数据get多种运动技能

2022-01-03 19:09:32

本周关键词：深度强化学习、NLU、新冠数据

本周最火学术研究

用于智能代理的通用平台

最近，深度强化学习研究和算法设计领域已取得了实质性进展，而复杂模拟环境就是其中一部分。

尽管如此，很多现有环境仍面临诸多挑战，例如视觉效果不真实、物理形态不准确、任务复杂性低、代理视角受限或人工代理之间的交互能力不足等。作者认为，从学习系统的角度来看，许多平台缺乏灵活配置模拟的能力，使得模拟环境成为一个黑匣子。

因此本文提出了通用平台的概念用于环境创建，并以Unity为例使用Unity ML-Agents工具包分析了Unity引擎的功能。

研究人员展望AI未来的发展，对模拟器的复杂性和计算特性进行讨论，并使用这些标准为现有模拟器和平台提出新的分类方法。Unity ML-Agents工具包还旨为非机器学习专家的游戏开发人员提供服务。Unity引擎和Unity ML-Agents Toolkit的性能和宽度也仍具有提升潜力。

原文：
https://arxiv.org/abs/1809.02627v2

用于电子商务产品搜索的稳健模型

在电子商务中，显示产品与搜索查询意图的不匹配会降低客户体验。这些错误匹配是由于排序算法对一些嘈杂行为信号（搜索日志中的点击和购买等行为）的反事实偏差造成的。解决这一问题需要一个大型有标签数据集，而这是昂贵且费时的。

在本文中，研究人员开发了一种深度端到端模型，以期有效划分出不匹配项并生成相应示例来改进分类器。他们在交叉熵损失（分别用于实际样本和生成样本）中引入潜变量来进行端到端地模型训练。

这一改进使得分类器更加稳健，整体排序效果也得到提高。与基线相比，该模型的F值实现了超过26％的相对增益，PR曲线下面积实现了超过17％的相对增益。该模型为多个国家或地区的实时搜索流量带来显著提高。

原文：
https://arxiv.org/abs/2005.03624v1

自然语言理解的新基准

具有挑战性的大规模数据集的发展在很大程度上推动了AI的发展。

本文的一组研究人员介绍了一个新的大规模NLI基准数据集，该数据集通过迭代的、对抗性的“人与模型在环”程序收集。研究表明，在这个新数据集上训练模型可以使各种流行的NLI基准具有最先进的性能，同时也为新的测试集带来了更艰巨的挑战。他们的分析揭示了当前最优模型的缺点，并且非专家注释者可以从中成功地发现这些缺点。这个数据收集方法可以应用于永无止境的学习场景中，使之变成NLU的移动目标而不是会很快饱和的静态基准。

研究人员精心地构建这一基准以解决此前的数据集带来的问题，根据第一原则设计它以期带来更长远的价值，但同时也为未来的研究创造了新的机遇、提出了新的挑战。

原文：
https://arxiv.org/abs/1910.14599v2

NLU驱动的工具来探索COVID-19科学文献

Google AI研究已经启动了COVID-19 Research Explorer，这是一个建立在COVID-19开放数据集（CORD-19）之上的语义搜索界面，其中包括50,000多种期刊文章和预印本。他们设计该工具的目的是帮助科学家和研究人员有效地浏览文章以寻找与COVID-19相关问题的答案或证据。

当用户提出问题时，浏览器不仅会返回一组论文，还会突出显示论文中的片段，这些片段是对该问题的可能答案。用户可以通过查看这些片段快速决定该论文是否值得进一步阅读。

COVID-19 Research Explorer作为开放的alpha版本可供研究社区免费使用。在未来的几个月中，研究人员将对可用性进行一些改进。您可以通过使用下面的链接

尝试使用COVID-19 Research Explorer：
https://covid19-research-explorer.appspot.com/

通过深度强化学习实现敏捷和智能运动

Google AI居住计划的研究人员近期提出了两个项目，它们都旨在解决强化学习中缺乏样本效率的挑战。在第一篇论文（请参阅下面的链接）中，他们提出了一种学习低级运动控制策略的有效方法。通过将动力学模型拟合到机器人并实时计划动作，该机器人可以使用不到5分钟的数据来学习多种运动技能。

除了简单的行为，他们还探讨了论文2（见下方链接）中的自动路径导航。借助专门为端到端培训而设计的策略体系结构，机器人学会了将高级计划策略与低级运动控制器相结合，以便在弯曲的路径上自主导航。

通过自动化控制器设计过程，强化学习为机器人技术带来了光明的未来。借助基于模型的强化学习，研究人员可以直接在真实的机器人上高效学习通用运动行为。借助分层强化学习，机器人学会了在不同级别上协调策略以实现更复杂的任务。他们计划将感知带入循环，以便将来机器人可以在现实世界中真正自主地运行。

论文链接：
https://arxiv.org/abs/1907.03613
https://arxiv.org/pdf/1905.08926.pdf

其他爆款论文

观看世界：通过具有代码和视频数据集的未标记视频的“表示”学习：
https://github.com/danielgordon10/vince

通过微调的YOLO v3和Deepsort技术，依靠人员检测和跟踪来监视COVID-19社交距离：
https://arxiv.org/abs/2005.01385v2

研究人员在融合图像和激光雷达信息以进行3D对象检测时发现了一种很新颖的体系结构：
https://arxiv.org/abs/1911.10150v2

用于追踪人的稀疏监督的内存模型Petra：
https://arxiv.org/abs/2005.02990v1

冠状病毒科学知识搜索简单而有效的基准：
https://arxiv.org/abs/2005.02365v2

通过增强数据进行强化学习：
https://arxiv.org/abs/2004.14990v2

AI大事件

Google发布了AI Explorables，使机器学习更易于访问和参与：
https://www.neowin.net/news/google-releases-ai-explorables-to-make-machine-learning-more-accessible-and-participatory

根据IBM调查，人工智能的多样性有所改善，但还有待进一步发展：
https://www.zdnet.com/article/diversity-in-ai-improves-but-has-further-to-go-according-to-ibm-survey/

Google正在为记者提供AI，机器学习的免费课程：
https://www.msn.com/en-in/money/news/google-is-offering-journalists-free-courses-in-ai-machine-learning/ar-BB13JxiX?li=AAgfW3S

码农公寓

相关文章