文献阅读笔记——《ON REWARD SHAPING FOR MOBILE ROBOT NAVIGATION: A REINFORCEMENT LEARNING AND SLAM BASED APP》

ON REWARD SHAPING FOR MOBILE ROBOT NAVIGATION: AREINFORCEMENT LEARNING AND SLAM BASED APPROACH

基于强化学习和SLAM的移动机器人导航奖励形成方法

摘要:

提出了一种基于深度强化学习(DRL)的移动机器人无地图路径规划算法,该算法仅依赖于40维原始激光数据和里程计信息。使用基于训练环境的地图的在线知识形成的奖励函数来训练规划器,该奖励函数是使用基于网格的Rao-Blackwellized粒子滤波器获得的,以试图增强Agent的障碍感知。Agent在复杂的模拟环境中训练,并在两个看不见的环境中评估。我们表明,使用引入的奖励函数训练的策略不仅在收敛速度方面优于标准奖励函数,减少了36.9%的迭代步骤和碰撞样本,而且还显著改善了Agent在未知环境中的Action,在更简单的工作空间中分别提高了23%和在更密集的工作空间中提高了45%。此外,在仿真环境中训练的策略可以直接成功地传递给真实的机器人。我们实验的视频可以在https://youtu.be/UEV7W6e6ZqI找到。

引言:

本研究的目的是设计一种使用深度强化学习的运动规划器,该运动规划器使用来自机器人车载传感器的原始感测数据来确定机器人为了在未知障碍物配置的环境中到达目标位置而必须执行的连续速度命令序列(线性和角度)。为此,选择了一种基于深度确定性策略梯度(DDPG)的无模型Actor-critic算法来解决移动机器人的导航问题。
本文主要的创新点:
基于机器人在训练过程中获得的关于环境的在线知识来形成奖励函数。在线知识通过Rao-Blackwellized粒子滤波器获得。(在未知环境中评估RL路径规划器的过程中没有使用地图,第一次将强化学习与栅格地图相结合,在训练过程中为移动机器人导航塑造奖励功能)
第二节介绍了Rao-Blackwellized粒子滤波器的理论原理,第三节介绍了运动规划器的设计,第四节进行实验,第五节第六节讨论了结果和结论。

上一篇:vue实现第三方登录——qq


下一篇:验证短信登录或注册