百度PARL初探

强化学习是近些年最火,最接近“真实情况”的深度学习方式。对比其他学习注重的是决策问题,通过智能体与周边环境的交互学会了如何能获得更多的奖励。

百度的paddle团队开源了强化学习PARL项目,该项目有几大特性:

  • 在实际任务中尝试使用强化学习解决问题
  • 快速调研下不同强化学习算法在同一个问题上的效果
  • 搭建分布式强化学习训练平台
  • 加速python多线程代码

这些特性是在实际开发中真实需要的,PARL库内置了很多强化学习算法,可以对轻量级问题进行很好的测试,找寻basseline。

PARL的多线程也是令人兴奋的特性,这可以使python原有的多线程起到真正的作用。

附录:课表

一、强化学习(RL)初印象

  • RL 概述、入门路线
  • 实践:环境搭建
  • 课后作业:搭建GYM环境+PARL环境,把QuickStart 跑起来

二、基于表格型方法求解RL

  • MDP、状态价值、Q表格
  • 实践: Sarsa、Q-learning代码解析,解决悬崖问题及其对比
  • 课后作业:使用Q-learning和Sarsa解决16宫格迷宫问题。

三、基于神经网络方法求解RL

  • 函数逼近方法
  • 实践:DQN代码解析,解决CartPole问题
  • 课后作业:使用DQN解决 MountianCar问题

四、基于策略梯度求解RL

  • 策略近似、策略梯度
  • 实践:Policy Gradient算法理解、代码解析,解决CartPole问题
  • 课后作业:使用Policy Gradient解决Atari的Pong问题

五、连续动作空间上求解RL

  • 连续动作空间、DDPG算法介绍
  • PARL DDPG代码解析
  • 大作业题目:RLSchool 飞行器仿真环境介绍
上一篇:Statistics and Samples in Distributional Reinforcement Learning


下一篇:[CF95D]Horse Races