ALGORITHMIC FRAMEWORK FOR MODEL-BASED DEEP REINFORCEMENT LEARNING WITH THEORETICAL GUARANTEES

ALGORITHMIC FRAMEWORK FOR MODEL-BASED DEEP REINFORCEMENT LEARNING WITH THEORETICAL GUARANTEES
发表时间:2019(ICLR 2019)
文章要点:这篇文章主要从理论上分析了model based RL的lower bound,然后不断最大化这个lower bound,从而证明了理论上可以单调上升。
ALGORITHMIC FRAMEWORK FOR MODEL-BASED DEEP REINFORCEMENT LEARNING WITH THEORETICAL GUARANTEES
这个框架还提出了一个optimism-in-face-of-uncertainty principle,最要用来鼓励探索,虽然最后没用貌似。作者还说最后用的l2的loss,而不是MSE的l2平方loss,前者效果更好。
最后文章提出了一个叫Stochastic Lower Bounds Optimization (SLBO)的算法来做实验。
ALGORITHMIC FRAMEWORK FOR MODEL-BASED DEEP REINFORCEMENT LEARNING WITH THEORETICAL GUARANTEES
ALGORITHMIC FRAMEWORK FOR MODEL-BASED DEEP REINFORCEMENT LEARNING WITH THEORETICAL GUARANTEES
这里6.1和6.2是
ALGORITHMIC FRAMEWORK FOR MODEL-BASED DEEP REINFORCEMENT LEARNING WITH THEORETICAL GUARANTEES
从算法上来看,这个SLBO和MB-TRPO的唯一区别就是SLBO多了个循环,model和policy都要多更新几次,也就仅此而已了。虽然前面理论倒是吹了很多。。。然后实验在mujoco上做的,做的连续动作,确定性转移。效果也就那样吧。
ALGORITHMIC FRAMEWORK FOR MODEL-BASED DEEP REINFORCEMENT LEARNING WITH THEORETICAL GUARANTEES
总结:有启发的一点是可以在model based上面做探索,比如model不准的地方是不是可以在真实的环境里做下探索。虽然文章里面没有这方面的实验。
疑问:为啥l2 loss,比l2平方loss效果更好?
文章在证明的时候要求
ALGORITHMIC FRAMEWORK FOR MODEL-BASED DEEP REINFORCEMENT LEARNING WITH THEORETICAL GUARANTEES
这里面要求一个maximization,这又是一个RL问题,要求这个东西solvable也太难了。

上一篇:自动生成接口文档


下一篇:简单快速的“0x800c0006 安装失败 .NET framework 等旧版本软件安装失败”的解决方法