DREAM TO CONTROL: LEARNING BEHAVIORS BY LATENT IMAGINATION

DREAM TO CONTROL: LEARNING BEHAVIORS BY LATENT IMAGINATION
发表时间:2020(ICLR 2020)
文章要点:文章提出一个叫Dreamer的算法,就是去学一个world model,然后强化学习在compact state space上进行。就相当于所有的学习过程都不是和真正的环境交互学习,而是在world model上进行,所以把这个东西叫做Dreamer,相当于梦里学习,梦里啥都有。
Model包含三个部分,Representation model,Transition model和Reward model
DREAM TO CONTROL: LEARNING BEHAVIORS BY LATENT IMAGINATION
这里的s指的不是真实的状态,而是compact state space的状态。去学这几个model,作者提了三种常用的方法,第一种是Reward prediction,就是直接整个model合到一起,目标就是去学reward。
第二种是Reconstruction,目标就是把image重建出来,
DREAM TO CONTROL: LEARNING BEHAVIORS BY LATENT IMAGINATION
这个方法通常用the variational lower bound (ELBO)或者the variational information bottleneck (VIB)算一个bound,然后优化这个bound
DREAM TO CONTROL: LEARNING BEHAVIORS BY LATENT IMAGINATION
这个部分应该和《Learning Latent Dynamics for Planning from Pixels》一样。
第三种是Contrastive estimation,就是用一个state model去从观测预测状态
DREAM TO CONTROL: LEARNING BEHAVIORS BY LATENT IMAGINATION
相当于是对比一下observation和state的区别,比如用noise contrastive estimation (NCE)去学。
然后在这个model的基础上去学强化,文章用的actor critic方法,所以包括policy和value
DREAM TO CONTROL: LEARNING BEHAVIORS BY LATENT IMAGINATION
然后整个算法伪代码如下
DREAM TO CONTROL: LEARNING BEHAVIORS BY LATENT IMAGINATION
总结:感觉这个文章主要就是想说整个学习过程都弄到world model上去,尽量减少和真实environment的交互。文章里面说了很多怎么学model的方式,感觉还挺复杂的。从最后结果上来看,至少在连续控制的问题上,交互数量变成了1e6的量级,而model free的方法用了1e8,1e9,所以sample efficiency是有显著提升的。不过DISCRETE CONTROL上面,比如Atari,还是没有明显优势。
疑问:ontact dynamics到底是啥,这里又出现了。
noise contrastive estimation (NCE)没看过。

上一篇:从Mac触控板解放你的双手


下一篇:处理跨域请求