发表时间:2020(ICLR 2020)
文章要点:文章提出一个叫Dreamer的算法,就是去学一个world model,然后强化学习在compact state space上进行。就相当于所有的学习过程都不是和真正的环境交互学习,而是在world model上进行,所以把这个东西叫做Dreamer,相当于梦里学习,梦里啥都有。
Model包含三个部分,Representation model,Transition model和Reward model
这里的s指的不是真实的状态,而是compact state space的状态。去学这几个model,作者提了三种常用的方法,第一种是Reward prediction,就是直接整个model合到一起,目标就是去学reward。
第二种是Reconstruction,目标就是把image重建出来,
这个方法通常用the variational lower bound (ELBO)或者the variational information bottleneck (VIB)算一个bound,然后优化这个bound
这个部分应该和《Learning Latent Dynamics for Planning from Pixels》一样。
第三种是Contrastive estimation,就是用一个state model去从观测预测状态
相当于是对比一下observation和state的区别,比如用noise contrastive estimation (NCE)去学。
然后在这个model的基础上去学强化,文章用的actor critic方法,所以包括policy和value
然后整个算法伪代码如下
总结:感觉这个文章主要就是想说整个学习过程都弄到world model上去,尽量减少和真实environment的交互。文章里面说了很多怎么学model的方式,感觉还挺复杂的。从最后结果上来看,至少在连续控制的问题上,交互数量变成了1e6的量级,而model free的方法用了1e8,1e9,所以sample efficiency是有显著提升的。不过DISCRETE CONTROL上面,比如Atari,还是没有明显优势。
疑问:ontact dynamics到底是啥,这里又出现了。
noise contrastive estimation (NCE)没看过。