发表时间:2019(NeurIPS 2019)
文章要点:文章简单理论分析了一下model-based RL的单调收敛,然后做实验验证生成很多的短的rollouts会有比较好的效果(using short model-generated rollouts branched from real data has the benefits)。
具体的,文章提出了一个model-based policy optimization (MBPO),其实这个算法和别的方法没啥大区别,就是trajectory在真实的environment里面很长,但是用model生成数据的时候只生成短的。然后model训练了多个,用ensemble的方式来度量uncertainty。然后具体算法结合的SAC,实验做的continuous control。关于理论部分,给了一个很松的bound,说了当没说,对实际没啥指导,这里不细写了。
总结:感觉很水啊,还是Berkeley的文章,还是NeurIPS,搞不懂了。这个MBPO和其他model based方法也没啥区别啊,这也能写出来的吗。
疑问:文章里说single-step model rollouts (H = 1) provide a surprisingly effective baseline,之前《The Effect of Planning Shape on Dyna-style Planning in High-dimensional State Spaces》里面说生成1-step的transition还不如直接用buffer,这就尴尬了啊。。。个人感觉之前那篇文章更靠谱啊。