Online and Offline Reinforcement Learning by Planning with a Learned Model

2023-12-03 22:39:40

发表时间：2021
文章要点：文章接着muzero做的，当时muzero里面提出了一个MuZero Reanalyze（Reanalyse）的方式，这篇文章提出的MuZero Unplugged算法其实就是把MuZero Reanalyse用到offline RL里面。作者想说的就是这个方法不仅可以用在online RL上，在offline RL上同样表现很好，相当于一个算法对着这两种设定都适用（Reanalyse fraction of 0% refers to training by only interacting with the environment, no Reanalyse of stored data, whereas a fraction of 100% refers to the fully offline case with no environment interaction at all）。MuZero Unplugged的主要想说的是，由于muzero是off-policy算法，那么replay buffer里的trajectory肯定是很多不同的policy产生的，由于policy一直在被更新，那么那些存储较早的trajectory的policy和n-step return就不准了，所以就要用最新的网络参数去重新做树搜索更新policy以及target value来估n-step return（所以叫Reanalyze）。这个原理在muzero的文章中也有说，如下

然后这篇文章就是把这个方式和offline RL的算法作对比，比如BC，DQN，IQN，BCQ，REM，CRR等。
总结：感觉muzero确实还挺通用，而且因为它还要学model，相当于给训练多加了很多正则项，再加上还有MCTS的planning，确实效果会robust很多。但是也能想象，这么多网络一起训练，算力要求不会低的。而且这个方式确实就和DQN一样，对于offline RL来说就是把replay buffer拿来继续train，所以通用性是可以理解的。另一个感悟是，原来deepmind自己接着自己的算法做，也不是直接拿来用，还是要自己复现一遍啊，666。
疑问：这篇文章主要其实在讲实验，各个部分具体是咋实现的其实没细说，从给的算法伪代码也能看出来，写的非常笼统，需要靠猜。

码农公寓

相关文章