On the Expressivity of Neural Networks for Deep Reinforcement Learning

2023-10-24 08:20:46

发表时间：2020（ICML 2020）
文章要点：通常一个RL的问题，dynamics都比value function和policy function更复杂，这个时候去学model的话通常还不如直接去学value和policy。但是文中给出了反例，就是dynamics比value和policy更简单，这种情况下去学model然后用planning的方式去做决策，就会比model free的方式更有优势。然后作者顺道提出了一个简单的planning算法a simple multi-step model-based bootstrapping planner (BOOTS)，就是往前走多条轨迹，然后回过头来选最好的动作。

总结：主要是给出一个例子吧，然后给人更加直接的感受，什么时候model和planning有用，什么时候model free更好。
疑问：没有看证明。

码农公寓

相关文章