发表时间:2020(NeurIPS 2020)
文章要点:这篇文章用model based方法去做offline RL。主要分为两步,第一步是用offline data学一个pessimistic MDP (P-MDP),第二步就是用这个P-MDP去学一个near-optimal policy。P-MDP的性质保证了这个near-optimal policy是真实环境里的performance的lower bound。具体来说,因为dataset不可能覆盖整个状态动作空间,所以需要避免model exploitation 的问题。P-MDP把state action分成known和unknown,对于unknown的地方会给一个很大的负的reward,所以把这个东西叫做pessimistic。有了这个P-MDP之后,剩下的就是RL部分了,可以用planning去做,也可以用policy optimization去做等等。整个算法伪代码如图
这里这个Unknown state-action detector (USAD)就是去区分known和unknown的sample的
HALT表示absorbing state,作者拿来做理论证明用的,实践上不是重点。这里还有一个问题是具体怎么去区分known和unknown。作者的做法是训练多个model,用不同的初始网络参数,然后比较ensemble discrepancy
如果超过某个阈值,就认为是unknown的
总结:很make sense的想法,感觉就顺理成章。然后用ensembles of models来判断known和unknown也挺有意思的,就是计算量偏大,不过对于offline RL来说离线的训练也不算什么大问题,毕竟不影响online使用。
疑问:这里面也假设了reward function r is known,这个条件会不会太强了?
是不是可以用异常值检测的方式去判断state是known还是unknown,这样anomaly detection就可以用上了。
Dynamics model learning为啥定义成这个样子
还有Dynamics model一般都是确定性的,就算带随机也是搞个高斯,那如果真的是有离散的多个转移,那怎么办?
相关文章
- 11-27Look Before You Leap: Bridging Model-Free and Model-Based Reinforcement Learning 论文翻译
- 11-27Context-aware Dynamics Model for Generalization in Model-Based Reinforcement Learning
- 11-27Learning to Combat Compounding-Error in Model-Based Reinforcement Learning
- 11-27Online and Offline Reinforcement Learning by Planning with a Learned Model
- 11-27MOReL: Model-Based Offline Reinforcement Learning
- 11-27Model-based Reinforcement Learning: A Survey
- 11-27ALGORITHMIC FRAMEWORK FOR MODEL-BASED DEEP REINFORCEMENT LEARNING WITH THEORETICAL GUARANTEES