发表时间:2021 (AAMAS 2021 extended abstract)
文章要点:这篇文章想说通常RL都是去最大化累计回报,这个值通常都是标量,标量反映出来的信息肯定就没有分布多。这篇文章就在risk-aware and multi-objective的设定下用MCTS来做distributional这个事情(Distributional Monte Carlo Tree Search)。具体来说,这个时候的reward变成了向量形式,最后用效用函数(utility)转成一个最终的标量。这里有两个指标,一个是scalarised expected returns (SER)
就是先求期望,然后再作用到utility上变成标量。另一个是expected scalarised returns (ESR)
就是先作用到utility上变成标量,再求期望。作者想说他这个DMCTS的方式对于两者都适用,而且对于分线性的utility也适用。
方法上来看,MCTS没有变,还是Selection,Expansion,Simulation,Backpropagation这几个步骤,只是里面的reward变成了维护一个向量,并且和围棋不一样的是树里面多了chance node。然后selection的时候没用UCT,而是用Bootstrap Thompson Sampling,这个逻辑上和UCT其实差不多,思路就是根据之前的访问数据,更新参数α,β从而更新后验分布,然后根据分布去选使得ESR或者SER最大的动作。这里的exploration主要就是由bootstrap完成,不同的bootstrap会产生不同的α,β,从而平衡exploitation和exploration。
总结:很成功的应用,从结果上来看,比Q-learning based的RL算法好不少。不过几个实验还是比较简单的,不知道复杂一点的好不好用,特别是计算量上面。
疑问:risk-aware到底是啥?
两个指标ESR和SER从真实含义上来看,有啥区别?
文章里面一直提过去的回报和未来的回报
我感觉所有RL的算法都会考虑这个吧,不知道这个地方强调的点在哪?
文章一直强调utility function是线性或者非线性的区别,这个在算法层面有什么影响?