发表时间:2020(ICLR 2020)
文章要点:这篇文章设计了几个指标来度量RL算法的可靠性。这个可靠性主要是指训练过程稳不稳定啦,算法训练是不是可复现啦,训好的模型的performance是不是稳定呀balabala。整个设计指标还是很简单的。其实一共设计了两个指标(dispersion:the width of a distribution 和risk:the heaviness and extremity of the lower tail of a distribution),分别用在三个过程上。三个过程分别是during training两个和After learning一个。during training是across time和across runs。Across time就是说在一次训练过程中分析不同的step。Across runs就是分析重复训练多次。After learning是across rollouts on a fixed policy,这个就简单了,就是测试训好的策略。然后两个指标中,dispersion说的是看分布的宽度,我觉得其实就是看方差大不大,从而反映整个过程稳不稳定。这个指标他用的Inter-quartile range (IQR),其实就是分位数的差,比如75%分位数-25%分位数这样。然后risk就是想看看极端情况常不常见,如果极端情况太常见,就说明这个算法有风险。这个指标他用的Conditional Value at Risk (CVaR),这个指标定义如下
解释起来就是看看效果最差的那部分,平均能差到啥地步。然后就没了。文章还说了点注意细节,就不写了。
总结:这篇文章算是提了几个指标吧,但是感觉不是很实用,毕竟只有在训练完了才能根据数据分析,我都训练完了,那均值方差分位数这些不就能说明问题了吗,这几个指标的优势在哪呢。而且文章还说了,不同的环境就算是同一个算法也会得到不同的结果,也就是说这个算法的稳定性,可靠性之类的还是和具体问题有关的。这就说明我也不能在某些环境上训练并测试稳定性,然后就觉得这个算法可靠性高,然后直接迁移到其他问题上去。这么看来,好像这几个指标就有点鸡肋了。
疑问:无。
相关文章
- 10-13Benchmarking Batch Deep Reinforcement Learning Algorithms
- 10-13Difference Based Metrics for Deep Reinforcement Learning Algorithms
- 10-13MEASURING THE RELIABILITY OF REINFORCEMENT LEARNING ALGORITHMS
- 10-13Evaluating the Performance of Reinforcement Learning Algorithms
- 10-13Benchmarking Batch Deep Reinforcement Learning Algorithms