发表时间:2019(IEEE Access)
文章要点:这篇文章想说之前那些衡量RL算法的指标(rawreward, avgreward,maximum rawreward等等)不好,只看得出来一个得分,反映不出来RL在训练过程中的问题。然后作者自己设计了几个指标来检测RL在训练中可能出现的问题(detect anomalies during the training process automatically)。
Difference Based Score (DBS):
其实就是得分的差分,第i+h局的得分减去第i局的得分。作者想说这个可以看出来训练过程稳不稳定。
Weighted Difference Count (WDC):
其实就是统计了一段时间内大于0和小于0的值。作者想说这个可以用来分析一段时间内算法在没在提升。
MinMaxAVG (MMAVG):
其实相当于统计了一下从k局到k+n局的一个得分的差异。作者说这个可以分析一下reward的方差。然后就在DQN和DRQN上做了下实验,来说明这几个指标有用。
总结:出发点是好的,但是这几个指标还是基于reward做的,也不能反映出个什么啊。另外这几个实验,完全不知道在反映什么东西,或者说就算没有这几个指标,光看reward曲线也完全可以得出相同的结论啊。还有这篇文章写得是真的差,画图太难看,引用也乱,各种typo,甚至一段话写了一半突然没了。Access果然大水刊。
疑问:无