强化学习第2版第12章笔记——资格迹

12  资格迹

  资格迹机制的核心是一个短时记忆向量,资格迹zt ∈ Rd,以及与之相对的长时权重向量wt ∈ Rd。这个方向核心的思想是,当参数wt的一个分量参与计算并产生一个估计值时,对应的zt的分量会骤然升高,然后逐渐衰减。在迹归零前,如果发现了非零的时序差分误差,那么相应的wt的分量就可以学习。迹衰减参数λ ∈ [0, 1]决定了迹的衰减率。

  在n-步算法中资格迹的主要计算优势在于,它只需要追踪一个迹向量,而不需要存储最近的n个特征向量。同时,学习也会持续并统一地在整个时间上进行,而不是延迟到整个幕的末尾才能获得信号。另外,可以在遇到一个状态后马上进行学习并影响后续决策而不需要n步的延迟。

 

12.1  λ-回报

  n步回报被定义为最初n步的折后收益加上n步后到达状态的折后预估价值。

  注意,一次有效的更新除了以任意的n步回报为目标之外,也可以用不同n的平均n步回报作为更新目标。

  可以把TD(λ)算法视作平均n步更新的一种特例。这里的平均值包括了所有可能的n步更新,每一个按比例λn-1加权,这里λ ∈ [0, 1],最后乘上正则项(1 - λ)保证权值和为1。这产生的结果称为λ-回报。

  在λ = 1时,λ-回报的更新算法就是蒙特卡洛算法。在λ = 0时,λ-回报的更新算法就是单步时序差分算法。

 

12.2  TD(λ)

  TD(λ)是强化学习中最古老、使用也最广泛的算法之一,它是第一个使用资格迹展示了更理论化的前向视图和更易于计算的后向视图之间关系的算法。

  TD(λ)通过三种方式改进了离线λ-回报算法。首先它在一幕序列的每一步更新权重向量而不仅仅在结束时才更新。其次,它的计算平均分配在整个时间轴上,而不仅仅是幕的结尾。第三,它也适用于持续性问题而不是仅仅适用于分幕式的情况。

  通过函数逼近,资格迹zt ∈ Rd是一个和权重向量wt同维度的向量。权值向量是一个长期的记忆,在整个系统的生命周期中进行积累;而资格迹是一个短期记忆,其持续时间通常少于一幕的长度。资格迹辅助整个学习过程,它们唯一的作用是影响权值向量,而权值向量则决定了估计值。

  在TD(λ)中,资格迹向量被初始化为零,然后在每一步累加价值函数的梯度,并以γλ衰减:

强化学习第2版第12章笔记——资格迹

 

 

这里γ是折扣系数,而λ为前一章介绍的衰减率参数。资格迹追踪了对最近的状态评估值做出了或正或负贡献的权值向量的分量,这里的"最近"由γλ来定义。当强化事件出现时,我们认为这些贡献"痕迹"展示了权值向量的对应分量有多少"资格"可以接受学习过程引起的变化。我们关注的强化事件是一个又一个时刻的单步时序差分误差。预测的状态价值函数的时序差分误差为:

强化学习第2版第12章笔记——资格迹

 

  在TD(λ)中,权值向量每一步的更新正比于时序差分的标量误差和资格迹:

强化学习第2版第12章笔记——资格迹

 

12.3  n-步截断 λ-回报方法

γ

上一篇:表格


下一篇:2月1日