-
Experience replay 经验回放
- 原始TD算法的缺点:
- 每一个transition用完之后就被舍弃了。
- 相邻state之间的相关性非常大,这对于训练是有害的,把用于训练的transition之间的顺序打散更利于训练。
- 经验回放:
- 使用replay buffer存储最近的n(10^5 ~ 10^6)条transition;
- 每次从replay buffer中随机抽取一个transition做随机梯度下降。
- 原始TD算法的缺点:
-
优先经验回放
- 给replay buffer中的transition不同的重要系数,系数由TD error决定,TD error越大,重要性系数越大,对于新进入buffer而没有被计算TD error的样本,设置其TD error为最大值。
- 使用非均匀抽样代替均匀抽样。
- 抽样概率较大的样本做梯度下降时,应该设置较小的学习率:\((np_t)^{-\beta} \cdot \alpha\),\(\beta\)是0到1之间的超参;