Experience replay 经验回放

  1. Experience replay 经验回放

    1. 原始TD算法的缺点:
      1. 每一个transition用完之后就被舍弃了。
      2. 相邻state之间的相关性非常大,这对于训练是有害的,把用于训练的transition之间的顺序打散更利于训练。
    2. 经验回放:
      1. 使用replay buffer存储最近的n(10^5 ~ 10^6)条transition;
      2. 每次从replay buffer中随机抽取一个transition做随机梯度下降。
  2. 优先经验回放

    1. 给replay buffer中的transition不同的重要系数,系数由TD error决定,TD error越大,重要性系数越大,对于新进入buffer而没有被计算TD error的样本,设置其TD error为最大值。
    2. 使用非均匀抽样代替均匀抽样。
    3. 抽样概率较大的样本做梯度下降时,应该设置较小的学习率:\((np_t)^{-\beta} \cdot \alpha\),\(\beta\)是0到1之间的超参;
上一篇:一个Java Web后台任务执行工具的设计与实现


下一篇:OFF-POLICY ACTOR-CRITIC WITH SHARED EXPERIENCE REPLAY(LASER)