强化学习笔记4-MC,TD方法

2023-11-30 16:09:58

不需建模的策略评估

先复习需要建模的方法动态programming：我们需要model，P,R

无需建模的：

R（s）累计的瞬时reward 其期望为 V π ( s ) V^{\pi}(s) Vπ(s)

不用模型计算R（s）
采用从s开始的N trajectories有的reward：R1,R2,R3…

V（s）的近似值为1/N Rk的和，近似期望
估计值收敛到实数期望，variance收敛到0，方差很大
通过迭代平均来完成很浪费

估计Q 而不是V
通过MC评估，策略迭代选择better策略来改善，如果无限次还没完成评估则没有收敛
直接使用Q->用Q的贪婪action
对于非贪婪action则要用软策略
策略随时间改变，则没有收敛

优点：

Temporal Differences
改善MC方法的缺点：学习快速，可以证明收敛
无需模型学习
是本课程的首个真正的RL

采用Rk来估计

优点：无需建模，无需等到episode结尾，variance小