Temporal difference Learning

TD Learning(时间差分学习)是RL的核心。

Sutton(1988)提出TD通常对值函数的估计涉及到学习方法。

Q-learning (Watkins and Dayan, 1992)和SARSA (Rummery and Niranjan, 1994)是时间差分控制方法。

 

TD learning (Sutton, 1988)直接用bootstrapping,一个 model-free,online和全增长的方式从带有TD误差的经验上学习函数 V (s),更新规则如下:

Temporal difference Learning

 

α为学习率,Temporal difference Learning是TD误差。

 

 

 

 

 

Temporal difference Learning

 

上一篇:主从报表


下一篇:基数排序---c语言描述