《深入浅出强化学习原理入门》学习笔记(六)基于时间差分的强化学习方法(重点为Qlearning)

《深入浅出强化学习原理入门》学习笔记(六)基于时间差分的强化学习方法

时间差分(Temporal-Difference,简称TD)方法是一种无模型的强化学习方法,也是强化学习理论中最核心的内容。
《深入浅出强化学习原理入门》学习笔记(六)基于时间差分的强化学习方法(重点为Qlearning)

1、时间差分方法与动态规划方法和蒙特卡罗方法的差异

与动态规划方法和蒙特卡罗方法相比,时间差分方法的主要不同在于值函数的估计。

(1)动态规划方法

《深入浅出强化学习原理入门》学习笔记(六)基于时间差分的强化学习方法(重点为Qlearning)
《深入浅出强化学习原理入门》学习笔记(六)基于时间差分的强化学习方法(重点为Qlearning)
动态规划方法计算值函数的时候,用到了当前状态S的所有后继状态S’处的值函数,值函数的计算用到了bootstrapping(自举)方法,是由模型得到的。

(2)蒙特卡罗方法

《深入浅出强化学习原理入门》学习笔记(六)基于时间差分的强化学习方法(重点为Qlearning)
《深入浅出强化学习原理入门》学习笔记(六)基于时间差分的强化学习方法(重点为Qlearning)
蒙特卡罗方法是利用经验平均估计状态的值函数。此处的经验是指一次试验,一次试验要等到终止状态才结束,所以相比动态规划方法,蒙特卡罗方法学习速度慢,学习效率不高。

(3)时间差分方法

《深入浅出强化学习原理入门》学习笔记(六)基于时间差分的强化学习方法(重点为Qlearning)
《深入浅出强化学习原理入门》学习笔记(六)基于时间差分的强化学习方法(重点为Qlearning)
**时间差分方法(TD)**结合了蒙特卡罗的采样方法(即试验)和动态规划方法的bootstapping(即利用后续状态的值函数估计当前值函数)。

TD目标
《深入浅出强化学习原理入门》学习笔记(六)基于时间差分的强化学习方法(重点为Qlearning)
TD偏差
《深入浅出强化学习原理入门》学习笔记(六)基于时间差分的强化学习方法(重点为Qlearning)

2、同策略的Sarsa方法和不同策略的Qlearning方法

(1)Sarsa

Sarsa的行动策略和评估策略都是ε-greedy策略。
《深入浅出强化学习原理入门》学习笔记(六)基于时间差分的强化学习方法(重点为Qlearning)

(2)Qlearning

Qlearning的行动策略为ε-greedy策略,目标策略为贪婪策略。
《深入浅出强化学习原理入门》学习笔记(六)基于时间差分的强化学习方法(重点为Qlearning)

3、基于python的编程

(1)利用TD方法进行策略评估

《深入浅出强化学习原理入门》学习笔记(六)基于时间差分的强化学习方法(重点为Qlearning)
在最内层的FOR循环中,处理的是一个时间序列,即一幕数据,TD更新方程为
《深入浅出强化学习原理入门》学习笔记(六)基于时间差分的强化学习方法(重点为Qlearning)

(2)Sarsa算法

《深入浅出强化学习原理入门》学习笔记(六)基于时间差分的强化学习方法(重点为Qlearning)
Sarsa算法的行动和评估策略都是ε-greedy策 略,对评估策略进⾏评估的方法是TD方法

(3)Qlearning算法

《深入浅出强化学习原理入门》学习笔记(六)基于时间差分的强化学习方法(重点为Qlearning)

值函数表示

值函数可以看做一张二维表,一维是状态,一维是动作,以之前的机器人找金币为例
状态空间为[1,2,3,4,5,6,7,8]
动作空间为[‘n’,‘e’,’s’,’w’]
《深入浅出强化学习原理入门》学习笔记(六)基于时间差分的强化学习方法(重点为Qlearning)

epsilon贪婪探索策略

《深入浅出强化学习原理入门》学习笔记(六)基于时间差分的强化学习方法(重点为Qlearning)

选择动作的贪婪策略

《深入浅出强化学习原理入门》学习笔记(六)基于时间差分的强化学习方法(重点为Qlearning)
《深入浅出强化学习原理入门》学习笔记(六)基于时间差分的强化学习方法(重点为Qlearning)

值函数更新

《深入浅出强化学习原理入门》学习笔记(六)基于时间差分的强化学习方法(重点为Qlearning)
《深入浅出强化学习原理入门》学习笔记(六)基于时间差分的强化学习方法(重点为Qlearning)

上一篇:小试--天气预报


下一篇:python爬取分析超级大乐透历史开奖数据!你中奖了吗?