Richard S.Sutton 《强化学习》 学习笔记 第三章

目录

第3章 有限马尔科夫决策过程

一二章链接

  • MDP涉及了延迟收益,需要在当前收益和延迟收益之间权衡。
  • 赌博机问题估计每个动作的价值 q ∗ ( a ) q_*(a) q∗​(a),MDP问题中估计每个动作a在每个状态s中的价值 q ∗ ( s , a ) q_*(s,a) q∗​(s,a),或者估计给定最优动作下的每个状态的价值 v ∗ ( s ) v_*(s) v∗​(s)。

3.1 “智能体-环境”交互接口

  • MDP是一种通过交互式学习来实现目标的理论框架。进行学习以及实施决策的机器被称为agent智能体,agent之外所有与其相互作用的事物被称为环境。
  • 在有限MDP中,状态、动作和收益的集合(S,A,R)只有有限元素。
  • 随机变量 R t R_t Rt​和 S t S_t St​具有明确定义的离散概率分布,且只依赖于前序状态和动作: p ( s ′ , r ∣ s , a ) = P r { S t = s ′ , R t = r ∣ S t − 1 = s , A t − 1 = a } p(s',r|s,a)=Pr\left \{ {S_t=s',R_t=r|S_{t-1}=s,A_{t-1}=a} \right \} p(s′,r∣s,a)=Pr{St​=s′,Rt​=r∣St−1​=s,At−1​=a}
    函数p定义了MDP的动态特性
  • R t R_t Rt​和 S t S_t St​的每个可能的值出现的概率只取决于前一个状态 R t − 1 R_{t-1} Rt−1​和前一个动作 S t − 1 S_{t-1} St−1​,且与更早之前的状态或动作完全无关。
  • 动作:我们想做的决策;状态:对决策有帮助的事情

任何目标导向的行为的学习问题都可以概括为智能体及其环境之间来回传递的三个信号:

  1. 用来表示智能体做出的选择(行动)
  2. 表示做出该选择的基础(状态)
  3. 定义智能体的目标(收益)

3.2 目标和收益

  • agent的目标是最大化收到的总收益。
  • 收益信号并不是传授智能体如何实现目标的先验知识;只能用来传达什么是你想要实现的目标,而不是如何实现目标。

3.3 回报和分幕(episodes)


补充知识:

  • 期望与均值的区别:
  1. 均值,其实是针对实验观察到的特征样本而言的;期望是针对于随机变量而言的一个量,可以理解是一种站在“上帝视角”的值。针对于他的样本空间而言的。
  2. 均值为多个随机变量的和再除以个数,相当于还是一个随机变量,当数量足够多的时候,这个随机变量会收敛,这个收敛的值为期望。
  3. 期望是先验概率,均值是后验。
  • 大数定律:
    在随机事件的大量重复出现中,往往呈现几乎必然的规律,这个规律就是大数定律。通俗地说,这个定理就是,在试验不变的条件下,重复试验多次,随机事件的频率近似于它的概率。偶然中包含着某种必然。

  • 智能体的目标是最大限度提高长期收益。-> 如何定义?
  • 最大化期望回报 G t G_t Gt​:
    1. 分幕式任务: G t = R t + 1 + R t + 2 + . . . + R T G_t = R_{t+1}+R_{t+2}+...+R_{T} Gt​=Rt+1​+Rt+2​+...+RT​;
      T代表最终时刻;这种情况下,智能体和环境的交互可以被分为一系列子序列(从开始到最终时刻),每个子序列被称为幕(episodes);这些episodes在同样的终结状态下结束,但对不同结果有不同的收益。
    2. 交互是持续不断的,称为“持续性任务”: G t = R t + 1 + γ R t + 2 + γ 2 R t + 3 + . . . = ∑ k = 0 ∞ γ k R t + k + 1 G_t = R_{t+1}+ \gamma R_{t+2}+{ \gamma}^2R_{t+3}+...={\sum_{k=0}^{\infty}\gamma^kR_{t+k+1} } Gt​=Rt+1​+γRt+2​+γ2Rt+3​+...=∑k=0∞​γkRt+k+1​
      γ \gamma γ是折扣率,等于0时代表智能体“目光短浅”,只关注当前收益。通常来说,最大化当前收益会减少未来的收益。
      G t = R t + 1 + γ G t + 1 G_t = R_{t+1}+\gamma G_{t+1} Gt​=Rt+1​+γGt+1​

3.4 分幕式和持续性任务的统一表示法

  • 把幕的终止当做是一个特殊的吸收状态的入口,只会转移到自己并且只产生零收益。
    Richard S.Sutton 《强化学习》  学习笔记 第三章
    无论是计算前T个收益还是计算无限序列的综合,都能得到相同的回报。

3.5 策略和价值函数

  • 价值函数是状态(状态与动作二元组)的函数,用来评估当前智能体在给定状态(给定状态与动作)下有多好(即回报的期望值)。
  • 策略是从状态到每个动作的选择概率之间的映射。 π ( a ∣ s ) \pi(a|s) π(a∣s)代表状态为s时,选择动作a的概率。
上一篇:他们只有本硕学历, 却发过了AER, JPE, QJE, RES, ECM5大顶刊!


下一篇:Java语言程序设计与数据结构(基础篇)课后练习题 第十三章(一)