博雅大数据机器学习十讲第十讲

数学模型:马尔可夫决策过程\((MDP)\)

  • 强化学习方法形式化为\(MDP\),\(MDP\)是序列决策算法的一般数学框架
  • 通常将\(MDP\)表示为四元组\((S,A,P,R)\):
    • \(S\)表示状态空间,是描述环境的状态,表示为\(S=\{s_1,s_2,s_3,...\}\)
    • \(A\)表示行动空间,是智能体可执行的行动,表示为\(A=\{a_1,a_2,a_3,...\}\)
    • \(P\)表示状态转移概率,状态\(s\)转移到状态\(s\)的概率记为\(P_a(s,s^{'})=p(S_{t+1}=s^{'}|S_t=s,A_t=a)\)
    • \(R\)表示奖励,是环境根据智能体的动作反馈的奖励,记为\(R_a(s,s^{'})=E(r_t|S_t=s,A_t=a)\)

策略

  • 在马尔可夫决策过程中,最终需要求解一个策略,它是行动和状态之间的映射,可分为确定性策略和随机性策略:
  • 确定性策略:\(a=\pi(s)\)
  • 随机性策略:\(\pi(s,a)=p(A_t=a|S_t=s)\)

目标

  • 最大化累积奖励的期望,\(t\)时刻累积奖励的期望记为:\(E(G_t|S_t=s)=E(\sum^\infty_{k=0}R_{t+k}|S_t=s)\)
  • 为保证目标收敛,引入折扣因子\(\gamma\),\(\gamma\in(0,1)\),最大化积累折扣奖励期望:

\[E(G_t|S_t=s)=E(\sum^\infty_{k=0}\gamma^kR_{t+k}|S_t=s) \]

状态价值函数

  • 策略下状态价值函数:处于状态\(s\),按照策略\(\pi\)执行后可以获得的累积奖励的期望,记为\(V_\pi(s)\):

\[V_\pi(s)=R_a(s,s^{'})+\gamma\sum_{s^{'}}P_a(s,s^{'})V_\pi(s^{'}) \]

  • 状态价值函数:处于状态\(s\),且按照最佳策略执行,能够获得的累积奖励的期望

\[V(s)=max_a(R_a(s,s^{'})+\gamma\sum_{s^{'}}P_a(s,s^{'})V_\pi(s^{'})) \]

  • 最优策略为:\(argmax_a(R_a(s,s^{'})+\gamma\sum_{s^{'}}p_a(s,s^{'})V_\pi(s^{'}))\)

  • \(Q_\pi(s,a)\)的表达式为:\(Q_\pi(s,a)=\sum_{s^{'}\in S}P_a(s,s^{'})[R_a(s,s^{'})+\gamma Q_\pi(s^{'},a^{'})]\)

  • 最优的\(Q\)函数为:

\[Q(s,a)=\sum_{s^{'}\in S}P_a(s,s^{'})[R_a(s,s^{'})+\gamma \max_{a^{'}}( Q(s^{'},a^{'}))] \]

  • 有了\(Q\)函数,就可以用\(\pi(s)=argmax_aQ(s,a)\),来求解出最佳策略

深度强化学习

  • 在\(Q-learning\)中,当状态和行动空间是离散且维数不高是,用\(Q-Table\)储存每个状态行动对的\(Q\)值,可以实现行动决策。而当状态和行动空间是高维连续时,使用\(Q-Table\)不现实,例如雅达利游戏。

图像修复

  • 设计多种(12种)图像修复工具,\(DQN\)比现有图像修复模型复杂度低,修复能力更优异
  • 工具的选择视为马尔可夫决策过程\((MDP)\):
    • 行动\((action)\):每个行动表示使用某个修复工具
    • 状态\((state)\):输入图像和上一时刻行动估值向量
    • 奖励\((reward)\):图像峰值噪比的变化

案例:

上一篇:3.5 矩阵的秩


下一篇:凸优化简明笔记