1.值函数定义
1.1 V函数
我们先看一下经典的最短路问题,假设我们要求出起点s到终点g的最短路
我们定义V∗(s)为s到终点g的最短路,V∗(f) 为f到终点g的最短路,以此类推,为了求出这个最短路,我们从终点开始算起:
V∗(g)V∗(f)V∗(d)=0=1+V∗(g)=1=min{3+V∗(g),1+V∗(f)}
对终点g来说,自己到自己的最短路为0。
对顶点f来说,只有它自己和终点g有路径,故顶点f到g的最短路由这条路径的权重和V∗(g)相加
对顶点d来说,有两个选择,可以选择权值为3的路径到g,也可以选择权值为1的路径到f,取这两种选择里最优选择即可
这样从后往前计算,我们可以得到起点s到终点g的最短路V∗(s)
1.2 Q函数
有时我们除了要知道最短路,还要知道最短路这条路径的走向(即怎么走到终点),故我们还需要一个变量记录当前顶点的选择,我们定义Q∗(s,a)为从s顶点选择a路径到终点g的最短路,拿图例来说,顶点s出发有两条路径可选,一条权值为1到达b,记作a1,一条权值为2到达c,记作a2(在强化学习中,我们可以将顶点定义为状态,选择路径定义为动作)
如果s选择a1路径,那么Q∗(s,a1)由这条路权值和b到终点的最短路决定
Q∗(s,a1)=1+V∗(b)
同样对于a2路径,有
Q∗(s,a2)=2+V∗(c)
对于s点到终点的最短路,由这两种选择的最小值决定
V∗(s)=min{Q∗(s,a1),Q∗(s,a2)}
我们可以将V完全由Q函数代替,以Q∗(s,a2)为例
Q∗(s,a2)=2+min{Q∗(c,a4),Q∗(c,a2)}
现在我们不仅求得了最优值,还记录了每次的选择。
1.3 通过随机性引入期望
在之前的图中两点之间的到达关系是确定的,现在的图中两点之间具有概率关系,如c点选择a4路径有0.7的概率到达d,有0.3的概率到达e。
从原点到终点,即使策略确定(在每个点选择哪条路是确定的),最终得到的路径值是一个随机变量,因此我们定义最短路为期望最短路。
以c为例,如果选择a4路径,期望最短路为
Q∗(c,a4)=4+0.7∗min{Q∗(d,a3),Q∗(d,a1)}+0.3∗Q∗(e,a1)
抽象化这个式子,顶点由s表示,决策由a表示,权值由顶点和决策决定,即r(s,a),p(s′∣s,a)表示由当前顶点选择决策到下一个顶点的概率
Q∗(s,a)=r(s,a)+s′∑[p(s′∣s,a)∗mina′Q′(s′,a′)]=r(s,a)+Es′∼p(s′∣s,a)[mina′Q′(s′,a′)]
在强化学习中,我们一般要最大化目标值,即将上式的min改为max,便得到Q函数的最优贝尔曼方程
2. 关于期望
对于强化学习的目标,常常定义为
J(θ)=maxθEτ∼pθ(τ)R(τ)
τ表示一条轨迹,可以类比于上面从原点到终点的一条路径,R(τ)表示这条轨迹总的回报值,是一个随机变量,满足pθ(τ)这个概率分布,最终目标为最大化期望回报值。
R(τ)是轨迹下每一步的决策回报加和,即R(τ)=∑t=0T−1r(st,at),即T个随机变量的和,每一个随机变量r(st,at)由状态动作对(st,at)决定,服从pθ(st,at)概率分布
对于第一个随机变量r(s0,a0)
pθ(s0,a0)=p(s0)πθ(a0∣s0)p(s1∣s0,a0)
第二个随机变量r(s1,a1)
pθ(s1,a1)=p(s0)πθ(a0∣s0)p(s1∣s0,a0)π(a1∣s1)p(s2∣s1,a1)
以此类推。
这T个随机变量的联合概率分布可以认为是最后一个随机变量的概率分布pθ(sT−1,aT−1)
pθ(sT−1,aT−1)=p(s0)t=0∏T−1πθ(at∣st)p(st+1∣st,at)
也可以认为是该轨迹服从的概率分布
目标函数可以写为
J(θ)=maxθEτ∼pθ(τ)t=0∑n−1r(st,at)
有时为了凸显期望下标显示联合概率分布含义,也写作
J(θ)=maxθEs0,a0,s1⋯sTt=0∑n−1r(st,at)
我们还知道,期望的和等于和的期望,所以我们可以把求和提到期望外面
J(θ)=maxθt=0∑n−1E(st,at)∼pθ(st,at)r(st,at)
期望的下标也相应换成各自随机变量满足的概率分布
对于无限长度轨迹的情况,我们考虑以下的目标函数
J(θ)=maxθE(s,a)∼pθ(s,a)r(s,a)
其中pθ(s,a)表示稳态分布
参考资料
CS 294 Deep Reinforcement Learning
CS 598 Statistical Reinforcement Learning