文章目录
Actor-Critic
演员-评论家算法(Actor-Critic Algorithm)
是一种结合policy based
和value based
的强化学习方法,其中:
- 演员(Actor)是指策略函数 π ( a ∣ s ) \pi(a \mid s) π(a∣s),即学习一个策略来得到尽量高的回报。
- 评论家(Critic)是指值函数 V π ( s ) V_\pi(s) Vπ(s),对当前策略的值函数进行估计,即评估演员的好坏。
- 借助于值函数,演员-评论家算法可以进行单步更新参数,不需要等到回合结束才进行更新。
Review: Policy Gradient & Q-learning
g r a d i e n t f o r u p d a t e = ∇ θ R ‾ θ ≈ 1 N ∑ n = 1 N ∑ t = 1 T n ( ∑ t ′ = t T n γ t ′ − t r t ′ n − b ) ∇ l o g p θ ( a t n ∣ s t n ) gradient\ for\ update = \nabla_\theta \overline{R}_\theta \approx \frac{1}{N} \sum_{n=1}^N \sum_{t=1}^{T_n} (\sum_{t'=t}^{T_n} \gamma^{t'-t}r_{t'}^n - b) \nabla logp_\theta(a_t^n \mid s_t^n) gradient for update=∇θRθ≈N1n=1∑Nt=1∑Tn(t′=t∑Tnγt′−trt′n−b)∇logpθ(atn∣stn)
G t n ≜ ∑ t ′ = t T n γ t ′ − t r t ′ n G_t^n \triangleq \sum_{t'=t}^{T_n} \gamma^{t'-t}r_{t'}^n Gtn≜t′=t∑Tnγt′−trt′n
G
t
n
G_t^n
Gtn 代表的是从t时刻开始discount后的奖励,因为
r
n
r^n
rn是一个随机变量,所以
G
t
n
G_t^n
Gtn 的方差会很大。方差大就会导致在训练的过程中sample到的有限的
G
t
n
G_t^n
Gtn 是比较没有代表性的,那产生的误差就会比较大。另外据Q- function的定义易得:
E
[
G
t
n
]
=
Q
π
θ
(
s
t
n
,
a
t
n
)
\operatorname{E}[G_t^n] = Q^{\pi_\theta}(s_t^n,a_t^n)
E[Gtn]=Qπθ(stn,atn)
- 只需要将 ∑ t ′ = t T n γ t ′ − t r t ′ n \sum_{t'=t}^{T_n} \gamma^{t'-t}r_{t'}^n ∑t′=tTnγt′−trt′n 替换成 Q π θ ( s t n , a t n ) Q^{\pi_\theta}(s_t^n,a_t^n) Qπθ(stn,atn),就很直观的把Q-learning和policy gradient结合起来了。
- 更进一步地,baseline b 可以用 V π θ ( s t n ) V^{\pi_\theta}(s_t^n) Vπθ(stn) 来替代。实际上, V π θ ( s t n ) = E [ Q π θ ( s t n , a t n ) ] V^{\pi_\theta}(s_t^n) = \operatorname{E}[Q^{\pi_\theta}(s_t^n,a_t^n)] Vπθ(stn)=E[Qπθ(stn,atn)],因此二者Q-V的值有正有负,即代表动作好与坏。
替换完得到下式:
g
r
a
d
i
e
n
t
f
o
r
u
p
d
a
t
e
=
∇
θ
R
‾
θ
≈
1
N
∑
n
=
1
N
∑
t
=
1
T
n
(
Q
π
θ
(
s
t
n
,
a
t
n
)
−
V
π
θ
(
s
t
n
)
)
∇
l
o
g
p
θ
(
a
t
n
∣
s
t
n
)
(1)
gradient\ for\ update = \nabla_\theta \overline{R}_\theta \approx \frac{1}{N} \sum_{n=1}^N \sum_{t=1}^{T_n} {\color{red}(Q^{\pi_\theta}(s_t^n,a_t^n) - V^{\pi_\theta}(s_t^n))} \nabla logp_\theta(a_t^n \mid s_t^n) \tag{1}
gradient for update=∇θRθ≈N1n=1∑Nt=1∑Tn(Qπθ(stn,atn)−Vπθ(stn))∇logpθ(atn∣stn)(1)
Advantage Actor-Critic(A2C)
为什么叫 Advantage?因为 a d v a n t a g e f u n c t i o n = ∑ t ′ = t T n γ t ′ − t r t ′ n − b advantage function = \sum_{t'=t}^{T_n} \gamma^{t'-t}r_{t'}^n - b advantagefunction=∑t′=tTnγt′−trt′n−b
因为
Q
π
(
s
t
n
,
a
t
n
)
=
E
[
r
t
n
+
γ
V
π
(
s
t
+
1
n
)
]
=
r
t
n
+
γ
V
π
(
s
t
+
1
n
)
Q^\pi(s_t^n,a_t^n) = \operatorname{E}[r_t^n + \gamma V^\pi(s_{t+1}^n)] = r_t^n + \gamma V^\pi(s_{t+1}^n)
Qπ(stn,atn)=E[rtn+γVπ(st+1n)]=rtn+γVπ(st+1n) (去掉期望值并且都换成V是paper实验里面验证的)代入(1)式,得:
g
r
a
d
i
e
n
t
f
o
r
u
p
d
a
t
e
=
∇
θ
R
‾
θ
≈
1
N
∑
n
=
1
N
∑
t
=
1
T
n
(
r
t
n
+
γ
V
π
(
s
t
+
1
n
)
−
V
π
θ
(
s
t
n
)
)
∇
l
o
g
p
θ
(
a
t
n
∣
s
t
n
)
(2)
gradient\ for\ update = \nabla_\theta \overline{R}_\theta \approx \frac{1}{N} \sum_{n=1}^N \sum_{t=1}^{T_n} {\color{red}(r_t^n + \gamma V^\pi(s_{t+1}^n) - V^{\pi_\theta}(s_t^n))} \nabla logp_\theta(a_t^n \mid s_t^n) \tag{2}
gradient for update=∇θRθ≈N1n=1∑Nt=1∑Tn(rtn+γVπ(st+1n)−Vπθ(stn))∇logpθ(atn∣stn)(2)
tips for A2C
- Tip1:输出动作的分布(离散动作空间)或者动作的矢量(连续动作空间)的网络 π ( s ) \pi(s) π(s) 和输出价值函数的网络 V π ( s ) V^\pi(s) Vπ(s) 可以共享前面几层。因为输入都是同样的s,可以通过前面几层将常见的s–image 抽象成high level 信息
- Tips2:给 π ( s ) \pi(s) π(s) 加约束,希望熵大点好,意味着每种动作的选取概率差不多,有利于actor去探索环境。
Asynchronous Advantage Actor-Critic(A3C)
- Worker i 拷贝整个网络参数 θ 1 \theta^1 θ1,采样数据后计算 ∇ θ \nabla\theta ∇θ,而后更新网络参数
- 在 Worker i 工作的时候,其他的Worker也在工作,也许更新参数的时候公式就不再是 θ 1 + η ∇ θ \theta^1 + \eta \nabla \theta θ1+η∇θ 而是 θ 2 + η ∇ θ \theta^2 + \eta \nabla \theta θ2+η∇θ
- 就是说所有人同时都在工作,加快了效率,就像影分身同时学习不同的技能,进行叠加
Pathwise Derivative Policy Gradient
这个方法可以看成是 Q-learning 解连续动作的一种特别的方法,也可以看成是一种特别的 Actor-Critic 的方法。
特点:Pathwise Derivative Policy Gradient 中的 critic 会直接告诉 actor 不仅会评价动作的好坏,还会告诉我们做什么样的动作才可以得到比较大的 value。
- actor 的工作就是解 arg max 问题。这个 actor 的工作就是输入一个状态 s,希望可以输出一个动作 a。这个动作 a 被丢到 Q-function 以后,它可以让 Q π ( s , a ) Q^\pi(s,a) Qπ(s,a) 的值越大越好。
- 实际训练的时候会把两个网络接起来组成一个较大的网络。固定住 Q 的参数,只去调 actor 的参数,用 gradient ascent 的方法去最大化 Q 的输出。
- 这就是一个 conditional GAN。Q 就是 discriminator,但在强化学习就是 critic,actor 在 GAN 里面就是 generator,其实它们是同一件事情。
Algorithm
相比于Q-learning,有四处变化:
- 收集数据时,不再根据 Q 选取动作,而是用 π \pi π 来决定选取的动作
- target network 里面输入 s t + 1 s_{t+1} st+1 后的动作选取不是看哪个动作带来的 Q ^ \widehat{Q} Q 最大,而是直接根据 π ^ \widehat{\pi} π 选取action
- 比 Q-learning 多更新一个网络 π \pi π ,并且更新的目标是为了Q最大化
- C步之后,多了一个 π ^ \widehat{\pi} π 的参数置为和训练网络一