强化学习笔记4--actor critic

本文章为学习李宏毅老师视频的学习笔记,视频链接

强化学习笔记4--actor critic
采样会导致不稳定,直接估计G的期望值,用期望值代替sample的值
强化学习笔记4--actor critic
状态值函数与状态动作值函数,estimate value function --> TD比较稳,MC比较精确

强化学习笔记4--actor critic
V π ( θ ) ( s t n ) V^{\pi(\theta)}(s_t^n) Vπ(θ)(stn​)是 Q π ( θ ) ( s t n , a t n ) Q^{\pi(\theta)}(s_t^n,a_t^n) Qπ(θ)(stn​,atn​)的期望

强化学习笔记4--actor critic
强化学习笔记4--actor critic
AC
强化学习笔记4--actor critic
A3C
22:19然后也就没听了,下次见家人们

上一篇:百分之九十的人不知道?在Python中f-string的几个技巧


下一篇:Pi network&Space Pi 正在用行动告诉世界区块链未来的价值曲线