强化学习的学习之路(十八)_2021-01-18: Policy Optimazation

作为一个新手,写这个教程也是想和大家分享一下自己学习强化学习的心路历程,希望对大家能有所帮助。这个系列后面会不断更新,希望自己能保证起码平均一天一更的速度,先是介绍强化学习的一些基础知识,后面介绍强化学习的相关论文。本来是想每一篇多更新一点内容的,后面想着大家看CSDN的话可能还是喜欢短一点的文章,就把很多拆分开来了,目录我单独放在一篇单独的博客里面了。完整的我整理好了会放在github上,大家一起互相学习啊!可能会有很多错漏,希望大家批评指正!

Policy Optimazation

先说一个我觉得很好的观点,可以把策略梯度法看成一个加权了的最大似然估计法,加的这个权重是轨迹得到的回报,也就是说,我们不是希望学出来的策略和采样得到的轨迹的概率分布接近,而是我们希望最大化那些回报大的轨迹出现的概率,也就是希望策略去实施得到的轨迹尽可能能获得大的回报。

定义

与基于价值的策略不同,基于策略的优化不再去求价值函数,而是直接去算策略参数的梯度去进行优化。也就是说输入是比如前面说的游戏的图片,输出的直接就是每个动作的概率。

强化学习的学习之路(十八)_2021-01-18: Policy Optimazation

Valued-based和Policy-based RL对比
  • Value-based RL
    • to learn value function 去学价值函数
    • implicit policy based on the value function 通过价值函数隐含地学出策略
  • Policy-based RL
    • no value function 没有价值函数
    • to learn policy directly 直接去学策略
  • Actor-critic
    • to learn both policy and value function 即学价值函数,也学策略

强化学习的学习之路(十八)_2021-01-18: Policy Optimazation

Advantages of Policy-based RL
  • Advantages:
  • better convergence properties: we are guaranteed to converge on a local optimum (worst case) or global optimum (best case) 更好的收敛性,保证起码收敛到一个局部最优点
  • Policy gradient is more effective in high-dimensional action space 在高维空间中更有效
  • Policy gradient can learn stochastic policies, while value function can’t 基于策略的方法可以学出随机策略,而基于值的方法不行
  • Disadvantages:
    • typically converges to a local optimum 总是收敛到局部最优点
    • evaluating a policy has high variance 评估策略的时候总是方差很大
Policy Optimazation的方法
  • Policy-based RL is an optimization problem that find θ \theta θ that maximizes J ( θ ) J(\theta) J(θ)
  • If J ( θ ) J(\theta) J(θ) is differentiable, we can use gradient-based methods: 如果目标函数是可导的,那我们就可以用基于梯度的方式去求解基于策略的强化学习方法
    • gradient ascend
    • conjugate gradient
    • quasi-newton
  • If J ( θ ) J(\theta) J(θ) is non-differentiable or hard to compute the derivative, some derivative-free black-box optimization methods:
    • Cross-entropy method (CEM)
    • Hill climbing
    • Evolution algorithm
上一篇:url处理:encodeURIComponent和URLSearchParams


下一篇:路由-策略Policy(路由重分发、路由过滤、路由策略)