Policy-based Approach(基于策略的方法)

Policy-based Approach(基于策略的方法)

 

 

 

 Policy-based Approach(基于策略的方法)

Policy-based Approach(基于策略的方法)

 

step 1:Neural Network as Actor

Policy-based Approach(基于策略的方法)

 

 

step 2:goodness of function(训练一些Actor)

Policy-based Approach(基于策略的方法)是一个序列,包含T个状态s、行为a、奖励s。代表某一次的开始到结束的过程。

Policy-based Approach(基于策略的方法)是一个奖励和。

Policy-based Approach(基于策略的方法)是某一设定好的参数Policy-based Approach(基于策略的方法)获得的总平均奖励

 用策略Policy-based Approach(基于策略的方法)去玩N次游戏获得N个Policy-based Approach(基于策略的方法),则从概率Policy-based Approach(基于策略的方法)中进行采样。

Policy-based Approach(基于策略的方法)

 

 

 

 

 

 step 3:pick the best function(找到最好的一个Actor)

 方法:Gradient Ascent

即最大化Policy-based Approach(基于策略的方法),用Gradient Ascent方法寻找使Policy-based Approach(基于策略的方法)最大的Policy-based Approach(基于策略的方法)

 Policy-based Approach(基于策略的方法)

 

 

 Policy-based Approach(基于策略的方法)

 

 Policy-based Approach(基于策略的方法)

Policy-based Approach(基于策略的方法)

Policy-based Approach(基于策略的方法)

 

添加偏置

这里的Policy-based Approach(基于策略的方法)有可能总是正数,加上一个偏置b即可。

如果相减还是得到一个正数则可以提高该行为的概率,否则降低该行为的概率

Policy-based Approach(基于策略的方法)

 

Policy-based Approach(基于策略的方法)

上一篇:深度学习(TensorFlow)环境搭建:(三)Ubuntu16.04+CUDA8.0+cuDNN7+Anaconda4.4+Python3.6+TensorFlow1.3


下一篇:方案优化:网站实现扫描二维码关注微信公众号,自动登陆网站并获取其信息