首页 > 其他 > 详细

DRL之:策略梯度方法 (Policy Gradient Methods)

时间:2016-08-01 15:48:08      阅读:427      评论:0      收藏:0      [点我收藏+]

  

策略梯度方法(Policy Gradient Methods)

 

  前面介绍了很多关于 state or state-action pairs 方面的知识,为了将其用于控制,我们学习 state-action pairs的值,并且将这些值函数直接用于执行策略和选择动作.这种形式的方法称为:action-value methods.

  下面要介绍的方法也是计算这些 action (or state) values,但是并非直接用于选择 action, 而是直接表示该策略,其权重不依赖于任何值函数.

  1.1 Actor-Critic Methods.

  Actor-critic methods 是 TD方法,有一个独立的记忆结构来显示的表示策略,而与 value function 无关.该策略结构称为:actor,因为其用于选择动作,预测的值函数被称为:critic,因为其用于批判 actor 执行的动作.学习是on-policy的: the critic must learn about and critique whatever policy is currently being followed by the actor. The critique takes the form of a TD error. 尺度信号是单纯的 critic 的输出,并且引导 actor and critic 的学习,像下图所示:

技术分享

  

  Actor-critic methods 是 gradient-bandit methods自然的拓展到 TD-learning和全部的RL学习问题.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

DRL之:策略梯度方法 (Policy Gradient Methods)

原文:http://www.cnblogs.com/wangxiaocvpr/p/5725685.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!