首页 > 其他 > 详细

李弘毅的强化学习

时间:2019-06-09 01:57:55      阅读:149      评论:0      收藏:0      [点我收藏+]

1\policy Gradient(Review)

  三个组件:Actor\Enviroment\Reward

  Enviromwnt和Reward开始之前就已经存在,能调整的就是Actor的策略,如何是Actor的策略可以得到最大的Reward.

2\Policy of Actor

  policy:π,是带有参数的network

  input:机器可以理解的数据,矢量或者矩阵

  output:动作的选项,有几个就是有几个neuron.network给这几个动作权值.权值不同,采取的policy就不同.

  流程:Actor-->环境--->判断结果采取action,采取Action之后会得到reward

李弘毅的强化学习

原文:https://www.cnblogs.com/smartmsl/p/10992342.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!