首页 > 其他 > 详细

<强化学习>开门帖

时间:2020-02-08 11:34:56      阅读:56      评论:0      收藏:0      [点我收藏+]

今天是2020年2月7日,开始二刷david silver ulc课程.

david silver课件汇总:(共10节课)

http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html

 

 

一些小总结:

1.强化学习不同于其他机器学习算法,它们的基础理论可以说正交.其他的机器学习算法大多在贝叶斯理论的基础上发展而来.而强化学习是以马尔可夫决策过程MDP<S,A,R,seta,P>为基础而来.它依靠反馈有一定延时的Reward激励信号而学习.

2.马尔可夫性: 未来stage只受当前stage影响,而与过去stage无关.

<强化学习>开门帖

原文:https://www.cnblogs.com/dynmi/p/12275062.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!