首页 > 系统服务 > 详细

CS229 - MachineLearning - 12 强化学习笔记

时间:2017-11-17 20:44:59      阅读:266      评论:0      收藏:0      [点我收藏+]

Ng的机器学习课,课程资源: cs229-课件    网易公开课-视频

问题数学模型:

五元组{S、a、Psa、γ、R},分别对应 {状态、行为、状态s下做出a行为的概率、常数、回报}。

优化目标:

选择一个policy以获得最佳报酬:E[R(s0)+γR(s1)+γ2R(s2)+......],常数γ的存在可以保证尽量快地获得收益。

优化函数:

技术分享图片

根据贝尔曼方程,

技术分享图片

R(s)表示执行此策略获得的直接收益,后面那一堆是执行了此策略以后再后面的行为获得的收益。

最优策略满足:

技术分享图片 技术分享图片

 那么在s状态下的最有策略是满足以下等式的行为:

技术分享图片

这样,就可以迭代计算了。

求解方法:

技术分享图片

但实际操作中Psa是未知的,所以需要先统计次数,针对课上举的机器人移动的例子,Ng解释说可以先让机器人随便走,统计到达每个状态的次数。

技术分享图片

所以强化学习的完整实现过程是这样:

技术分享图片

 

CS229 - MachineLearning - 12 强化学习笔记

原文:http://www.cnblogs.com/zhengmeisong/p/7853175.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!