首页 > 其他 > 详细

博弈论

时间:2016-06-05 18:50:11      阅读:178      评论:0      收藏:0      [点我收藏+]

为啥a有4个策略而b有3个策略?

技术分享

看到下面(树->矩阵)这个就了然了:

技术分享

强化学习的根本目的在于最大化奖励【optimize your long term expected reward(获得更多的奖励)】

MiniMAx

假设所有人都在寻求最优,达到最大化奖励

来吧,再加点不确定性进来~~愉快的玩耍吧~~~:

技术分享

Von Neumann冯·诺依曼提出的,哇塞,大牛就是腻害!!无处不在~~

ok,之前都是纯策略问题,下面再来看看综合策略问题~上图

技术分享

 

博弈论

原文:http://www.cnblogs.com/sxbjdl/p/5561319.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!