博弈论

时间：2016-06-05 18:50:11 阅读：185 评论：0 收藏：0 [点我收藏+]

为啥a有4个策略而b有3个策略？

技术分享

看到下面（树->矩阵）这个就了然了：

技术分享

强化学习的根本目的在于最大化奖励【optimize your long term expected reward(获得更多的奖励)】

MiniMAx

假设所有人都在寻求最优，达到最大化奖励

来吧，再加点不确定性进来~~愉快的玩耍吧~~~：

技术分享

Von Neumann冯·诺依曼提出的，哇塞，大牛就是腻害！！无处不在~~

ok，之前都是纯策略问题，下面再来看看综合策略问题~上图

技术分享

原文：http://www.cnblogs.com/sxbjdl/p/5561319.html

踩

(0)

评论一句话评论（0）

分享档案

更多>