强化学习3-蒙特卡罗

时间：2019-02-17 16:03:47 阅读：300 评论：0 收藏：0 [点我收藏+]

之前讲到强化学习可以用马尔科夫决策过程来描述，通常情况下，马尔科夫需要知道 {S A P R γ}，γ是衰减因子，那为什么还需要蒙特卡罗呢？

首先什么是蒙特卡罗？

蒙特卡罗实际上是一座赌城的名字，蒙特卡罗方法是冯诺依曼用这座赌城的名字起的。

蒙特卡罗方法的主要思想是：当求解的问题是某随机事件出现的概率，或者某随机变量的期望时，可以采用多次采样，以该事件出现的频率来估计其概率，以该变量的均值来估计其期望。并以此来代替问题的解。

那么为什么要用蒙特卡罗方法？

在真实的场景中，我们经常没法确定状态转移概率P，或者根本就是完全随机，那么我们就无法计算该状态的价值函数，但是依然要解决这类问题，怎么办？

一个可行的思路是：虽然没有状态转移概率，但是这个概率是存在的，或者说通过一个动作一定能够使该状态转换到另一个状态，那么我们可以重复试验很多次，然后求该状态每次试验的价值平均，这就是蒙特卡罗思想。

下面来具体看看蒙特卡罗的数学描述

1.首先蒙特卡罗问题的使用条件{S A γ} , 无需状态转移概率P , 和即使奖励R , 当然有 π（pai）是策略评估，预测问题，无π 是策略优化，控制问题。

2.蒙特卡罗是通过试验来计算价值函数的，根据贝尔曼方程，v_π(s)=E_π(R_t+1+γR_t+2+γ²R_t+3+...|S_t=s) , 需要知道整个回合episode的奖赏R , 而且有些情况下不到最后是没有奖赏的，如下棋，完了才有输赢，故蒙特卡罗需要生成整个回合。即每次试验要从起点到终点。

当然起点和终点不一定是固定的，根据具体规则来确定，如下棋，起点不一定就是开局，也可以从中间某步开始，比如街边老头摆的棋阵，再如走迷宫，可以有多个入口，多个出口，只要从大家公认的起点到终点，就算走出迷宫。

仔细思考下，会发现如下几个问题

1. 在走迷宫时，可能经常会出现在同一个位置，绕来绕去，这相当于某个状态在整个回合中多次出现，也有可能某个状态在整个回合中没有出现，那么这种情况如何处理呢？下面会讲到。

2.生成完整序列 S₁,A₁,R₂, | S₂,A₂,R₃|...S_t,A_t,R_t+1|,...S_t-1,A_t-1,R_T, | S_{T ,}最终状态没有动作和奖励，然后根据贝尔曼方程把 R 加起来，但是这里的 R 明明应该是动作价值函数，为什么可以用来求状态价值？

解答：

首先，状态价值函数 v_π(s)=∑_a_∈_Aπ(a|s)q_π(s,a) ，动作价值函数的加权和；

其次，在我们生成完整序列时，在某状态下是根据我们未知（控制）或已知（预测）的策略来选择动作，从而转换到下一个状态，那么重复多次试验，在该状态转换到下一个状态的既定事实是符合 π 的，

如在s时的策略 1/3 选a ， 2/3 选b，那我们重复3次试验，最后的结果应该是 1次 s a s‘, 2次 s b s‘‘, 然后把这些动作价值函数加起来， q₁+q₂+q₂ = 1/3 q₁ + 2/3q₂= π * q　

### 需要搞清楚一点是：

策略评估求的是状态价值函数，因为策略已定，就是看这种策略下的价值大小，

而策略平均求的是动作价值函数，因为目的是找策略，就是看每个状态下不同动作的价值大小

下面我们来看看蒙特卡罗方法解决策略评估问题，顺便解决上个问题1

1 条件 {S A γ}

2.生成完整序列 S₁,A₁,R₂, | S₂,A₂,R₃|...S_t,A_t,R_t+1|,...S_t-1,A_t-1,R_T, | S_{T 　　生成多个}

3.计算价值函数　　在每个完整序列中计算每个状态的价值函数，然后更新

　　对比马尔科夫决策过程， $v_{π} (s) = E_{π} (G_{t} | S_{t} = s) = E_{π} (R_{t + 1} + γ R_{t + 2} + γ^{2} R_{t + 3} + . . . | S_{t} = s)$

　　可以看出每个状态的价值函数等于所有该状态收获的期望，同时这个收获是通过后续的奖励与对应的衰减乘积求和得到。注意：这个时候v是真实的，真实的平均。

　　那么对于蒙特卡罗法来说，如果要求某一个状态的状态价值，只需要求出所有的完整序列中该状态出现时候的收获再取平均值即可近似求解，注意：这个时候v只是估计，因为你就试验了几次，不代表全部

　　 $G_{t} = R_{t + 1} + γ R_{t + 2} + γ^{2} R_{t + 3} + . . . γ^{T - t - 1} R_{T}$

v π (s) \approx a v e r a g e (G t), s . t . S t = s

此时就会碰到上述问题1

/ 如果在该回合中没有出现某状态，则在该回合遍历是忽略该状态的更新

/ 如果在该回合中多次出现某状态，有两种处理方式 first visit和every visit

// first visit ：只计算第一次出现时的价值

技术分享图片

强化学习3-蒙特卡罗

原文：https://www.cnblogs.com/yanshw/p/10391106.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)