首页 > 其他 > 详细

DQN(Deep Reiforcement Learning) 发展历程(一)

时间：2019-02-26 11:43:22 阅读：187 评论：0 收藏：0 [点我收藏+]

目录

马尔可夫理论
参考

DQN发展历程(一)

DQN发展历程(二)

DQN发展历程(三)

DQN发展历程(四)

DQN发展历程(五)

马尔可夫理论

马尔可夫性质

P[St+1 | St] = P[St+1 | S1,...,St]
给定当前状态 St ，过去的状态可以不用考虑
当前状态 St 可以代表过去的所有状态
给定当前状态的条件下，未来的状态和过去的状态相互独立。

马尔可夫过程(MP)

形式化地描述了强化学习的环境。
包括二元组(S,P)
根据给定的转移概率矩阵P，从当前状态St转移到下一状态St+1，
基于模型的（Model-based）：事先给出了转移概率矩阵P

马尔可夫奖励过程(MRP)

和马尔可夫过程相比,加入了奖励r，加入了折扣因子gamma，gamma在0～1之间。
马尔可夫奖励过程是一个四元组?S, P, R, γ?
需要折扣因子的原因是
- 使未来累积奖励在数学上易于计算
- 由于可能经过某些重复状态，避免累积奖励的计算成死循环
- 用于表示未来的不确定性
- gamma越大表示越看中未来的奖励

值函数（value function）

引入了值函数（value function），给每一个状态一个值V，以从当前状态St到评估未来的目标G的累积折扣奖励的大小

MRP求解

v = R + γPv （矩阵形式）
直接解出上述方程时间复杂度O(n^3), 只使用于一写小规模问题

马尔可夫决策过程（MDP）

加入了一个动作因素a，用于每个状态的决策
MDP是一个五元组?S, A, P, R, γ?
策略policy是从S到A的一个映射

效用函数

相比于值函数，加入了一个动作因素

优化的值函数

为了求最佳策略，在值函数求解时，选择一个最大的v来更新当前状态对应的v

贝尔曼等式

和值函数的求解方法相比，不需要从当前状态到目标求解，只需要从当前状态到下一状态即可（根据递推公式）

参考

david siver 课程

https://home.cnblogs.com/u/pinard/

DQN(Deep Reiforcement Learning) 发展历程(一)

原文：https://www.cnblogs.com/vancasola/p/10436154.html

踩

(0)

赞

(0)

举报

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)

最新文章

更多>

教程昨日排行

更多>

友情链接

汇智网 PHP教程插件网

关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com

© 2014 bubuko.com 版权所有

打开技术之扣，分享程序人生！