Gae&reward shaping

时间：2019-09-14 14:19:59 阅读：120 评论：0 收藏：0 [点我收藏+]

1| reward. shaping

如果对vs有大致的认知，把势能potential-based定义为估计的最优价值函数，能加快价值函数收敛

技术分享图片

2、gae：广义优势估计

absorb state:terminal state

GAE(Generalized Advantage Estimation)

GAE的作用
- GAE的意思是泛化优势估计，因而他是用来优化Advantage Function优势函数的。
- GAE的存在是用来权衡variance和bias问题的：
  - On-policy直接交互并用每一时刻的回报作为长期回报的估计
  - 而通过基于优势函数的AC方法来进行回报值估计，则会产生方差较小，而Bias较大的问题。
GAE 推导

满足
GAE形式

GAE的形式为多个价值估计的加权平均数。

? 为了快速估计序列中所有时刻的估计值，采用倒序计算，从t+1时刻估计t时刻：

原文：https://www.cnblogs.com/lin-kid/p/11199380.html

踩

(0)

评论一句话评论（0）

分享档案

更多>