首页 > 其他 > 详细

强化学习_基础补充

时间:2019-07-09 16:17:39      阅读:120      评论:0      收藏:0      [点我收藏+]

1、Actor-Critic\TRPO\PPO算法都属于on-policy(类似重要性采样,old_pi还是自己的策略),DDPG是off-policy

2、on-policy数据用完就丢掉了,off-policy会用到经验回放(很大的存储上限,有收集样本和采集样本两个过程,采用均匀采样)

3、on-policy有一个缺点是交互序列导致前后相关性强,基于极大似然方法的机器学习模型要求训练样本是独立的且来自同分布,若不成立效果打折扣。

 

强化学习_基础补充

原文:https://www.cnblogs.com/lin-kid/p/11157986.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!