郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布!
arXiv:1710.10044v1 [cs.AI] 27 Oct 2017
In AAAI Conference on Artificial Intelligence (2018).
Abstract
在强化学习中,智能体通过采取行动并观察下一个状态和奖励来与环境交互。当概率采样时,这些状态转换,奖励和动作都会在观察到的长期收益中引起随机性。传统上,强化学习算法会对此随机性求均值以估计价值函数。在本文中,我们以最近的工作为基础,该工作提倡一种采用分布方法进行强化学习的方法,在该方法中,对收益的分布进行了建模,而不是仅仅估计均值。也就是说,我们研究了学习价值分布而不是价值函数的方法。我们给出的结果弥合了Bellemare,Dabney和Munos(2017)给出的理论和算法结果之间的许多差距。首先,我们将现有结果扩展到近似分布设置。其次,我们提出了一种与我们的理论公式相一致的新颖的分布强化学习算法。 最后,我们在Atari 2600游戏上评估了该新算法,发现它大大优于DQN的许多最新改进,包括相关的分布式算法C51。
Distributional Reinforcement Learning with Quantile Regression
原文:https://www.cnblogs.com/lucifer1997/p/13278817.html