A distributional code for value in dopamine-based reinforcement learning

时间：2020-07-08 19:39:04 阅读：82 评论：0 收藏：0 [点我收藏+]

郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！

技术分享图片

Abstract

　　自引入以来，多巴胺的奖励预测错误理论已经解释了许多经验现象，为理解大脑中奖励和价值的表示提供了统一的框架1-3。根据现在的规范理论，报酬预测表示为单个标量，它支持了解随机结果的期望值或均值。在这里，我们提出了一种基于多巴胺的强化学习的方法，该方法受最近关于分布式强化学习的人工智能研究的启发4-6。我们假设大脑不是以均值的方式代表未来可能的回报，而是以概率分布的方式来代表，可以有效地同时并行地代表多个未来成果。这个想法暗示了一组经验预测，我们使用来自小鼠腹侧被盖区的单单位记录进行了测试。我们的发现为神经网络实现分布强化学习提供了有力的证据。

A distributional code for value in dopamine-based reinforcement learning

原文：https://www.cnblogs.com/lucifer1997/p/13268115.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)