郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布!
Abstract
自引入以来,多巴胺的奖励预测错误理论已经解释了许多经验现象,为理解大脑中奖励和价值的表示提供了统一的框架1-3。 根据现在的规范理论,报酬预测表示为单个标量,它支持了解随机结果的期望值或均值。 在这里,我们提出了一种基于多巴胺的强化学习的方法,该方法受最近关于分布式强化学习的人工智能研究的启发4-6。 我们假设大脑不是以均值的方式代表未来可能的回报,而是以概率分布的方式来代表,可以有效地同时并行地代表多个未来成果。 这个想法暗示了一组经验预测,我们使用来自小鼠腹侧被盖区的单单位记录进行了测试。 我们的发现为神经网络实现分布强化学习提供了有力的证据。
A distributional code for value in dopamine-based reinforcement learning
原文:https://www.cnblogs.com/lucifer1997/p/13268115.html