首页 > 其他 > 详细

A distributional code for value in dopamine-based reinforcement learning

时间:2020-07-08 19:39:04      阅读:81      评论:0      收藏:0      [点我收藏+]

郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布!

技术分享图片

技术分享图片

Abstract

  自引入以来,多巴胺的奖励预测错误理论已经解释了许多经验现象,为理解大脑中奖励和价值的表示提供了统一的框架1-3。 根据现在的规范理论,报酬预测表示为单个标量,它支持了解随机结果的期望值或均值。 在这里,我们提出了一种基于多巴胺的强化学习的方法,该方法受最近关于分布式强化学习的人工智能研究的启发4-6。 我们假设大脑不是以均值的方式代表未来可能的回报,而是以概率分布的方式来代表,可以有效地同时并行地代表多个未来成果。 这个想法暗示了一组经验预测,我们使用来自小鼠腹侧被盖区的单单位记录进行了测试。 我们的发现为神经网络实现分布强化学习提供了有力的证据。

 

A distributional code for value in dopamine-based reinforcement learning

原文:https://www.cnblogs.com/lucifer1997/p/13268115.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!