首页 > 其他 > 详细

Attention机制的解释

时间：2019-10-04 23:35:56 阅读：127 评论：0 收藏：0 [点我收藏+]

The Illustrated Attention

Attention

Seq2Seq 是一种由Encoder和Decoder组成的结构，可以将输入转化成一种中间形态并在Decoder输出；

而Attention则是解决方案，经典的是Bahdanau et al., 2014 and Luong et al., 2015.Attention可以使模型关注于输入序列中的需要关注的地方，即相关性高的部分。

以更加抽象而高层次的角度去看Attention机制，在以下两个方面，Attention和Seq2Seq不同：

Encoder传递了更多的数据给Decoder；现在不是将最后一个隐藏状态传给Decoder而是所有的隐藏状态。
Attention的Decoder在产生结果之前多进行了额外的步骤：
1. 查看它接收道德所有Encoder的隐藏状态（向量）
2. 给每一个隐藏状态一个得分
3. 通过Softmax计算每一个状态的权重，并进行乘积运算
可以看出主要区别在于Decoder的部分；

具体在Decoder的运行步骤如下：
1. 得到Encoder的输出，初始化Decoder的隐藏状态
2. RNN处理输入，产生输出和隐藏变量H，其中输出被丢弃
3. Attention Step：
  1. 使用Encoder的隐藏状态和刚产生的隐藏变量H计算Context Vector
  2. 将C和H连接
  3. 通过一个前馈网络传输
  4. 输出的结果就是这个时间步骤的输出单词
  5. Repeat

该模型不仅仅是将输出中的第一个单词与输入中的第一个单词对齐，而是在训练阶段学习到如何将两种语言的单词对应（翻译过程）。技术分享图片

得到以上结果。

Attention机制的解释

原文：https://www.cnblogs.com/billdingdj/p/11623486.html

踩

(0)

赞

(0)

举报

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)

最新文章

更多>

教程昨日排行

更多>

友情链接

汇智网 PHP教程插件网

关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com

© 2014 bubuko.com 版权所有

打开技术之扣，分享程序人生！