https://www.infoq.cn/article/lteUOi30R4uEyy740Ht2,这个后半部分讲的不错!
(N=6 层,每层包括 2 个 sub-layers):
上面这个图真的讲的十分清楚了。
transformer的encoder和decoder分开学习
原文:https://www.cnblogs.com/BlueBlueSea/p/13137841.html