实际就是用在输入和输出之间加入一个shortcut连接,使用深度网络来学习输入到输入的残差,F(x)=H(x)-x;
这个想法的起源在于,在解决了梯度消失的问题后,深层网络的表现要差于较浅层,而深层网络的模型空间显然是大于浅层网络的,因此这个问题揭示了在非线性网络中,学习恒等映射是一个比较困难的事情,因此需要加入一个恒等映射网络
如果输入输出相同维度:y=F(x,{Wi})+x (1)
如果输入输出不同维度:y=F(x,{Wi})+Ws*x (2)
维度不同下包含两种shortcut
从上面的观察基本可以证明推断是正确的
原文:https://www.cnblogs.com/zhouyu0-0/p/11761965.html