首页 > 其他 > 详细

梯度消失和梯度爆炸(待改进)

时间:2019-03-02 12:11:26      阅读:189      评论:0      收藏:0      [点我收藏+]

梯度消失

在反向传播过程中,中间层梯度在传播过程中的绝对值越来越小,使得训练的网络停滞不前。

例如用sigmoid或者tanh非线性,在输入的绝对值很大的时候,会出现“饱和”,即导数趋近于0,造成梯度消失。

ReLu非线性可避免这个情况,因为ReLu不会出现饱和,在激活后导数恒定为1。但在输入为负数时,导数为0,称为死ReLu,往往实在学习率过大时出现,可使用PReLu和RReLu等变种解决,使ReLu在输入为负数时有少量导数。

梯度爆炸

在反向传播过程中,中间梯度在传播过程中的绝对值越来越大,使网络不稳定,性能崩溃。

例如在初始化网络使,参数过大,是网络的权重随着训练越来越大,发生梯度爆炸,在RNN和GAN中较为容易出现这种现象。

改善梯度技巧

批规范化BN,残差网络ResNet,梯度阶段。

梯度消失和梯度爆炸(待改进)

原文:https://www.cnblogs.com/cold-city/p/10460317.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!