首页 > 其他 > 详细

CV第六课

时间:2020-05-23 15:47:46      阅读:45      评论:0      收藏:0      [点我收藏+]

昨天写的因为没有及时发布,又丢失了,现在重写一遍重点。

 

1. activation functions

  技术分享图片

  1) 总结:一般都用ReLu,因为在x>0时,不会出现梯度消失

         可以尝试Leakly ReLu  ELU Maxout(参数加倍)  tanh(0-centered)

         不要用Sigmoid

  2)Sigmoid: 3个缺点

    1 当x太大或者太小时,函数切线斜率接近于0,在ChainRule,梯度传递时会出现梯度消失。

    2 不是0-centered,会导致Loss收敛速度慢,特别是sigmoid输出值都是正数 [ 0,1 ],导致input总是 all postive or all negative,在梯度选择时候不会选择下图的蓝线,而是红线。(这点不是很懂)

    3 exp() 函数 比较 compitational-expensive

              技术分享图片

  3)tanh:    1pos 1neg

    1 梯度消失

    2 0-centered

   4) ReLu       4pos   2neg

    1 x>0时不会出现梯度消失

    2 f(x) = max(0,x) computationally efficient

    3 比 sigmoid tanh 收敛快6倍

    4. 比sigmoid 更符合生物学原理

 

    1 x<0时 梯度消失

    2 不是0-centered

  5) Leaky ReLu / PReLu  /ELU / MAXOUT

    在 x<0时 不会梯度消失

 

2. Data Preprocessing

  技术分享图片

 

 

  1)  一般只做 0-centered 不做 Normalization。

     因为对于image的像素点来说  取值都属于[ 0,255 ]

  2) 可以按整张图来做平均,也可以按RGB三通道来做平均,但是平均值是所有输入的像素平均

    技术分享图片

 

 

3.Weight Initialization    

  numpy.random.randn()可以生成高斯分布的数

技术分享图片

 

 

  1)W = 0.01*np.random.randn(D,H)   

    1. 对 small networks可以, 对于deeper networks不太行

    技术分享图片

  2)W = 1.0*np.random.randn(D,H)   

 

     技术分享图片

 

  3) 需要 ‘/2’ 是因为ReLu在x<0初饱和,出现梯度消失 

   技术分享图片

 

CV第六课

原文:https://www.cnblogs.com/ChevisZhang/p/12942656.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!