首页 > 其他 > 详细

从公式的角度理解L2和L1正则

时间:2020-05-16 22:19:40      阅读:66      评论:0      收藏:0      [点我收藏+]

L2正则

$$C=C_0+\frac{\lambda}{n}\sum_{i=1}^n{w_i^2}$$

$$\frac{\partial C}{\partial w}=\frac{\partial C_0}{\partial w}+\frac{\lambda}{2n}w$$

\begin{equation}w\to w‘=w-\eta\frac{\partial C}{\partial w}=\left(1-\frac{\eta\lambda}{n}\right)w-\eta\frac{\partial C_0}{\partial w}\label{g1}\end{equation}

η是学习率,λ是正则系数,n是参数的个数。
L2 正则项的作用是使 w 在每次迭代时都 变小了 ηλ/n 倍。如果要使这个倍率不变,那么当参数个数增多(即 n 变大) 时,正则项系数 λ 也应该相应调大。

L1正则

 $$C=C_0+\frac{\lambda}{n}\sum_{i=1}^n{|w_i|}$$

$$\frac{\partial C}{\partial w}=\frac{\partial C_0}{\partial w}+\frac{\lambda}{n}\textrm{sgn}(w)$$

$$\textrm{sgn}(w)=\left\{\begin{matrix}1 & \textrm{if}\;w\geqslant 0\\0 & \textrm{if}\;w<0\end{matrix}\right.$$

$$w \to w-\frac{\eta\lambda}{n}\textrm{sgn}(w)-\eta\frac{\partial C_0}{\partial w}=w\pm\frac{\eta\lambda}{n}-\eta\frac{\partial C_0}{\partial w}$$

当w是小于1的正数时,L1正则的效果是使w减小ηλ/n ,即相比于L2正则w减小得更多,L1正则使(0,1)上的w快速向0逼近。当w位于(-1,0)时,L1正则的效果是使w增大ηλ/n,也是快速向0逼近。总的来说L1 正则的效果是使不重要的 w (绝对值小的w)几乎衰减为 0。

从公式的角度理解L2和L1正则

原文:https://www.cnblogs.com/zhangchaoyang/p/12902212.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!