前提:
假设数据服从伯努利二次分布(0-1分布),通过极大化似然函数的方法,运用梯度下降来求解参数,将数据二分类。
sigmoid函数非凸函数。
定义:
概率分布:
目标是使得整个概率最大,加负号即求最小值,为计算方便,去对数:
是个凸函数,梯度下降法求最小值
上面是单个样本,计算所有样本的损失然后在取平均值
求最小值,使用极大似然法:
假设所有样本独立同分布,联合概率为所有样本概率之和:
对数似然:
极大似然法求极值,分别对w的每个参数求偏导=0,解方程,得到w
原文:https://www.cnblogs.com/pacino12134/p/11143992.html