机器学习与数据分析课程笔记-分类-logistic回归

时间：2020-05-29 14:23:30 阅读：50 评论：0 收藏：0 [点我收藏+]

logistic回归虽然被称为回归但是其实它时常用于分类。

什么是分类?

常见的分类以下例子:

判断肿瘤良性恶性
判断在线交易是否是伪交易
判断明天是否下雨

技术分享图片

回答都是（Yes或者No），相当于将数据分为两类。分别用0和1代表，0代表负类，1代表正类

技术分享图片

逻辑回归主要解决二分类问题，逻辑回归在线性回归的基础上进行了变换。logistic回归在线性回归的基础上，进一步变换，使得模型假设的取值范
围在[0，1]

逻辑回归如何进行分类？

逻辑回归的输出是一个[0,1]之间的数，如果那个数靠近0，那么我们就认为其属于负例，如果靠近1，那么就认为它属于正例。

逻辑回归如何将线性回归的值放到[0,1]之间的呢？

找一个单调可微函数将分类任务的真实标记y与线性回归模型的预测值联系起来
技术分享图片

如何找这样的函数呢？

1.单位阶跃函数

技术分享图片

这样变换，得到的输出值，仅能取[0,0.5,1]三个数。所以该函数不连续，求导比较麻烦。

2.对数几率函数

技术分享图片

该函数可以将一个任意大小的输入变换到[0,1]之间的输出。

注意：当x->正无穷或者x->负无穷的时候，该函数输出无限接近1或者0，而非等于1或者0.

该函数的求导:

技术分享图片

逻辑回归在线性变换的基础上，用对数几率函数变换一下，得到输出。进而y在[0,1]之间，z是线性变换得到的结果，将z代入g得到[0,1]之间的数:

技术分享图片

对于y进行变换一下:

技术分享图片

在变换一下

技术分享图片

两边取对数

技术分享图片

1.式子左边，y是逻辑回归输出，y处于[0,1]之间，y代表一个概率，代表输入样本x是正例的概率，1-y就是样本负例的概率 ,y/1-y是叫做几率，几率反应了反映了x作为正例的相对可能性;求对数得到“对数几率”，又称logit，所以逻辑回归又称为对数几率回归。

由上式可以看出，实际是在用线性回归模型的结果逼近真实标记的对数几率

技术分享图片

比如以肿瘤预测为例子:

技术分享图片

x是输入
x0恒为1
x1是大小
hθ=0.7代表70%的几率该肿瘤是恶性的

技术分享图片
得到结果可以写为在给定样本和参数情况下，输出为1的概率，也称输出为1的概率为0.7，因此用逻辑回归做分类，不仅可以告诉我们属于那个类，还可以告诉我们属于该类的概率多大。

logistic回归的决策边界

什么是决策边界：决策边界是处在边界上的一些点在二分类的时候被分为正例或者负例的几率是一样的

技术分享图片

1.xθ是线性回归的预测结果，当其值>0的时候，经过logistics函数之后输出>0.5,也就是预测其为正例的概率>0.5
2.xθ是线性回归的预测结果，当其值<0的时候，经过logistics函数之后输出<0.5,也就是预测其为正例的概率<0.5
3.xθ是线性回归的预测结果，当其值=0的时候，经过logistics函数之后输出=0.5,也就是预测其为正例的概率=0.5,和预测负例概率一样

技术分享图片

二维平面上：xθ是一条直线，在它上面的点属于正例，在它下面的点属于负例

技术分享图片

多维情况下：

1.线性模型y=θ0+θ1x1+θ2x2
2.当参数依次是[-3,1,1]的时候，令其为0，得到 -3+x1+x2=0
3.绘制该直线再平面上，可以看出该直线将样本分开了，直线上面的是正样本，直线下面的是负样本

更高维度的空间：比如三维，决策边界是一个平面，该平面上面正类，下面是负类

技术分享图片

更高维度的空间，比如n维，我们是画不出来的，但是我们可以想象有一个超平面将正样本和负样本分开。

非线性决策边界

若特征组合是非线性函数(多项式)，那么它的决策边界是怎样的？
例如：
技术分享图片

我们代入参数并令该函数为0得到，决策边界是一个球面，对应到二维是一个圆：

技术分享图片

如果我们的模型是一个更复杂的模型，那么得到的决策边界会更复杂：

技术分享图片

逻辑回归的代价函数

1.我们有包含m个训练样本的监督训练集:

技术分享图片

其中每个x写出列向量的形式：x0为1，y是[0,1]也就是分类结果

技术分享图片

我们的假设为:

技术分享图片

问题是找到参数，使得模型假设都能输出正确的值，所以要构造损失函数

我们已知线性回归函数的损失函数：

技术分享图片

逻辑回归的损失函数也能用线性回归的损失函数吗？

技术分享图片

1.对logistic回归这个cost function是非凸的
2.对于凸优化我们有现成的算法，非凸函数不好优化

逻辑回归的损失函数是：

技术分享图片

样本真实label是1的话，hθ代表模型输出，我们希望模型输出尽可能接近1，如果模型预测输出特别接近1的话，那么损失的函数的值就接近于0代价非常少，也就是惩罚很小，如果这种情况下，hθ输出非常的接近于0的数，那么损失函数的值就会究极大，惩罚很大
样本的真实值为0的情况下，我们希望模型输出接近于0，如果模型输出接近于0，那么损失函数值很小，否则就很大

总之，如果输出与预期不一致的话，损失函数的值就会特别的大，也就是惩罚特别大，否则的话惩罚就会很小，损失函数的值就会非常小。

该损失函数是一个分段函数，但是实际上我们求导的过程中，并不希望其是分段函数，所以将其合起来：

技术分享图片