斯坦福CS229机器学习课程笔记 part3：Greneralized Linear Models (GLMs) 广义线性模型

时间：2018-11-02 15:19:40 阅读：220 评论：0 收藏：0 [点我收藏+]

Generalized Linear Model (GLM) 广义线性模型

这一段主要讲的是广义线性模型的定义和假设，为了看明白逻辑回归，大家要耐着性子看完。

1.The exponential family 指数分布族

因为广义线性模型是围绕指数分布族的，因此需要先介绍，用NG大神的话说就是，“虽然不是全部，但是我们见过的大多数分布都属于指数分布族，比如：Bernoulli伯努利分布、Gaussian高斯分布、multinomial多项分布、Poisson泊松分布、gamma分布、指数分布、Dirichlet分布……”服从指数分布族的条件是概率分布可以写成如下形式：

η 被称作natural parameter，它是指数分布族唯一的参数
T(y) 被称作sufficient statistic，很多情况下T(y)=y a(η) 被称作 log partition function
T函数、a函数、b函数共同确定一种分布
接下来看一下为什么说正态分布（高斯分布）属于指数分布族：
正态分布（正态分布有两个参数μ均值与σ标准差，在做线性回归的时候，我们关心的是均值而标准差不影响模型的学习与参数θ的选择，因此这里将σ设为1便于计算）

2.构成广义线性模型的三个假设

p(y | x; θ) ∼ ExponentialFamily(η). 输出变量基于输入变量的条件概率分布服从指数分布族
our goal is to predict the expected value of T(y) given x. 对于给定的输入变量x，学习的目标是预测T(y)的期望值，T(y)经常就是y
The natural parameter η and the inputs x are related linearly: η = θT x. η和输入变量x的关联是线性的：η = θT x

这三个假设其实指明了如何从输入变量映射到输出变量与概率模型，举例来说：线性回归的条件概率分布为正态分布属于指数分布族（参考笔记一中线性回归的似然函数部分）；我们的目标是预测T(y)的期望，由上面的计算我们知道T(y)=y，而y的期望值也就是正态分布的参数μ；由上面的计算我们知道μ=η，而η=θT x。因此，线性回归是广义线性回归的一个特例，它的模型是：

指数分布族(Exponential family distributions)

指数族：

p (y; η) = b (y) e x p (η T T (y) - a (η))

其中，
η被称作自然参数或正则参数(natural parameter/canonical parameter);
$T (y)$

伯努利分布(Bernoulli)的指数分布族

技术分享图片
本例中η为标量，所以 $η = l o g (φ / (1 - φ))$

$T (y)$

。
这样我们就得到了一个logistic函数，也说明了伯努利分布的参数φ与自然参数η存在特定的关系。
指数分布族：
技术分享图片

高斯分布(Gaussian)的指数分布族

在学习线性回归时，发现高斯分布的方差对最终结果并没有任何影响。所以为了简化问题，令 $σ^{2} = 1$

。
技术分享图片
指数分布族：

以下分布也都可以写成指数分布族的形式：
多项式分布(multinomial)
泊松分布(poisson)：用于计数的建模。
伽马分布(gamma)，指数分布(exponential):用于对正数建模，多用于间隔问题。
β分布，Dirichlet分布：用于对小数建模。