对于n1
,y
1
),(x
2
,y
2
),?,(x
n
,y
n
)},x
i
∈R
d
,y
i
∈R
\begin{equation}\mathbf{X}=\left[\begin{array}& x_1^\prime\\ x_2^\prime\\\vdots\\ x_n^\prime\end{array}\right]\quad y=\left(\begin{array}&y_1\\y_2\\\vdots\\y_n\end{array}\right)\end{equation}
我们想要拟合出y=\mathbf{X}\beta+\epsilon2
一、 最大似然估计
\epsilon
f(\epsilon)=\frac{1}{\sqrt{2\pi}\sigma}exp\{-\frac{\epsilon^2}{\sigma^2}\}=\frac{1}{\sqrt{2\pi}\sigma}exp\{-\frac{\|y-\mathbf{X}\beta\|^2}{\sigma^2}\}
似然函数:
L(\beta)=\prod_{i=1}^n\frac{1}{\sqrt{2\pi}\sigma}exp\{-\frac{(y_i-x_i^\prime\beta)^\prime(y_i-x_i^\prime\beta)}{\sigma^2}\}
log-似然函数:
l(\beta)=n\mathop{log}\frac{1}{\sqrt{2\pi}\sigma}-\sum_{i=1}^n\frac{(y_i-x_i^\prime\beta)^\prime(y_i-x_i^\prime\beta)}{\sigma^2}
令\frac{dl(\beta)}{d\beta}=0dβ
=0
′
X)β
^
ML
=X
′
y
其中\mathbf{X}^\prime\mathbf{X}′
X
′
y
充分统计量:直观来讲应该能够将样本中所有包含的关于未知参数的信息全部包括起来,这样的统计量就是充分统计量。具体的说,在统计量T
T 给定后,样本的条件分布已经不在依赖于参数\thetaθ 。数学定义:设有一个分布族\mathcal{F}=\{F\},(x_1,x_2,\cdots,x_n)F={F},(x 是从某总体F\in\mathcal{F}1
,x
2
,?,x
n
)
F∈F 中抽取的一个样本,T=T(x_1,x_2,\cdots,x_n)T=T(x 为一个(一维或多维)统计量,如果当给定T=t1
,x
2
,?,x
n
)
T=t 下, 样本(x_1,x_2,\cdots,x_n)(x 的条件分布于总体分布F1
,x
2
,?,x
n
)
F 无关,则称TT 为此分布族的充分统计量(sufficient statistic)。
假设(\mathbf{X}^\prime\mathbf{X})^{-1}′
X)
?1
\begin{align*}\hat{\beta}_{ML}&=(\mathbf{X}^\prime\mathbf{X})^{-1}\mathbf{X}^\prime y\\&=\mathbf{X}^\prime\mathbf{X}(\mathbf{X}^\prime\mathbf{X})^{-2}y\\&=\mathbf{X}^\prime\alpha\end{align*}
其中\alpha=\mathbf{X}(\mathbf{X}^\prime\mathbf{X})^{-2}y′
X)
?2
y
^
ML
=xX
′
α
二、最小二乘法
原则:使拟合出来的直线到各点的距离之和最小。其模型如下:
\begin{equation}\mathop{\min}\quad \sum_{i=1}^n(y_i-x_i^\prime\beta)^2\label{equ:leastSquare}\end{equation}
对式子\ref{equ:leastSquare}′
Xβ=X
′
y
′
X
^
LS
=(X
′
X)
?1
X
′
y
三、岭回归(Ridge regression)
当自变量之间存在多重相关性的时候,矩阵\mathbf{X}^\prime\mathbf{X}′
X
′
X|
1)从最大似然函数加上penalized -\lambda\|\beta\|^22
其中\epsilon
f(\epsilon)=\frac{1}{\sqrt{2\pi}\sigma}exp\{-\frac{\epsilon^2+\lambda\|\beta\|^2}{2\sigma^2}\}=\frac{1}{\sqrt{2\pi}\sigma}exp\{-frac{(y-x^\prime\beta)^2+\lambda\beta^\prime\beta}{2\sigma^2}\}
似然函数:
L(\theta)=\prod_{i=1}^n\frac{1}{\sqrt{2\pi}\sigma}exp\{-\frac{(y_i-x_i^\prime\beta)^2+\lambda\beta^\prime\beta}{2\sigma^2}\}
log-似然函数:
l(\theta)=n\mathop{log}\frac{1}{\sqrt{2\pi}\sigma}-\sum_{i=1}^n\frac{(y_i-x_i^\prime\beta)^2+\lambda\beta^\prime\beta}{2\sigma^2}
对log-似然函数求导得:
\frac{dl(\theta)}{d\theta}=-\mathbf{X}^\prime y+\mathbf{X}^\prime\mathbf{X}\beta+\lambda\beta=0 \Longrightarrow \mathbf{X}^\prime y=(\mathbf{X}^\prime\mathbf{X}+\lambda\mathbf{I})\hat{\beta_{ML}}
由于矩阵(\mathbf{X}^\prime \mathbf{X}+\lambda\mathbf{I}) 必定可逆,故:
\hat{\beta_{ML}}=(\mathbf{X}^\prime \mathbf{X}+\lambda\mathbf{I})^{-1}\mathbf{X}^\prime y
2)从贝叶斯角度
假设待考察的量遵循某概率分布,且根据这些概率及观察到的数据进行推断,以作出最优的决策。
贝叶斯公式:\mathbb{P}(h|D)=\frac{\mathbb{P}(h)\mathbb{P}(D|h)}{\mathbb{P}(D)}
.
最大后验概率(Maximum a Posteriori Probability,MAP):
h_{MAP}=\mathop{argmin}_{h\in H}\mathbb{P}(h|D)=\mathop{argmin}_{h\in H}\frac{\mathbb{P}(h)\mathbb{P}(D|h)}{\mathbb{P}(D)}=\mathop{argmin}_{h\in H}\mathbb{P}(h)\mathbb{P}(D|h)
假设\beta 服从先验分布\beta\sim N(0,\lambda^{-1}) ,则
\begin{align*}\mathop{\max}_{h\in H}\mathbb{P}(h|D)&=\frac{1}{\sqrt{2\pi}\sigma}exp\{-\frac{(y-\mathbf{X}\beta)^\prime(y-\mathbf{X}\beta)}{2\sigma^2}\}\frac{\sqrt{\lambda}}{\sqrt{2\pi}}exp\{-\frac{\beta^\prime\beta}{\frac{2}{\lambda}}\}\\ &=\frac{\sqrt{\lambda}}{2\pi\sigma}exp\{-\frac{(y-\mathbf{X}\beta)^\prime(y-\mathbf{X}\beta)}{2\sigma^2}-\frac{\lambda\beta^\prime\beta}{2}\}\end{align*}
\Longrightarrow\mathop{\min}\frac{(y-\mathbf{X}\beta)^\prime(y-\mathbf{X}\beta)}{2\sigma^2}+\frac{\lambda}{2}\beta^\prime\beta
令导数等于0\Longrightarrow \frac{-\mathbf{X}^\prime(y-\mathbf{X}\beta)}{\sigma^2}+\lambda\beta=0
\Longrightarrow (\mathbf{X}^\prime\mathbf{X}+\sigma^2\lambda\mathbf{I})\hat{\beta_{MAP}}=\mathbf{X}^\prime y
\Longrightarrow \sigma^2\lambda\hat{\beta_{MAP}}=\mathbf{X}^\prime y-\mathbf{X}^\prime\mathbf{X}\hat{\beta_{MAP}}=\mathbf{X}^\prime(y-\mathbf{X}\hat{\beta_{MAP}})
其中\alpha = (\sigma^2\lambda)^{-1}(y-\mathbf{X}\hat{\beta_{MAP}}) 。
由\sigma^2\lambda\alpha = y-\mathbf{X}\hat{\beta_{MAP}}=y-\mathbf{X}\mathbf{X}^\prime\alpha
\Longrightarrow (\sigma^2\lambda+\mathbf{X}\mathbf{X}^\prime)\alpha=y
\Longrightarrow \alpha=(\mathbf{X}\mathbf{X}^\prime+\sigma^2\lambda)^{-1}y=(\mathbf{K}+\lambda\sigma^2)^{-1}y
故我们只需要知道矩阵\mathbf{K}
即可计算出\alpha
和\beta
值。当我们将上述矩阵\mathbf{K}
替换成kernel矩阵,则可在更高维的空间进行回归,而且我们并不需要去关心这个映射的具体形式。
Jordan Lecture Note-4: Linear & Ridge Regression
原文:http://www.cnblogs.com/boostable/p/lec_linear_ridge_regression.html