分类
模型如下:

- 回归问题:学习的结果是连续的,比如房价等等
- 分类问题:学习的结果是非连续的,分成某几个类
梯度下降
例子:
:
条件:
- 对于输入X有n个特征值。X = {x1,x2,x3,x4,.......,xn}
- 一共有m组输入。X1,X2,......,Xm
结果:
- 根据给出的数据得到函数hθ(x),关于θ的一个函数

假设:

- J(θ)主要用来描述该方程在样本点的逼近程度
特点:
- 都具有局部最小值
- 最后的结果并不一定是总体的最小值
1.批梯度下降:
2.增量梯度下降:
迭代算法:

注意:
正规方程组
1.矩阵导数
2.最小二乘法
令J(θ) 偏导为 0 我们可以直接求出θ, 推导过程:

概率论解释
1.问题:
为什么在线性回归中我们要用最小二乘作为误差项,而不用三次方,四次方之类的。
2.解答:
设:
?(i)是误差项, ?(i) ~ N(0,σ2)
所以:
即: y(i)|x(i);θ ~ N(θTx(i),σ2)
用最大概然法:

理解:
我们把输入X,X = {x1,x2,x3,x4,.......,xn}看做一组样本,而Y是一组样本对应的观测值,而且由前面的推导我们可以知道该事件是符合y(i)|x(i);θ ~ N(θTx(i),σ2)。因此利用最大似然法我们可以求出未知参数θ,即最大化L(θ)。
- 在梯度下降中。最大化L(θ),就是最小化
即J(θ),因此我们让J(θ)的偏导作为增量更新θ,最后J(θ)的偏导近似为0时,我们认为迭代结束。
- 在上面最小二乘法中。最大化L(θ),也就是令l(θ)的偏导为0,因此我们可以直接求l(θ)的偏导为0,求出θ.
