无监督学习一些算法的简要概括（一）-稀疏自编码

时间：2014-03-18 07:32:03 阅读：810 评论：0 收藏：0 [点我收藏+]

无监督学习（unsurpervised learning）是深度学习的基础，也是大数据时代科学家们用来处理数据挖掘的主要工具。个人理解的话就是数据太多，而人们不可能给每个数据样本加标签吧，所以才有了无监督学习。当然用的最多的是用无监督学习算法训练参数，然后用一部分加了标签的数据测试。这种方法叫半监督学习（semi-unsurpervised）。最近看的几个深度学习算法是：稀疏自编码(sparse auto-encoder)、稀疏限制玻尔兹曼机器（sparse RBM）、K-means 聚类和高斯混合模型。根据论文An Analysis of Single-Layer Networks in Unsupervised Feature Learning的实验结果，K-means聚类算法是准确率最高，而且不需要超参数（hyper-parameter）。

稀疏自编码（sparse auto-encoder）

提到自编码，就必须了解BP神经网络。而稀疏自编码是在自编码基础上加入了对隐藏单元活性（activition）的限制：即稀疏性参数ρ，通常是一个接近于0的较小值（比如ρ=0.05）。如果机器学习的基础比较薄弱的话，建议先看Andrew Ng 老师讲授的《机器学习》。

BP神经网络，是使用前向传播（forward propagation）、后向传播（backward propagation）来训练参数。这里给出前向传播和后向传播的公式，具体细节见参考资料：

前向传播（向量表示法）：

$bubuko.com,布布扣$

其中，f(x)称为激活函数（activation function）.可以或者激活函数

sigmoid函数:

$bubuko.com,布布扣$ 取值范围[0,1].它的导数就是 $bubuko.com,布布扣$

双曲正切函数:

$bubuko.com,布布扣$ 取值范围[-1,1]。它的导数是 $bubuko.com,布布扣$

（激活函数的导数在后向传播中会经常用到）

后向传播：

前向传播中，需要用到的参数W和b，是我们要训练的参数。我们可以利用批量梯度下降的方法求得（这部分需要熟悉机器学习中梯度下降部分）。给定一个包含m个样例的数据集，我们可以定义整体代价函数为：

$bubuko.com,布布扣$

其中， $bubuko.com,布布扣$ 第一项中的 $bubuko.com,布布扣$ 是一个均方差项；第二项则是一个正规化项，其目的是减少权值的幅度，防止过度拟合。

于是就有了梯度下降法中每一次迭代对W和b的更新：

$bubuko.com,布布扣$

其中α是学习速率。而关键步骤则是计算偏导数~这个，就是我们要讲的后向传播算法了。

整体代价函数的 $bubuko.com,布布扣$ 的偏导数：

$bubuko.com,布布扣$

现在对其分析可以知道::

bubuko.com,布布扣

于是，后向传播算法就是在说明针对第 $bubuko.com,布布扣$ 层的每一个节点 $bubuko.com,布布扣$ ，我们计算出其“残差” $bubuko.com,布布扣$ 。

天才的科学家们提出了如下的计算过程：

进行前馈传导计算，利用前向传导公式，得到 $bubuko.com,布布扣$ 直到输出层 $bubuko.com,布布扣$ 的激活值。

　　2.对于第 $bubuko.com,布布扣$ 层（输出层）的每个输出单元 $bubuko.com,布布扣$ ，我们根据以下公式计算残差：

$bubuko.com,布布扣$

3.对 $bubuko.com,布布扣$ 的各个层，第 $bubuko.com,布布扣$ 层的第 $bubuko.com,布布扣$ 个节点的残差计算方法如下：

$bubuko.com,布布扣$

　　4.计算我们需要的偏导数，计算方法如下：

$bubuko.com,布布扣$

最后，我们将对梯度下降算法做个全面总结。在下面的伪代码中， $bubuko.com,布布扣$ 是一个与矩阵 $bubuko.com,布布扣$ 维度相同的矩阵， $bubuko.com,布布扣$ 是一个与 $bubuko.com,布布扣$ 维度相同的向量。注意这里“ $bubuko.com,布布扣$ ”是一个矩阵，而不是“ $bubuko.com,布布扣$ 与 $bubuko.com,布布扣$ 相乘”。下面，我们实现批量梯度下降法中的一次迭代：

对于所有 $bubuko.com,布布扣$ ，令 $bubuko.com,布布扣$ , $bubuko.com,布布扣$ （设置为全零矩阵或全零向量）
对于到，
1. 使用反向传播算法计算 $bubuko.com,布布扣$ 和 $bubuko.com,布布扣$ 。
2. 计算 $bubuko.com,布布扣$ 。
3. 计算 $bubuko.com,布布扣$ 。
更新权重参数：

$bubuko.com,布布扣$