word2vec的简单理解

时间：2020-02-06 14:21:38 阅读：82 评论：0 收藏：0 [点我收藏+]

word2vec研究如何将词用向量表示，使用的两个重要模型——CBOW模型(Continuous Bag-of-Words Model)和Skip-gram模型(Continuous Skip-gram Model)，CBOW通过上下文预测中间词，Skip-gram对中间词预测它的上下文，本文只对CBOW进行介绍

词的向量表示

one-hot：语料库的词项个数为m，则one-hot表示的长度为m，只有一个位置是1，其余都是0
distributed representation：假设每个词项有d个特征，d远小于m，用d维向量表示每个词项

CBOW

CBOW 是 word2vec 中使用的浅层神经网络模型，语料库中词项和词项的上下文做为样本，Sample(Context(x), x)，对模型的参数进行训练，得到每个词项的向量表示

词的上下文 Context(x)

一个词出现的概率只与它前后固定数目(n)的词相关，n的取值与模型参数有关，可以参考：

n 模型参数数量

1

2

3

4

例子：我很爱学信息检索

如果n=2，则学的上下文Context(学)={ 很，爱，信息，检索 } 4 个词组成

n	模型参数数量
1
2
3
4

模型结构

技术分享图片

输入层

上下文词项的one-hot

隐藏层

对于一个样本Sample(Context(x), x)，将的one-hot向量与表示矩阵相乘，得到的当前表示向量，，将做为隐藏层的输出，是一个1*d的向量。

技术分享图片

输出层

隐藏层得到的1d向量与权重矩阵相乘，得到1m的向量，通过softmax处理后得到一个1*m的向量，为中间词出现的概率，概率最大的index指向的词项即为预测出的中间词，与真实值的one-hot向量做比较，根据误差更新权重矩阵。

损失函数

梯度下降更新W和，训练完毕后，W矩阵即为词向量矩阵，用一个词项的one-hot去乘W矩阵即得到这个词项的词向量

结构分析

参数数量：2*d*m个，d为词向量长度，m为词项个数，在语料库中m的值是很大的，对于一个样本(Context(x), x)，只有一个是正确的结果，其余的m-1个全是错误的结果，每次都对大量的错误结果进行权重更新是很耗时的

改进

思路：减少网络的参数个数和每次要更新的参数个数

负采样策略

对于词 w 的上下文Context(w)来预测w，Context(x)与x构成了一个正样本，Context(x)与别的词项就构成负样本，每次训练仅选择一小部分的负样本，对他们连接的权重进行更新，减少了每次训练需要更新的权重数量，应该选择多少，如何进行选择呢？大体思路是让出现频率高的词项更大概率被选做负样本。

采样率公式：

len(w)表示w应该被保留作为负样本的概率，counter(w)代表w在语料库中出现的次数，指数3/4是经验值

Hierarchical softmax的CBOW

分层softmax的CBOW将输出层改为树形结构

技术分享图片

建立哈夫曼树，使高频词项更靠近根节点，规定左孩子为负类，右孩子为正类，经过一个非叶子结点做了一次二分类，设隐藏层的输出为，经过每个非叶子结点被分到正类的概率为：

分到负类概率为：，每个非叶子结点上都有一个待定参数向量：，可以计算出到达值为1的结点x的概率：

目标函数：最大化，通过梯度上升（或者求的最小值，用梯度下降）更新的值，表示矩阵是最终得到的词向量矩阵。

参考文献

Efficient Estimation of Word Representations in Vector Space

word2vec的数学原理

word2vec的负采样

word2vec的简单理解

原文：https://www.cnblogs.com/lijianming180/p/12268198.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)