首页 > 其他 > 详细

word2vec回顾

时间:2020-12-28 16:11:23      阅读:26      评论:0      收藏:0      [点我收藏+]

一:Softmax、Hierarchical Softmax、Negative Sampling结构

(一)Softmax

技术分享图片

技术分享图片

 

由softmax可以知道,每次求得一个词向量的概率,需要所有的参数(红色连线)参与(分母求和)。如何隐藏层大小为N:300,输出层为词向量维度V:1000,则每次更新的参数量为N*V=300000个。  

(二)Hierarchical Softmax

技术分享图片

可以看出,隐藏层和输出层的参数在结构上,无直接联系。隐藏层可以直接作为输入X处理,所有的参数都都是在霍夫曼树上面(霍夫曼树只需要在开始建立一次,后面结构不变,反复使用),我们每次更新的参数量大概就是log2V个(红线),其中V为词向量个数。

实现了将Softmax计算转为sigmoid计算,将softmax:V次 exp指数计算转为sigmoid:1次exp指数操作,实现加速!!

将Softmax的N分类变为了log(N)次二分类,更新的参数更少!!!

(三)Negative Sampling

技术分享图片

增大正样本的概率同时降低负样本的概率,在效果、效率上比层次softmax好!!!

每次更新的参数量是(正样本+负样本)×N,(其中负样本一般在3-10个,词向量越大,负样本越少),远小于softmax参数更新量,虽然参数量多于层次softmax,但是负采样的计算量并不大,并且最终效果好于层次softmax。

二:word2vec 中的数学原理详解(值得反复读)

我们不生产水,我们只是大自然的搬运工!!!

预备知识

背景知识

基于 Hierarchical Softmax 的模型

基于 Negative Sampling 的模型

word2vec回顾

原文:https://www.cnblogs.com/ssyfj/p/14200592.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!