首页 > 其他 > 详细

文本表示模型

时间:2020-04-28 12:50:36      阅读:84      评论:0      收藏:0      [点我收藏+]

词袋模型、TF-IDF

词袋模型(BOW,Bag of Word),整段文本为一个向量,向量每一维度表示一个单词,每个数值对应这个词的重要程度。忽略顺序信息。

最简单的词袋模型就是统计每个词出现的次数,作为特征值。

常用 TF-IDF(term frequency–inverse document frequency)计算词袋模型的向量。

TF 是词频,TF(t, d) 表示单词 t 在文档 d 中出现的频率。IDF(t) 是逆文档频率,衡量单词 t 对语义的重要程度。包含 t 的文章数越多,说明它越通用,对语义贡献小。

技术分享图片

TF-IDF(t, d) = TF(t, d) × IDF(t)

 

词嵌入、word2vec

词嵌入(word embedding)为每个单词构造一组特征,语义近似的词汇被映射为相邻的数据点。

常用 word2vec 构成词向量模型,有 CBOW 和 Skip-Gram 两种浅层神经网络模型。

 

CBOW 模型通过上下文预测当前词的概率,Skip-Gram 通过当前词预测上下文词的概率。

在两个模型中,输入的单词使用 one-hot 编码,假设有n个单词,输入的维度就是n。

隐藏层中使用k个神经元,输入层到隐含层的权重矩阵w0的维度为n×k,隐含层到输出层的权重矩阵w1的维度为k×n。

训练完,选取w0、w1其中之一作为n个词的k维向量表示,最终得到的词向量维度是k。

 

主题模型:pLSA、LDA

再说。

文本表示模型

原文:https://www.cnblogs.com/sumuyi/p/12793359.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!