文本表示模型

时间：2020-04-28 12:50:36 阅读：85 评论：0 收藏：0 [点我收藏+]

词袋模型、TF-IDF

词袋模型（BOW，Bag of Word），整段文本为一个向量，向量每一维度表示一个单词，每个数值对应这个词的重要程度。忽略顺序信息。

最简单的词袋模型就是统计每个词出现的次数，作为特征值。

常用 TF-IDF（term frequency–inverse document frequency）计算词袋模型的向量。

TF 是词频，TF(t, d) 表示单词 t 在文档 d 中出现的频率。IDF(t) 是逆文档频率，衡量单词 t 对语义的重要程度。包含 t 的文章数越多，说明它越通用，对语义贡献小。

TF-IDF(t, d) = TF(t, d) × IDF(t)

词嵌入、word2vec

词嵌入（word embedding）为每个单词构造一组特征，语义近似的词汇被映射为相邻的数据点。

常用 word2vec 构成词向量模型，有 CBOW 和 Skip-Gram 两种浅层神经网络模型。

CBOW 模型通过上下文预测当前词的概率，Skip-Gram 通过当前词预测上下文词的概率。

在两个模型中，输入的单词使用 one-hot 编码，假设有n个单词，输入的维度就是n。

隐藏层中使用k个神经元，输入层到隐含层的权重矩阵w0的维度为n×k，隐含层到输出层的权重矩阵w1的维度为k×n。

训练完，选取w0、w1其中之一作为n个词的k维向量表示，最终得到的词向量维度是k。

主题模型：pLSA、LDA

再说。

原文：https://www.cnblogs.com/sumuyi/p/12793359.html

踩

(0)

评论一句话评论（0）

分享档案

更多>