词袋模型、TF-IDF
词袋模型(BOW,Bag of Word),整段文本为一个向量,向量每一维度表示一个单词,每个数值对应这个词的重要程度。忽略顺序信息。
最简单的词袋模型就是统计每个词出现的次数,作为特征值。
常用 TF-IDF(term frequency–inverse document frequency)计算词袋模型的向量。
TF 是词频,TF(t, d) 表示单词 t 在文档 d 中出现的频率。IDF(t) 是逆文档频率,衡量单词 t 对语义的重要程度。包含 t 的文章数越多,说明它越通用,对语义贡献小。
TF-IDF(t, d) = TF(t, d) × IDF(t)
词嵌入、word2vec
词嵌入(word embedding)为每个单词构造一组特征,语义近似的词汇被映射为相邻的数据点。
常用 word2vec 构成词向量模型,有 CBOW 和 Skip-Gram 两种浅层神经网络模型。
CBOW 模型通过上下文预测当前词的概率,Skip-Gram 通过当前词预测上下文词的概率。
在两个模型中,输入的单词使用 one-hot 编码,假设有n个单词,输入的维度就是n。
隐藏层中使用k个神经元,输入层到隐含层的权重矩阵w0的维度为n×k,隐含层到输出层的权重矩阵w1的维度为k×n。
训练完,选取w0、w1其中之一作为n个词的k维向量表示,最终得到的词向量维度是k。
主题模型:pLSA、LDA
再说。
原文:https://www.cnblogs.com/sumuyi/p/12793359.html