nlp学习杂记

时间：2019-10-20 20:22:07 阅读：66 评论：0 收藏：0 [点我收藏+]

什么是 token embedding？

输入一个word，在字典里查找得到它对应的下标就是token，然后用该数字下标去lookup表查找得到该词对应的词向量(词嵌入)就是embedding

词袋模型（Bag of Words, BOW）

词袋模型就是将句子分词，然后对每个词进行编码，常见的有one-hot、TF-IDF、Huffman编码，假设词与词之间没有先后关系。

词向量模型是用词向量在空间坐标中定位，然后计算cos距离可以判断词于词之间的相似性。

输入是某一个特征词的上下文相关的词对应的词向量，而输出就是这特定的一个词的词向量，即先验概率。

Skip-Gram模型和CBOW的思路是反着来的，即输入是特定的一个词的词向量，而输出是特定词对应的上下文词向量，即后验概率。

原文：https://www.cnblogs.com/duoba/p/11708455.html

踩

(0)

评论一句话评论（0）

分享档案

更多>