[IR课程笔记]向量空间模型（Vector Space Model）

时间：2015-10-18 15:31:57 阅读：533 评论：0 收藏：0 [点我收藏+]

VSM思想

把文档表示成R^|v|上的向量，从而可以计算文档与文档之间的相似度（根据欧氏距离或者余弦夹角）

那么，如何将文档将文档表示为向量呢？

首先，需要选取基向量/dimensions，基向量须是线性独立的或者正交的向量。

在IR系统中，有两种方式决定基向量：

1.核心概念的思想（core concept）：把词语的类型分类，按照其在不同分类上的“倾斜程度”决定向量的值。but，很难决定基向量。

2.把出现过的term（词语）都当作是一个基向量，假定所有的基向量都是相互正交相互独立的。以下我们采用这一种方式。

一个文档的向量表示就是：所有出现在文档中的term的向量之和。

如何决定权重？

1.在文档中，某个term出现记为1，不出现记为0.

2.tf方法（term frequency）：在某个文档中，记下term出现的频率（次数）。

3.tf-idf方法（inverse document frequency）：原始的词项频率会面临这样一个严重的问题：即在和查询进行相关度计算时，所有词项都被认为是同等重要的。实际上，某些词项对于相关度计算来说几乎没有或很少有区分能力。一个很直接的想法就是给文档集频率较高的词项赋予较低的权重。

df_t表示的是词项t出现在所有文档的数目

idf_{t = log(N/df_t) N表示的是所有文档数目。}

tf-idf_{t,d =}tf_t,d x idf_t

如何计算相似度？

1.欧式距离

2.余弦夹角

....

原文：http://www.cnblogs.com/leeshum/p/4889515.html

踩

(0)

评论一句话评论（0）

分享档案

更多>