首页 > 其他 > 详细

星座匹配之用户特征寻找相似用户

时间:2019-05-08 13:57:45      阅读:156      评论:0      收藏:0      [点我收藏+]

项目背景: 根据用户特征,寻找相似用户;

最开始想法:找到用户特征,使用余弦相似度寻找相似用户;
这个想法很base,不过会遇到一个非常大的问题,就是我这个项目将来是要覆盖全站用户,上亿用户的情况下,两两计算相似度,这个算法的复杂度是n的平方,是很大的,现在的计算资源是不支持的。

在这个时候,我在知乎看到一篇文章,文章的问题是,(Spark 千万级用户相似度计算?)[https://www.zhihu.com/question/265901363]

在这个问题中,我了解到对于大用户量的数据,我们在计算相似度的时候,使用LSH算法。

接下来我在搜索LSH算法的时候,看到了这篇文章规模数据的相似度计算:LSH算法
从这篇文章中,我了解到,当数据量和数据维度非常大的时候,计算相似度,我们使用两种方法来降低计算量,第一种方法是MInHashing 算法,这个算法主要是用来降低数据特征维度,第二种方法是LSH算法,
主要是用来降低用户量太大出现的问题。

对于LSH和minhashing 算法,看到了这样一个文章解释的很清楚minhash算法

在实际应用过程中,我们使用的是python的datasketch

星座匹配之用户特征寻找相似用户

原文:https://www.cnblogs.com/lzida9223/p/10831178.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!