首页 > 其他 > 详细

30天了解30种技术系列(17)---词关系分析神器Word2vec

时间:2015-08-26 02:39:35      阅读:451      评论:0      收藏:0      [点我收藏+]

? ?

? ?我本人是自然语言处理的从业者,同时也是非常非常热爱自然语言处理技术。所以分享一个我平常使用的工具-Word2vec.

?

? Word2vec 是由Google开源,基于deep-learning 技术可以将单词转换成向量形式的工具。然后通过向量空间技术计算词的相似度。但是需要注意的是该模型其实更是一个神经网络模型,所以离这个Deep Learning?稍微差一些。

?

? word2vec的官方地址:https://code.google.com/p/word2vec/,下载好代码后进行编译即可。

?

? 如果是中文,需要先找一个分词工具对词进行分词,可以用jieba(这个。。),阿里,ANSJ

? 通过以下方式可以对结果集,进行处理

??

nohup ./word2vec -train resultbig.txt -output vectors.bin -cbow 0 -size 200 -window 5 -negative 0 -hs 1 -sample 1e-3 -threads 12 -binary 1 &

##相似此计算
/distance vectors.bin

?

?

? 以下使用81万条样本处理过后,得到的结果,从结果可以看出,屏幕的近似词为显示屏,电脑屏幕,还是相当的精准的。

? ?
bubuko.com,布布扣
?

? 有了这个以后,咱们就可以构建词的关系网络,如android 有关系的词,在海量文本数据里面是一种非常有效的前期数据处理工具。

?

?大家如果对于哪个技术比较感兴趣,可以私信,我会有重点的在后续文章进行展开。

?

?更多精彩请关注微信 : 图灵搜索

?大家也可以使用中国第一个为程序员打造的搜索引擎:https://www.tulingss.com 进行查看。

??

?

30天了解30种技术系列(17)---词关系分析神器Word2vec

原文:http://tulingss.iteye.com/blog/2237090

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!