首页 > 其他 > 详细

2013.4.26 - KDD第八天

时间:2014-02-18 09:41:42      阅读:354      评论:0      收藏:0      [点我收藏+]

下午上Android课,我看中秋也选这个课了,然后在上半节的时候速补了一下秦海龙师兄的那篇文章。中间休息的时候窜到了中秋那里,然后讨论了半节课现在的情况。

现在的情况是这样的:

中 秋开始是没有进行主题建模,直接用跟样例相同的特征训练了四个分类器,分别是LVM、LR、RF、GBDT,然后对这四个分类器进行组合,不过效果不是很 理想,LVM、LR、RF这三个分类器单独工作的时候不如GBDT,而且这四个组合起来的效果还不如GBDT单独的效果,所以他还在研究。

另 一方面他现在在写主题建模的程序,基本上写的差不多了。思路是这样的,对每一篇文章每一个字进行主题映射,会映射出来一个比较稀疏的向量,每一个分量代表 一个主题,每一个词汇对不同主题有不同的亲和度,然后对这篇文章的所有词的向量进行一下求和或者其他的什么求和方式。然后就求到了这篇文章的主题(也是一 个稀疏向量,每个分量代表一个主题,这篇文章在每个分量上的值会有大有小,他会在自己的主题附近显出峰值),然后每一篇文章就会对应一个向量,代表它的主 题。然后对这些向量进行聚类,这样就会聚出这个id对应的是几个领域,如果领域多余一个,说明这个id对应多个作者(我们考虑到一般一个人只能在一个领域 有所建树,就是经常发论文的意思)。然后如果聚出来的是一个大类跟着几个小类(或者一个大类跟着几个离群点),就认为那几个小类(或者离群点)不是他写 的,当然这里还有个问题就是如果大类不是他写的,小类是他写的会不会有这种情况,我还要问一下中秋。

现 在中秋交给我的工作就是coauthor,他希望我能好好利用coauthor这张牌,他说这是很重要的一个特征,希望我找到办法如何使用 coauthor来提高他的识别精度,同时如果情况良好的话,也能用来确定他聚出来的那几个类哪个是这个id的,哪些不是。说还是让我再好好想想办法,可 以利用一下秦海龙师兄的那个圈子。

2013.4.26 - KDD第八天

原文:http://www.cnblogs.com/SnakeHunt2012/p/3553055.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!