首页 > 其他 > 详细

2013.5.3 - KDD第十五天

时间:2014-02-18 10:21:57      阅读:418      评论:0      收藏:0      [点我收藏+]

今天上午把昨天的想法给中秋发过去了,然后我就开始科普随机森林:

随机森林是一种比较新的机器学习模型。经典的机器学习模型是神经网络,有半个多世纪的历史了。神经网络预测精确,但是计算量很大。上世纪八十年代Breiman等人发明分类树的算法(Breiman et al. 1984),通过反复二分数据进行分类或回归,计算量大大降低。2001Breiman把分类树组合成随机森林(Breiman 2001a),即在变量(列)的使用和数据(行)的使用上进行随机化,生成很多分类树,再汇总分类树的结果。随机森林在运算量没有显著提高的前提下提高了预测精度。随机森林对多元公线性不敏感,结果对缺失数据和非平衡的数据比较稳健,可以很好地预测多达几千个解释变量的作用(Breiman 2001b),被誉为当前最好的算法之一(Iverson et al. 2008)

 

另外发现有几个网站很重要,具有启发性。我怕忘掉,舍不得关,就记载到这里了:

 

貌似是随机森林的官方网站:http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm

 

统计之都:http://cos.name/page/2/

 

这个网站都是机器学习,数据挖掘方面的博客,挺有营养。

 

某位大神的视频:http://julialang.org/blog/2013/03/julia-tutorial-MIT/

 

这个其实忘了为什么打开了,但是好像是挺有用,以后看。

 

Flowingdata:http://flowingdata.com/

 

这 个也是统计相关的网站,貌似当今的统计都是机器学习啊,怪不得一个文章说统计会被计算机霸占。。。这其中有一篇文章我觉得很有看头,叫如《A Survival Guide to Starting and Finishing a PhD》:http://flowingdata.com/2013/04/01/a-survival-guide-to-starting-and- finishing-a-phd/,然后还有个Tutorial也需要研究一下:http://flowingdata.com/category /tutorials/

 

一个统计、数据挖掘大牛写的ppt集:http://www.autonlab.org/tutorials/

 

这是一个人工智能超级玛丽的视频:http://www.cs.cmu.edu/~tom7/mario/

 

这是一个Matlab与R的对比:http://www.burns-stat.com/interview-with-a-forced-convert-from-matlab-to-r/

 

这是一个ICML的比赛,具体没太看懂,貌似是三个比赛,没事的时候好好研究研究:http://deeplearning.net/icml2013-workshop-competition/

 

一个很有价值的讲数据挖掘的博客,作者是一个搞生物的研究员:http://caoyaqiang.diandian.com/

 

另一个很有价值的讲数据挖掘的博客(需翻墙),作者是一个搞经济的研究员:http://xccds1977.blogspot.com/

 

他写的两篇文章我觉得应该好好看一下:

《R书精选12宫》:http://xccds1977.blogspot.com/2013/02/r.html

《共享四本关于数据可视化的书》:http://xccds1977.blogspot.com/2012/04/blog-post_23.html

2013.5.3 - KDD第十五天

原文:http://www.cnblogs.com/SnakeHunt2012/p/3553069.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!