2013.5.3 - KDD第十五天

时间：2014-02-18 10:21:57 阅读：418 评论：0 收藏：0 [点我收藏+]

今天上午把昨天的想法给中秋发过去了，然后我就开始科普随机森林：

随机森林是一种比较新的机器学习模型。经典的机器学习模型是神经网络，有半个多世纪的历史了。神经网络预测精确，但是计算量很大。上世纪八十年代Breiman等人发明分类树的算法(Breiman et al. 1984)，通过反复二分数据进行分类或回归，计算量大大降低。2001年Breiman把分类树组合成随机森林(Breiman 2001a)，即在变量（列）的使用和数据（行）的使用上进行随机化，生成很多分类树，再汇总分类树的结果。随机森林在运算量没有显著提高的前提下提高了预测精度。随机森林对多元公线性不敏感，结果对缺失数据和非平衡的数据比较稳健，可以很好地预测多达几千个解释变量的作用(Breiman 2001b)，被誉为当前最好的算法之一(Iverson et al. 2008)。

另外发现有几个网站很重要，具有启发性。我怕忘掉，舍不得关，就记载到这里了：

貌似是随机森林的官方网站：http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm

统计之都：http://cos.name/page/2/

这个网站都是机器学习，数据挖掘方面的博客，挺有营养。

某位大神的视频：http://julialang.org/blog/2013/03/julia-tutorial-MIT/

这个其实忘了为什么打开了，但是好像是挺有用，以后看。

Flowingdata：http://flowingdata.com/

这个也是统计相关的网站，貌似当今的统计都是机器学习啊，怪不得一个文章说统计会被计算机霸占。。。这其中有一篇文章我觉得很有看头，叫如《A Survival Guide to Starting and Finishing a PhD》：http://flowingdata.com/2013/04/01/a-survival-guide-to-starting-and- finishing-a-phd/，然后还有个Tutorial也需要研究一下：http://flowingdata.com/category /tutorials/

一个统计、数据挖掘大牛写的ppt集：http://www.autonlab.org/tutorials/

这是一个人工智能超级玛丽的视频：http://www.cs.cmu.edu/~tom7/mario/

这是一个Matlab与R的对比：http://www.burns-stat.com/interview-with-a-forced-convert-from-matlab-to-r/

这是一个ICML的比赛，具体没太看懂，貌似是三个比赛，没事的时候好好研究研究：http://deeplearning.net/icml2013-workshop-competition/

一个很有价值的讲数据挖掘的博客，作者是一个搞生物的研究员：http://caoyaqiang.diandian.com/

另一个很有价值的讲数据挖掘的博客（需翻墙），作者是一个搞经济的研究员：http://xccds1977.blogspot.com/

他写的两篇文章我觉得应该好好看一下：

《R书精选12宫》：http://xccds1977.blogspot.com/2013/02/r.html

《共享四本关于数据可视化的书》：http://xccds1977.blogspot.com/2012/04/blog-post_23.html

2013.5.3 - KDD第十五天

原文：http://www.cnblogs.com/SnakeHunt2012/p/3553069.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)