首页 > 其他 > 详细

爬虫概述

时间:2015-05-10 17:10:18      阅读:367      评论:0      收藏:0      [点我收藏+]

之前本打算做垂直搜索时使用了python的scrapy抓取 大众点评网的数据。

现在准备做一款互联网医疗的产品。爬虫是需要抓取自然理论数据。

因此对主流的开源爬虫框架做一个介绍。

Java:Nutch,Heritrix

C++:Larbin,PolyBot

Python:Scrapy

Erlang:Ebot

Ruby:Spidr

相对来说,Nutch+Lucene+Hadoop结合得比较好。比较适合做整套的数据抓取及分析。

爬虫概述

原文:http://www.cnblogs.com/onlyforcloud/p/4492436.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!