首页 > 其他 > 详细

分布式爬虫技术架构

时间:2015-03-26 20:45:38      阅读:207      评论:0      收藏:0      [点我收藏+]

Spiderman

Spiderman 是一个Java开源Web数据抽取工具。它能够收集指定的Web页面并从这些页面中提取有用的数据。 Spiderman主要是运用了像XPath、正则、表达式引擎等这些技术来实现数据抽取。

项目结构:

技术分享

依赖关系如下:

技术分享

webmagic

webmagic采用完全模块化的设计,功能覆盖整个爬虫的生命周期(链接提取、页面下载、内容抽取、持久化),支持多线程抓取,分布式抓取,并支持自动重试、自定义UA/cookie等功能。

技术分享

工程结构:

技术分享

工程间的关系:

技术分享

众推

用整体正在进行中,目前积中在分布式爬虫阶段。

技术分享

目前设计阶段的结构为:

技术分享

基本思想为:

WEB:界面及功能部分。

SAMPLES:示例部分。

CORE:需要调用的核心包。

RULES:规则处理部分。

PARSERS:解析部分。

PLUGIN:插件部分。

CDOOP:分布式处理部分。

ADAPTER:代理适配部分。

STORE:存储层。

目前项目的地址在:

https://github.com/zongtui/zongtui-webcrawler

分布式爬虫技术架构

原文:http://www.cnblogs.com/skyme/p/4369775.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!