首页 > Web开发 > 详细

Heritrix3.1 过滤url

时间:2016-06-28 16:50:57      阅读:254      评论:0      收藏:0      [点我收藏+]

现在做Heritrix抓取,由于java版本之类的,我选择用了3.1,可是大部分的资料都是介绍1.14的,太让人生气,尤其一个最简单的功能:让保留的文件是和这个域名下有关的文件,不要被js那些抽取的链接又访问到其他站点抓取。在1.14版本,已经非常多的扩展代码等,可是完全和3.1不同。

?

在这个前提下,我感觉是可以写个扩展替换的,我这里直接再源码中修改了,所改动的文件是?org.archive.crawler.postprocessor.CandidatesProcessor

?

写道
protected boolean shouldProcess(CrawlURI puri) {
//return true;
String uris;
uris=puri.toString();
//System.out.println("======>2"+uris);
if (uris.contains("**域名 关键字等")){
return true;
}
return false;
}

?

我也搞不清true false具体代表什么,代码结果显示false是不执行抓取,true是执行抓取

Heritrix3.1 过滤url

原文:http://azh.iteye.com/blog/2307700

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!