Heritrix3.1 过滤url

时间：2016-06-28 16:50:57 阅读：257 评论：0 收藏：0 [点我收藏+]

现在做Heritrix抓取，由于java版本之类的，我选择用了3.1，可是大部分的资料都是介绍1.14的，太让人生气，尤其一个最简单的功能：让保留的文件是和这个域名下有关的文件，不要被js那些抽取的链接又访问到其他站点抓取。在1.14版本，已经非常多的扩展代码等，可是完全和3.1不同。

在这个前提下，我感觉是可以写个扩展替换的，我这里直接再源码中修改了，所改动的文件是?org.archive.crawler.postprocessor.CandidatesProcessor

写道

protected boolean shouldProcess(CrawlURI puri) {
//return true;
String uris;
uris=puri.toString();
//System.out.println("======>2"+uris);
if (uris.contains("**域名关键字等")){
return true;
}
return false;
}

我也搞不清true false具体代表什么，代码结果显示false是不执行抓取，true是执行抓取

Heritrix3.1 过滤url

原文：http://azh.iteye.com/blog/2307700

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)