| create(PageProcessor) |
创建Spider |
Spider.create(new GithubRepoProcessor()) |
| addUrl(String…) |
添加初始的URL |
spider .addUrl("http://webmagic.io/docs/") |
| addRequest(Request...) |
添加初始的Request |
spider .addRequest("http://webmagic.io/docs/") |
| thread(n) |
开启n个线程 |
spider.thread(5) |
| run() |
启动,会阻塞当前线程执行 |
spider.run() |
| start()/runAsync() |
异步启动,当前线程继续执行 |
spider.start() |
| stop() |
停止爬虫 |
spider.stop() |
| test(String) |
抓取一个页面进行测试 |
spider .test("http://webmagic.io/docs/") |
| addPipeline(Pipeline) |
添加一个Pipeline,一个Spider可以有多个Pipeline |
spider .addPipeline(new ConsolePipeline()) |
| setScheduler(Scheduler) |
设置Scheduler,一个Spider只能有个一个Scheduler |
spider.setScheduler(new RedisScheduler()) |
| setDownloader(Downloader) |
设置Downloader,一个Spider只能有个一个Downloader |
spider .setDownloader(new SeleniumDownloader()) |
| get(String) |
同步调用,并直接取得结果 |
ResultItems result = spider .get("http://webmagic.io/docs/") |
| getAll(String…) |
同步调用,并直接取得一堆结果 |
List results = spider .getAll("http://webmagic.io/docs/", "http://webmagic.io/xxx") |