首页 > Web开发 > 详细

HttpUnit学习笔记

时间:2015-12-21 18:32:50      阅读:184      评论:0      收藏:0      [点我收藏+]
	<!-- htmlUnit -->
	<dependency>
	    <groupId>net.sourceforge.htmlunit</groupId>
	    <artifactId>htmlunit</artifactId>
	    <version>2.19</version>
	</dependency>
        WebClient webClient = new WebClient(BrowserVersion.CHROME);//选择浏览器
        HtmlPage mainPage = webClient.getPage("https://www.baidu.com/");
        List<HtmlAnchor> list = (List<HtmlAnchor>) mainPage.getByXPath("//a[@class=\"mnav\"]");//使用XPath,获取要查询的Class对象
        for(HtmlAnchor temp:list){
            System.out.println(temp.asText());
        }
        webClient.close();

 可以通过特定的代码设置cookie

新浪微博有强制登录机制,所以不能直接爬数据,可以直接爬手机版的首页(weibo.cn)

HttpUnit学习笔记

原文:http://www.cnblogs.com/xujanus/p/5063961.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!