HttpUnit学习笔记

时间：2015-12-21 18:32:50 阅读：185 评论：0 收藏：0 [点我收藏+]

	<!-- htmlUnit -->
	<dependency>
	    <groupId>net.sourceforge.htmlunit</groupId>
	    <artifactId>htmlunit</artifactId>
	    <version>2.19</version>
	</dependency>

        WebClient webClient = new WebClient(BrowserVersion.CHROME);//选择浏览器
        HtmlPage mainPage = webClient.getPage("https://www.baidu.com/");
        List<HtmlAnchor> list = (List<HtmlAnchor>) mainPage.getByXPath("//a[@class=\"mnav\"]");//使用XPath，获取要查询的Class对象
        for(HtmlAnchor temp:list){
            System.out.println(temp.asText());
        }
        webClient.close();

可以通过特定的代码设置cookie

新浪微博有强制登录机制，所以不能直接爬数据，可以直接爬手机版的首页（weibo.cn）

HttpUnit学习笔记

原文：http://www.cnblogs.com/xujanus/p/5063961.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)