爬虫测试类,目的是爬取搜狐新闻到我们的本地(要求:新闻的标题作为文件的名称,新闻的内容作为文件的内容,以"标题.txt"的形式保存在本地)
(jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据)
步骤:
1.利用jsoup来模拟浏览器向一个网站发送一个请求,请求分为post和get请求
Connection connect = Jsoup.connect("http://news.sohu.com/");
2.指定请求的发送方式
Document document(通过请求返回过来的数据(html里的内容)) = connect.get();
3.向操作jq的方式那样来操作html的页面
Elements list16 = document.select(".list16");(因为文章的标题的div的class属性为list16所以获取class为list16的div)
4.获取div下的所有a标签
5.遍历所有a标签,获取title的属性值,拿到title的值
for (Element div : list16) { //打印class为list16的div
//System.out.println(div); //获取div下的所有a标签 Elements as = div.select("a"); for (Element a : as) { //System.out.println(a); //遍历所有a标签,获取title的属性值,拿到title的值 String title = a.attr("title"); System.out.println(title); } }
原文:https://www.cnblogs.com/liujinqq7/p/12387522.html