首页 > 其他 > 详细

爬虫技术

时间:2020-03-01 09:37:05      阅读:62      评论:0      收藏:0      [点我收藏+]

爬虫测试类,目的是爬取搜狐新闻到我们的本地(要求:新闻的标题作为文件的名称,新闻的内容作为文件的内容,以"标题.txt"的形式保存在本地)

(jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据)

步骤:

1.利用jsoup来模拟浏览器向一个网站发送一个请求,请求分为post和get请求

Connection connect = Jsoup.connect("http://news.sohu.com/");

2.指定请求的发送方式

Document document(通过请求返回过来的数据(html里的内容)) = connect.get();

3.向操作jq的方式那样来操作html的页面

Elements list16 = document.select(".list16");(因为文章的标题的div的class属性为list16所以获取class为list16的div)

4.获取div下的所有a标签

5.遍历所有a标签,获取title的属性值,拿到title的值

for (Element div : list16) {
            //打印class为list16的div
       //System.out.println(div);
//获取div下的所有a标签 Elements as = div.select("a"); for (Element a : as) { //System.out.println(a); //遍历所有a标签,获取title的属性值,拿到title的值 String title = a.attr("title"); System.out.println(title); } }

 

爬虫技术

原文:https://www.cnblogs.com/liujinqq7/p/12387522.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!