爬虫技术

时间：2020-03-01 09:37:05 阅读：64 评论：0 收藏：0 [点我收藏+]

爬虫测试类，目的是爬取搜狐新闻到我们的本地（要求：新闻的标题作为文件的名称，新闻的内容作为文件的内容，以"标题.txt"的形式保存在本地）

（jsoup 是一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据）

步骤：

1.利用jsoup来模拟浏览器向一个网站发送一个请求,请求分为post和get请求

Connection connect = Jsoup.connect("http://news.sohu.com/");

2.指定请求的发送方式

Document document（通过请求返回过来的数据（html里的内容）） = connect.get();

3.向操作jq的方式那样来操作html的页面

Elements list16 = document.select(".list16");（因为文章的标题的div的class属性为list16所以获取class为list16的div）

4.获取div下的所有a标签

5.遍历所有a标签，获取title的属性值，拿到title的值

for (Element div : list16) {
            //打印class为list16的div
　　　　　　　//System.out.println(div);
            //获取div下的所有a标签
            Elements as = div.select("a");
            for (Element a : as) {
                //System.out.println(a);
                //遍历所有a标签，获取title的属性值，拿到title的值
                String title = a.attr("title");
                System.out.println(title);
            }
        }

爬虫技术

原文：https://www.cnblogs.com/liujinqq7/p/12387522.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)