首页 > 其他 > 详细

寒假大数据学习笔记十

时间:2020-02-09 17:10:16      阅读:61      评论:0      收藏:0      [点我收藏+]

  今天首先简单的学习了一下xpath,网上有许多介绍xpath的,我就不细说了,因为xpath又可以引出来诸如节点等一大堆属性,我就用口语描述一下它的用法。它可以通过HTML的标签在HTML中搜索出想要的内容。例子如下,首先看到腾讯新闻的主页,右键检查,出现开发者选项,Ctrl+F调出xpath搜索框

技术分享图片

 

 

 

xpath使用方法如下:

 /[标签] 表示从根节点(最开始)寻找,在这个例子中,只能找到 /HTML ,其他的都找不到

技术分享图片

 

 

 技术分享图片

 

 

 

 //[标签] 则是从整个文档匹配,这也是最常用到的标签,它会从整个文档找能够匹配的标签

技术分享图片

 

 

 如上图,div一共可以找到129个

 [@(class/id/...)=""] 则是根据属性限制寻找的范围,中括号直接写在标签后面

以上就是三条最基本的规则,有了这三条规则,就可以写出绝大部分xpath了。举例,我要得到下面的链接:

技术分享图片

 

 

 

 //a[@class="picture"]/@href 就得到相应的链接了,这句话的意思是从非根节点选取class属性为picture的href属性。

技术分享图片

 

 至于为什么有3个,那当然是因为不止一个链接有相同的标签属性。

除此之外,如果自己不想写的话,右键浮在想得到xpath的标签上,右击选取copy,选择xpath即可得到xpath,但我认为这样的xpath没有通用性,所以还是自己写比较好。

技术分享图片

 

 

 

  继续学习scrapy框架,看了几个简单的教程例子后准备动手写一个。我的目标是爬取卫健委的疫情数据。创建项目,设置Setting,爬取源码,然后得到一大堆js……没错,这个网页使用js动态加载的,并非静态网页,而很不巧的是,scrapy没法爬取动态加载网页的网页数据,所以只好找了一个静态网页练习了一下。正在寻找scrapy爬取动态网页的方法。似乎scrapy-splash可以,正在实验中。

寒假大数据学习笔记十

原文:https://www.cnblogs.com/YXSZ/p/12287347.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!