首页 > Web开发 > 详细

对Xpath爬取网页数据的理解

时间:2016-05-12 17:18:46      阅读:156      评论:0      收藏:0      [点我收藏+]

首先对Xpath进行安装配置

         安装Xpath         安装 lxml库       从Python第三方库下载,或者 pip  install  lxml

学会使用Xpath

       导入etree模块

                from  lxml import  etree

使用Xpath 提取网页感兴趣代码

         Selector= etree.HTML(html)       (html 网页源代码,通过html = requests.get(...).text获取)

         把获取的源代码转换成可以用Xpath提取的文本

         content = Selector.xpath(一段神奇的符号)

         这段符号可以通过在审查元素中右击 → copy Xpath 来获取

如下图

技术分享

 

Xpath 匹配的思想:

  根据HTML的结构:

1、  树状结构

2、  逐层展开

3、  逐层定位

4、  寻找独立节点

 

应用Xpath提取内容:

  定位根节点  //

  往下层寻找  /

  提取文本内容   /text()

  提取属性内容   /@xxxx

举个例子:

如下图

技术分享

 技术分享

Xpath另一种特殊用法 -- 以相同的字符开头

技术分享

举个例子

技术分享

 

 把以test 开头的标签均提取出来


另一种特殊用法– 标签套标签

技术分享

举个例子

     利用了string(.),使用了两回xpath


技术分享


学习Xpath的网址:http://search.jikexueyuan.com/course/?q=Python%E7%88%AC%E8%99%AB

对Xpath爬取网页数据的理解

原文:http://blog.csdn.net/jly58fgjk/article/details/51366308

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!