对Xpath爬取网页数据的理解

时间：2016-05-12 17:18:46 阅读：158 评论：0 收藏：0 [点我收藏+]

首先对Xpath进行安装配置

安装Xpath 安装 lxml库从Python第三方库下载，或者 pip install lxml

学会使用Xpath

导入etree模块

from lxml import etree

使用Xpath 提取网页感兴趣代码

Selector= etree.HTML(html) (html 网页源代码，通过html = requests.get(...).text获取)

把获取的源代码转换成可以用Xpath提取的文本

content = Selector.xpath(一段神奇的符号)

这段符号可以通过在审查元素中右击 → copy Xpath 来获取

如下图

技术分享

Xpath 匹配的思想：

根据HTML的结构：

1、树状结构

2、逐层展开

3、逐层定位

4、寻找独立节点

应用Xpath提取内容：

定位根节点 //

往下层寻找 /

提取文本内容 /text()

提取属性内容 /@xxxx

举个例子：

如下图

技术分享

Xpath另一种特殊用法 -- 以相同的字符开头

技术分享

举个例子

技术分享

把以test 开头的标签均提取出来

另一种特殊用法– 标签套标签

技术分享

举个例子

利用了string（.），使用了两回xpath

技术分享

原文：http://blog.csdn.net/jly58fgjk/article/details/51366308

踩

(0)

评论一句话评论（0）

分享档案

更多>