python--爬虫（XPath与xml类库）

时间：2019-01-23 22:58:50 阅读：224 评论：0 收藏：0 [点我收藏+]

获取页面内容除使用正则意外，还可以使用XPath，其原理是将html代码转换为xml格式，然后使用XPath查找html节点或元素。

选取节点

XPath使用路径表达式来选取XML文档中的节点或节点集。
常用的路径表达式见下表：

表达式	描述
nodename	选取此节点的所有子节点
/	从根节点选取
//	从匹配选择的当前节点选择文档中的节点，不考虑其是否为子级
.	选取当前节点
..	选取当前节点的父节点
@	选取属性

谓语用来查找某个特定的节点或者包含某个指定的值得节点，被嵌在方括号中。

路径表达式	释义
/one/two[1]	选取属于one子元素的第一个two元素
/one/two[last()]	选取属于one子元素的最后一个two元素
/one/two[last()-1]	选取属于one子元素的倒数第二个two元素
/one/two[position()<3]	选取最前面的两个属于one元素的子元素two元素
//one[@lang]	选取所有拥有名为lang的属性的one元素
//one[@lang=‘test‘]	选取所有拥有值为test的lang属性的one元素
/one/two[position>10]	选取one元素的所有two元素，且其中position属性的值大于10

原文：https://www.cnblogs.com/peilanluo/p/10311827.html

踩

(0)

评论一句话评论（0）

分享档案

更多>