爬虫日记-xpath来临

时间：2019-09-15 23:12:24 阅读：107 评论：0 收藏：0 [点我收藏+]

xpath解析

xpath解析是最常用且最便捷高效的一种解析方式，通用性最强。

—如何实例化一个etree对象：from lxml import etree

xpath(‘xpath表达式‘)：

— /：表示的是从根节点开始定位，表示的是一个层级

— //：表示的是多个层级，可以表示从任意位置开始定位

— 属性定位：//div[@class=‘song‘] tag[@attrName=‘attrValue‘]

— 索引定位： //div[@class=‘song‘] /p[3]索引是从1开始的，不是0.

— 取文本：

? — /text() 获取的是标签中直系的文本内容

? — //text() 获取的是标签中的非直系的文本内容（所有文本内容）

— 去属性值：

? /@attrName ==>img/src

一个很重要的点，在我们进行局部解析的时候，也就是说这个时候我们不是以html为根节点了，这是后要用 ./开头，而不是/ 或者 // ，不然的话，会直接把你定位到html标签去。

当我们想要在网站上获取中文内容的时候会发现，有时候会出现乱码，是因为网页上的默认编码都是ISO编码，而不是我们pycharm磨人的UTF-8，因此我们有两种方式改变编码。

技术分享图片

一种是直接把获取的响应数据用.encoding来改，如果没有用的话，就用下面，你想要的中文内容进行编码改变。

标签里的 id是唯一的，所以有id的时候就用id，不要用class吧。

原文：https://www.cnblogs.com/chanyuli/p/11524350.html

踩

(0)

评论一句话评论（0）

分享档案

更多>