一个例子讲明爬虫解析库xpath

时间：2020-05-12 22:21:13 阅读：90 评论：0 收藏：0 [点我收藏+]

对爬取的网页进行数据解析有4中方式：

re正则

bs4

xpath

pyquery

这里着重介绍xpath

一。安装

pip install lxml

二。优点

解析效率比较高
通用性最强的

三。实例

from lxml import etree
from random import choice
import requests

user_agents = [
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11",
    "User-Agent:Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; en) Presto/2.8.131 Version/11.11",
    "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36"]
headers = {
    "User-Agent":choice(user_agents)
    }
url="https://www.qidian.com/mm/rank/yuepiao?chn=0"

response=requests.get(url,headers=headers)
e=etree.HTML(response.text)
names=e.xpath(‘//p[@class="author"]/a[1]/text()‘)
titles=e.xpath(‘//h4/a/text()‘)
for name,title in zip(names,titles):
    print(name,‘:‘,title)

结果是控制台输出显示解析到的作者和标题

四。说明

response.text 为获取的页面源文件编码

e.xpath() 按xpath语法编写过滤内容

xpath语法，可看了解，很简单的https://www.w3school.com.cn/xpath/xpath_syntax.asp 

五。xpath调试工具
下载

xpath helper插件
将其拖入拓展程序

安装完成后

技术分享图片

调整窗口如下

技术分享图片

bs4

一个例子讲明爬虫解析库xpath

原文：https://www.cnblogs.com/hzcjd/p/12879161.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)