首页 > 其他 > 详细

一个例子讲明爬虫解析库xpath

时间:2020-05-12 22:21:13      阅读:85      评论:0      收藏:0      [点我收藏+]

对爬取的网页进行数据解析有4中方式:

re正则

bs4

xpath

pyquery

这里着重介绍xpath

一。安装

pip install lxml

二。优点
解析效率比较高
通用性最强的

三。实例
from lxml import etree
from random import choice
import requests

user_agents = [
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11",
    "User-Agent:Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; en) Presto/2.8.131 Version/11.11",
    "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36"]
headers = {
    "User-Agent":choice(user_agents)
    }
url="https://www.qidian.com/mm/rank/yuepiao?chn=0"

response=requests.get(url,headers=headers)
e=etree.HTML(response.text)
names=e.xpath(//p[@class="author"]/a[1]/text())
titles=e.xpath(//h4/a/text())
for name,title in zip(names,titles):
    print(name,:,title)
结果是控制台输出显示解析到的作者和标题

四。说明
response.text 为获取的页面源文件编码

e.xpath() 按xpath语法编写过滤内容

xpath语法,可看了解,很简单的https://www.w3school.com.cn/xpath/xpath_syntax.asp

五。xpath调试工具
下载
xpath helper插件
将其拖入拓展程序
技术分享图片

 

  安装完成后

技术分享图片

 

 调整窗口如下

技术分享图片

 

 

 

 

 

bs4

一个例子讲明爬虫解析库xpath

原文:https://www.cnblogs.com/hzcjd/p/12879161.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!