接着上次的python爬虫，今天进阶一哈，局部解析爬取网页数据

时间：2019-11-11 12:22:33 阅读：102 评论：0 收藏：0 [点我收藏+]

*解析网页数据的仓库

用Beatifulsoup基于lxml包
lxml包基于html和xml的标记语言的解析包。可以去解析网页的内容，把我们想要的提取出来。

第一步、导入两个包，项目中必须包含beautifulsoup4和lxml

第二步、先去获取网页的数据

def get_html():
    url="http://www.scetc.net"
    response=request.get(url)
    response.encoding="UTF-8"
    return response.text

第三步、导入Beautifulsoup对象
from bs4 import BeautifulSoup

第四步、解析网页内容
解析的方式文本格式就是：
标记#id或者.class,如果有层次标记则空格在后面加标记就可以了。
请注意一点就是select方法返回的肯定是列表，所以获取数据的时候需要遍历
技术分享图片

*下载网上的其他资源

案例就是下载图片资源：
res = requests.get(url+stu_id+".jpg", stream=True)
file=open(stu_id+".jpg",‘wb‘)
for chunk in res.iter_content(chunk_size=32):
file.write(chunk)
file.close()

接着上次的python爬虫，今天进阶一哈，局部解析爬取网页数据

原文：https://www.cnblogs.com/HYV587/p/11833876.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)