首页 > 其他 > 详细

正则解析

时间:2020-05-22 14:39:32      阅读:65      评论:0      收藏:0      [点我收藏+]
import requests
import re
import os
if __name__ == __main__:
    # 创建一个文件夹,用来保存所有的图片
    if not os.path.exists(./qiutuLibs):
        os.mkdir(./qiutuLibs)

    url = https://www.qiushibaike.com/imgrank/
    headers = {
        User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36
    }

    # 使用通用爬虫对url对应的一整张页面进行爬取
    page_text = requests.get(url=url,headers=headers).text

    # 使用聚焦爬虫将页面中所有的图片进行解析/提取
    ex = <div class="thumb">.*?<img src="(.*?)" alt.*?</div>
    img_src_list = re.findall(ex,page_text,re.S)
    print(img_src_list)
    for src in img_src_list:
        # 拼接出一个完整的图片url
        src = https: + src
        # 请求到了图片的二进制数据
        img_data = requests.get(url=src,headers=headers).content

        #生成图片名称
        img_name = src.split(/)[-1]

        #图片存储的路径
        imgPath = ./qiutuLibs/ + img_name

        with open(imgPath,wb) as fp:
            fp.write(img_data)
            print(img_name,下载成功!)
import requests
import re
import os
if __name__ == __main__:
    # 创建一个文件夹,用来保存所有的图片
    if not os.path.exists(./qiutuLibs):
        os.mkdir(./qiutuLibs)

    headers = {
        User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36
    }

    # 设置一个通用的url模板
    url = https://www.qiushibaike.com/imgrank/page/%d/
    #pageNum = 1

    for pageNum in range(1,4):
        # 对应页码的url
        new_url = format(url%pageNum)

        # 使用通用爬虫对url对应的一整张页面进行爬取
        page_text = requests.get(url=new_url,headers=headers).text

        # 使用聚焦爬虫将页面中所有的图片进行解析/提取
        ex = <div class="thumb">.*?<img src="(.*?)" alt.*?</div>
        img_src_list = re.findall(ex,page_text,re.S)
        print(img_src_list)
        for src in img_src_list:
            # 拼接出一个完整的图片url
            src = https: + src
            # 请求到了图片的二进制数据
            img_data = requests.get(url=src,headers=headers).content

            #生成图片名称
            img_name = src.split(/)[-1]

            #图片存储的路径
            imgPath = ./qiutuLibs/ + img_name

            with open(imgPath,wb) as fp:
                fp.write(img_data)
                print(img_name,下载成功!)

 

正则解析

原文:https://www.cnblogs.com/nanjo4373977/p/12936521.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!