正则解析

时间：2020-05-22 14:39:32 阅读：71 评论：0 收藏：0 [点我收藏+]

import requests
import re
import os
if __name__ == ‘__main__‘:
    # 创建一个文件夹，用来保存所有的图片
    if not os.path.exists(‘./qiutuLibs‘):
        os.mkdir(‘./qiutuLibs‘)

    url = ‘https://www.qiushibaike.com/imgrank/‘
    headers = {
        ‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36‘
    }

    # 使用通用爬虫对url对应的一整张页面进行爬取
    page_text = requests.get(url=url,headers=headers).text

    # 使用聚焦爬虫将页面中所有的图片进行解析/提取
    ex = ‘<div class="thumb">.*?<img src="(.*?)" alt.*?</div>‘
    img_src_list = re.findall(ex,page_text,re.S)
    print(img_src_list)
    for src in img_src_list:
        # 拼接出一个完整的图片url
        src = ‘https:‘ + src
        # 请求到了图片的二进制数据
        img_data = requests.get(url=src,headers=headers).content

        #生成图片名称
        img_name = src.split(‘/‘)[-1]

        #图片存储的路径
        imgPath = ‘./qiutuLibs/‘ + img_name

        with open(imgPath,‘wb‘) as fp:
            fp.write(img_data)
            print(img_name,‘下载成功！‘)

import requests
import re
import os
if __name__ == ‘__main__‘:
    # 创建一个文件夹，用来保存所有的图片
    if not os.path.exists(‘./qiutuLibs‘):
        os.mkdir(‘./qiutuLibs‘)

    headers = {
        ‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36‘
    }

    # 设置一个通用的url模板
    url = ‘https://www.qiushibaike.com/imgrank/page/%d/‘
    #pageNum = 1

    for pageNum in range(1,4):
        # 对应页码的url
        new_url = format(url%pageNum)

        # 使用通用爬虫对url对应的一整张页面进行爬取
        page_text = requests.get(url=new_url,headers=headers).text

        # 使用聚焦爬虫将页面中所有的图片进行解析/提取
        ex = ‘<div class="thumb">.*?<img src="(.*?)" alt.*?</div>‘
        img_src_list = re.findall(ex,page_text,re.S)
        print(img_src_list)
        for src in img_src_list:
            # 拼接出一个完整的图片url
            src = ‘https:‘ + src
            # 请求到了图片的二进制数据
            img_data = requests.get(url=src,headers=headers).content

            #生成图片名称
            img_name = src.split(‘/‘)[-1]

            #图片存储的路径
            imgPath = ‘./qiutuLibs/‘ + img_name

            with open(imgPath,‘wb‘) as fp:
                fp.write(img_data)
                print(img_name,‘下载成功！‘)

正则解析

原文：https://www.cnblogs.com/nanjo4373977/p/12936521.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)