爬取豆瓣电影Top250

时间：2019-10-07 15:00:23 阅读：76 评论：0 收藏：0 [点我收藏+]

目标

学习爬虫，爬豆瓣榜单，获取爬取静态页面信息的能力

豆瓣电影 Top 250 https://movie.douban.com/top250

技术分享图片

代码

import requests
from bs4 import BeautifulSoup
def getHTMLText(url):
    try:
        r = requests.get(url,timeout=30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return ‘产生异常‘
    
if __name__ == ‘__main__‘:
    i = 0
    urls = [‘https://movie.douban.com/top250?start=‘+str(n)+‘&filter=‘ for n in range(0,250,25)]
    for url in urls:
        r = getHTMLText(url)
        soup = BeautifulSoup(r,‘html.parser‘)
        titles = soup.select(‘div.hd a‘)
        rates = soup.select(‘span.rating_num‘)
        pics = soup.select(‘img[width="100"]‘)
        for title,rate,pic in zip(titles,rates,pics):
            data={‘title‘:list(title.stripped_strings),
                  ‘rate‘:rate.get_text(),
                  ‘pic‘:pic.get(‘src‘)}
            i+=1
            fileName=str(i)+‘_‘+data[‘title‘][0]+‘ ‘+data[‘rate‘]+‘分.jpg‘
            pic1 = requests.get(data[‘pic‘])
            with open(‘G:\\test\\‘+fileName,‘wb‘) as photo:
                photo.write(pic1.content)
            print(data)

爬取结果

技术分享图片

爬取豆瓣电影Top250

原文：https://www.cnblogs.com/yongestcat/p/11630267.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)

爬取 豆瓣电影Top250

目标

代码

爬取结果

爬取豆瓣电影Top250