Python爬虫实践 —— 6.豆瓣电影排行榜百top数据爬取

时间：2020-01-09 09:40:15 阅读：99 评论：0 收藏：0 [点我收藏+]

首先豆瓣电影排行榜的榜单是ajax异步加载的，不会一下子全部加载完，随鼠标下拉逐步加载数据，f12观察network请求和网站源码可轻易发现

榜单list的url地址，其response是json格式返回值

技术分享图片

https://movie.douban.com/j/chart/top_list?type=5&interval_id=100%3A90&action=&start=0&limit=20

当然我们可以使用urllib库方便地拼接接口地址，limit可以设置为100，即可获得百top排行版电影的json串。

代码如下：

import urllib.request
import re

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:71.0) Gecko/20100101 Firefox/71.0"}

url = "https://movie.douban.com/j/chart/top_list?type=5&interval_id=100%3A90&action=&start=0&limit=100"

res = urllib.request.Request(url, headers=headers)

data = urllib.request.urlopen(res).read().decode()

pat1=re.compile(r‘"rating":\["(.*?)","\d+"\]‘)
pat2=re.compile(r‘"title":"(.*?)"‘)

data1=pat1.findall(data, re.I)
data2=pat2.findall(data, re.I)

print(data1,data2)

for x in range(len(data1)):
    print("排名：{0} 电影名：{1} 豆瓣评分:{2}".format(x+1, data2[x], data1[x]))

　　运行效果：

　　技术分享图片

Python爬虫实践 —— 6.豆瓣电影排行榜百top数据爬取

原文：https://www.cnblogs.com/liuchaodada/p/12169108.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)