使用Urllib爬虫(1)--简单的将数据爬到内存或硬盘中

时间：2020-04-18 10:00:31 阅读：94 评论：0 收藏：0 [点我收藏+]

将数据爬取到内存中

import urllib
import urllib.request
import re
#打开京东网页并且进行读取，解码格式utf-8,ignore小细节自动略过，大大减少出错率
#将数据爬到内存中
#http://www.jd.com
url = "http://www.jd.com"
data = urllib.request.urlopen(url).read().decode("utf-8","ignore")
pat = "<title>(.*?)</title>"
#re.S模式修正符，网页数据往往是多行的，避免多行的影响
print(re.compile(pat,re.S).findall(data))

将数据爬取到硬盘中

import urllib
import urllib.request
import re
url = "http://www.jd.com"
#urlretrieve(网址，文件名filename),由于\有转义的作用所以改用为/或者\\
res = urllib.request.urlretrieve(url,filename="D:\\pythonstudy\\pachong\\jd1.html")
print(res)

使用Urllib爬虫(1)--简单的将数据爬到内存或硬盘中

原文：https://www.cnblogs.com/u-damowang1/p/12724139.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)