python 爬虫

时间：2019-05-18 23:30:50 阅读：144 评论：0 收藏：0 [点我收藏+]

正则表达式获取贴吧访问量

import urllib.request
import re
data=urllib.request.urlopen("https://tieba.baidu.com/f?kw=cpda&fr=ala0&tpl=5").read()
data2=data.decode("utf-8","ignore")
pat="<title>(.*?)</title>"
s1 = re.compile(pat).findall(str(data2))
print(s1)
pat2=‘<span class="card_numLabel">(.*?)</span>‘
s2 = re.compile(pat2).findall(str(data2))
print(s2)
pat3=‘<span class="card_menNum">(.*?)</span>‘
s3 = re.compile(pat3).findall(str(data2))
print(s3)
pat4=‘<span class="card_infoNum">(.*?)</span>‘
s4 = re.compile(pat4).findall(str(data2))
print(s4)

正则表达式学习2--豆瓣获取文章

import urllib.request
import re
file=urllib.request.urlopen("https://read.douban.com/provider/all").read()
file2=file.decode("utf-8","ignore")
patn=‘<div class="name">(.*?)</div>‘
mydata=re.compile(patn).findall(str(file2))
print(mydata)
for i in range(0,len(mydata)):
    print(mydata[i]+"\n")

url数据获取--异常值处理--新浪新闻获取文章

import urllib.request
import re
data=urllib.request.urlopen("http://news.sina.com.cn/").read()
data2=data.decode("utf-8","ignore")
pat=‘href="(http://news.sina.com.cn/.*?)"‘
allurl=re.compile(pat).findall(data2)
for i in range(0,len(allurl)):
 try:
  print("第"+str(i)+"次爬取")
  thisurl=allurl[i]
  print(thisurl)
  file="D:/sinanews/"+str(i)+".html"
  print(file)
  print("-------成功-------")
 except urllib.error.URLError as e:
  if hasattr(e,"code"):
    print(e.code)
  if hasattr(e,"reason"):
    print(e.reason)

import urllib.requestimport refile=urllib.request.urlopen("https://read.douban.com/provider/all").read()file2=file.decode("utf-8","ignore")patn=‘<div class="name">(.*?)</div>‘mydata=re.compile(patn).findall(str(file2))print(mydata)for i in range(0,len(mydata)): print(mydata[i]+"\n")

python 爬虫

原文：https://www.cnblogs.com/wei23/p/10887432.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)