首页 > 其他 > 详细

爬虫之一:爬补天厂商数据

时间:2016-01-29 20:32:17      阅读:159      评论:0      收藏:0      [点我收藏+]

#coding:utf-8
import re,urllib

def gethtml(url):
  page = urllib.urlopen(url)
  html=page.read()
  return html

def getlink(html):

  link = re.findall(r‘<td  align="left" style="padding-left:20px;">(.*?)</td>‘,html)
  #linklist = re.findall(link,html)
  return link

def save(links):
  f=open(‘360.txt‘,‘a‘)
  for i in links:
    f.write(i+"\n")
    #f.close()
    #print ‘ok‘  

for page in range(11, 200):
  url = "https://butian.360.cn/company/lists/page/" +str(page)
  html = gethtml(url)
  print str(page)+"ye"
  links = getlink(html)
  print links
  save(links)
  

  

爬虫之一:爬补天厂商数据

原文:http://www.cnblogs.com/dongchi/p/5169287.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!