首页 > 其他 > 详细

爬虫学习 一些有用的函数吧

时间:2015-05-14 20:17:55      阅读:132      评论:0      收藏:0      [点我收藏+]

1.geturl---- 获取真实的url

from urllib.request import Request, urlopen
from urllib.error import URLError, HTTPError

old_url = ‘http://rrurl.cn/b1UZuP‘
req = Request(old_url)
response = urlopen(req)
print (‘Old url :‘ + old_url)
print (‘Real url :‘ + response.geturl())

 

 

2.info()----这个返回对象的字典对象,该字典描述了获取的页面情况。通常是服务器发送的特定头headers。目前是httplib.HTTPMessage 实例。

经典的headers包含"Content-length","Content-type",和其他内容。

from urllib.request import Request, urlopen
from urllib.error import URLError, HTTPError

old_url = ‘http://www.sina.com‘
req = Request(old_url)
response = urlopen(req)
print (‘Info():‘)
print (response.info())

 

爬虫学习 一些有用的函数吧

原文:http://www.cnblogs.com/my-time/p/4504109.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!