首页 > 编程语言 > 详细

python爬虫二、Urllib库的基本使用

时间:2017-07-07 18:56:10      阅读:286      评论:0      收藏:0      [点我收藏+]

什么是Urllib

  Urllib是python内置的HTTP请求库
  包括以下模块
  urllib.request 请求模块
  urllib.error 异常处理模块
  urllib.parse url解析模块
  urllib.robotparser robots.txt解析模块

 

urlopen

  关于urllib.request.urlopen参数的介绍:
  urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)

url参数的使用

先写一个简单的例子:

import urllib.request

response = urllib.request.urlopen(http://www.baidu.com)
print(response.read().decode(utf-8‘))

urlopen一般常用的有三个参数,它的参数如下:
urllib.requeset.urlopen(url,data,timeout)
response.read()可以获取到网页的内容,如果没有read(),将返回如下内容

data参数的使用

上述的例子是通过请求百度的get请求获得百度,下面使用urllib的post请求
这里通过http://httpbin.org/post网站演示(该网站可以作为练习使用urllib的一个站点使用,可以
模拟各种请求操作)。

技术分享
import urllib.parse
import urllib.request

data = bytes(urllib.parse.urlencode({word‘: hello‘}), encoding=utf8)
print(data)
response = urllib.request.urlopen(http://httpbin.org/post‘, data=data)
print(response.read())
技术分享

 

python爬虫二、Urllib库的基本使用

原文:http://www.cnblogs.com/cdxing/p/7133612.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!