首页 > Web开发 > 详细

爬虫学习笔记-urllib库

时间:2018-07-12 12:03:18      阅读:301      评论:0      收藏:0      [点我收藏+]

urllib库是python中一个最基本的网络请求库。可以模拟浏览器的行为,向指定的服务器发送一个请求,并可以保存服务器返回的数据。

urlopen函数:在python3的urllib库中,所有和网络请求相关的方法,都被集到urllib.request模块下面了

urlopen函数基本的使用:

技术分享图片

url:请求的url

data:请求的data

返回值:返回值是一个 http.client.HTTPResponse对象,这个对象是一个类文件句柄对象

read(size)、readline、readlines以及getcode等方法

技术分享图片

 

技术分享图片

技术分享图片

技术分享图片

 

 urlretrieve函数:

这个函数可以方便的将网页上的一个文件保存到本地

技术分享图片

技术分享图片

 

urlencode函数:

用浏览器发送请求的时候,如果url中包含了中文或者其他特殊字符,那么浏览器会自动给我么编码。而如果使用代码发送请求,那么就必须手动的进行编码,这时候就应该使用urlencode函数来实现,urlencode可以把字典数据转换为URL编码的数据

技术分享图片

技术分享图片

 

 parse_qs函数:

可以将经过编码后的url参数进行解码

技术分享图片

 

urlparse和urlsplit:

有时候拿到一个url,想要对这个url中的各个组成部分进行分割,那么这时候就可以使用urlparse或者是urlsplit来进行分割

技术分享图片

技术分享图片

技术分享图片

urlparse和urlsplit基本上是一模一样,唯一不一样的是

urlparse多了一个params属性

url = "http://www.baidu.com/s;hello?wd=python&username=abc#1"
urlparse可以获取到hello,而urlsplit获取不到

技术分享图片

 

爬虫学习笔记-urllib库

原文:https://www.cnblogs.com/yronl/p/9298310.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!