首页 > 编程语言 > 详细

python爬虫

时间：2018-12-26 00:11:28 阅读：167 评论：0 收藏：0 [点我收藏+]

根据特定的需求，抓取指定的数据

代替浏览器上网

　　网页的特点：

　　　　1、网页都有自己唯一的URL

　　　　2、网页内容都是html结构

　　　　3、使用的都是http或https协议

　　爬虫步骤：

　　　　1、给一个URL

　　　　2、写程序，模拟浏览器访问URL

　　　　3、解析内容，提取数据

　　环境：

　　　　windows环境、linux环境

　　　　python3.6 　　64位

　　使用的工具：

　　　　1、库

　　　　　　urllib \ requests \ bs4

　　　　2、解析网页内容的知识

　　　　　　正则表达式、bs4、xpath、jsonpath

　　　　3、涉及到动态html

　　　　　　selenium+phantomjs、chromeheadless

　　　　4、scrapy框架

　　　　5、scrapy-redis组件

　　　　6、涉及到爬虫-反爬虫-反反爬虫的一些内容

　　　　　　UA、代理、验证码、动态页面等

http协议

　　　　

原文：https://www.cnblogs.com/yellowhat/p/10176992.html

踩

(0)

赞

(0)

举报

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)

最新文章

更多>

教程昨日排行

更多>

友情链接

汇智网 PHP教程插件网

关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com

© 2014 bubuko.com 版权所有

打开技术之扣，分享程序人生！