首页 > 编程语言 > 详细

python爬虫

时间:2018-12-26 00:11:28      阅读:165      评论:0      收藏:0      [点我收藏+]

根据特定的需求,抓取指定的数据

代替浏览器上网

  网页的特点:

    1、网页都有自己唯一的URL

    2、网页内容都是html结构

    3、使用的都是http或https协议

  爬虫步骤:

    1、给一个URL

    2、写程序,模拟浏览器访问URL

    3、解析内容,提取数据

  环境:

    windows环境、linux环境

    python3.6   64位

  使用的工具:

    1、库

      urllib \ requests \ bs4

    2、解析网页内容的知识

      正则表达式、bs4、xpath、jsonpath

    3、涉及到动态html

      selenium+phantomjs、chromeheadless

    4、scrapy框架

    5、scrapy-redis组件

    6、涉及到爬虫-反爬虫-反反爬虫的一些内容

      UA、代理、验证码、动态页面等

http协议

     

python爬虫

原文:https://www.cnblogs.com/yellowhat/p/10176992.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!