首页 > 其他 > 详细

爬虫初识

时间:2020-09-13 09:22:49      阅读:52      评论:0      收藏:0      [点我收藏+]

什么是爬虫?

- 就是通过编写程序模拟浏览器上网,然后让其去互联网上爬取数据的过程
  • 爬虫的分类:
    • 通用爬虫
      • 抓取一整张网页的数据
    • 聚焦爬虫
      • 抓取页面的局部数据
    • 增量式爬虫
      • 用来监测网站数据更新的情况,以便爬取到网站最新更新出来的数据
  • 反爬机制
    • 针对门户网站,阻止爬虫爬取
  • 反反爬策略
    • 针对爬虫程序员,破解反爬机制
  • 爬虫合法吗?
    • 爬取数据的行为风险体现:
      • 爬虫干扰了被访问网站的正常运行
      • 爬虫爬取了受法律保护的特定类型的数据或信息
    • 规避风险
      • 严格遵守网站设置的robots协议
      • 优化代码,避免干扰到网站的正常运行
      • 爬取到的信息属于个人信息或涉及隐私商业机密等的,应及时停止并删除
  • robots协议:文本协议
    • 第一个反爬机制
    • 特性:防"君子"不防"小人"的机制

学习方法

  • Anaconda是一个集成环境
    • 基于浏览器的一种可视化开发工具 : jupyter notebook
    • 可以在指定目录的终端录入 jupyter notebook 指令, 然后启动服务
  • cell分两种模式
    • code代码模式
    • md文本编辑模式
  • 快捷键
    • 添加cell:a, b
    • 删除cell:x
    • 执行:shift+enter
    • 缩进和补全:tab
    • 切换cell模式:
      • m code->markdown
      • y markdown->code
    • 打开帮助文档:shift+tab

爬虫初识

原文:https://www.cnblogs.com/straightup/p/13659989.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!