首页 > 其他 > 详细

爬虫初识

时间：2020-09-13 09:22:49 阅读：54 评论：0 收藏：0 [点我收藏+]

什么是爬虫?

- 就是通过编写程序模拟浏览器上网,然后让其去互联网上爬取数据的过程

爬虫的分类:
- 通用爬虫
  - 抓取一整张网页的数据
- 聚焦爬虫
  - 抓取页面的局部数据
- 增量式爬虫
  - 用来监测网站数据更新的情况,以便爬取到网站最新更新出来的数据
反爬机制
- 针对门户网站,阻止爬虫爬取
反反爬策略
- 针对爬虫程序员,破解反爬机制
爬虫合法吗?
- 爬取数据的行为风险体现:
  - 爬虫干扰了被访问网站的正常运行
  - 爬虫爬取了受法律保护的特定类型的数据或信息
- 规避风险
  - 严格遵守网站设置的robots协议
  - 优化代码,避免干扰到网站的正常运行
  - 爬取到的信息属于个人信息或涉及隐私商业机密等的,应及时停止并删除
robots协议:文本协议
- 第一个反爬机制
- 特性:防"君子"不防"小人"的机制

学习方法

Anaconda是一个集成环境
- 基于浏览器的一种可视化开发工具 : jupyter notebook
- 可以在指定目录的终端录入 jupyter notebook 指令, 然后启动服务
cell分两种模式
- code代码模式
- md文本编辑模式
快捷键
- 添加cell:a, b
- 删除cell:x
- 执行:shift+enter
- 缩进和补全:tab
- 切换cell模式:
  - m code->markdown
  - y markdown->code
- 打开帮助文档:shift+tab

原文：https://www.cnblogs.com/straightup/p/13659989.html

踩

(0)

赞

(0)

举报

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)

最新文章

更多>

教程昨日排行

更多>

友情链接

汇智网 PHP教程插件网

关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com

© 2014 bubuko.com 版权所有

打开技术之扣，分享程序人生！