首页 > 其他 > 详细

【原创】爬虫反爬基础常见类型总结

时间:2021-05-17 15:18:28      阅读:14      评论:0      收藏:0      [点我收藏+]

 

1.浏览器伪装

格式:

User-Agent:自己抓包

2.访问地址伪装

格式:

reffer:自己抓包

3.ip地址伪装

格式:

免费版: proxies={‘https‘:‘ip:port‘}
收费版: proxies={‘https‘:‘http:user:password@ip:port‘}

4.伪装访问速率

格式:

import time,random
headers={xxx}
for i in range(10):
    response = xxx #模拟请求url
    time.sleep(random.uniform(1.1,5.4)) #重点时间随机

5.伪装用户真实信息

格式:

cookies=自己抓包

cookies升级:js、js混淆,已经超出普通人能力

6.字体反爬

常见某点评网,只能靠js,同cookies一样困难

7.Selenium防检测

这个需要加类似插件参数

8.网页禁止调试

F12不起作用,或者调试警告弹窗,这种直接不让你看数据

9.Ajax异步加载

selenium可以做,但是效率不高。调试原网页没数据,这种考虑js生成,或者有专门接口

10.其他反爬

动态验证码,封ip,封账号等

 

【原创】爬虫反爬基础常见类型总结

原文:https://www.cnblogs.com/hightech/p/14776349.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!