最近面试的几个问题（二) request_url 去重之布隆去重

时间：2020-04-07 11:26:18 阅读：108 评论：0 收藏：0 [点我收藏+]

去重策略

1）使用scrapy自带的set集合去重，当程序结束的时候会被清空，缺点：再次运行会导致数据重复。

2）使用mysql做去重，对url地址进行md5，base64加密，加密之后会得到一串字符，判断字符串

是否在mysql表中，如果在表示已经爬取过了，如果不在，表示没有爬取，执行请求，将加密后的url

地址存入表中。缺点：但是这个方法对mysql压力过大，导致崩溃，不推荐

3）使用scrapy_redis的去重策略,会将已经爬取的url地址经过编码后存入redis,并且会做数据持久化,当爬虫再次启动时,会重新加载本地的数据,对爬虫的url做去重。缺点：如果数据量较大的时候，会占用较多的内存空间

4）使用布隆去重,采用多重哈希,将url地址映射到位阵列中的某个点上,空间和时间利用率更高(推荐)

布隆去重的优点和缺点

优点

相比于其它的数据结构，布隆过滤器在空间和时间方面都有巨大的优势。布隆过滤器存储空间和插入/查询时间都是常数。另外, Hash 函数相互之间没有关系，方便由硬件并行实现。布隆过滤器不需要存储元素本身，在某些对保密要求非常严格的场合有优势

缺点

但是布隆过滤器的缺点和优点一样明显。误算率（False Positive）是其中之一。随着存入的元素数量增加，误算率随之增加。但是如果元素数量太少，则使用散列表足矣。

原文链接：https://blog.csdn.net/LH_python/java/article/details/79708334

最近面试的几个问题（二) request_url 去重之布隆去重

原文：https://www.cnblogs.com/wzbk/p/12652264.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)

最近面试的几个问题 （二) request_url 去重之布隆去重

最近面试的几个问题（二) request_url 去重之布隆去重