海量数据处理常用思想及重要数据结构

时间：2019-02-04 11:14:13 阅读：228 评论：0 收藏：0 [点我收藏+]

1、大顶堆、小顶堆技术分享图片

特别适合topN问题，如求海量日志中最大的100个数。既然是海量数据，那么内存中一下子无法加载所有的数据集，此时可以先读取海量数据中的100个数，建立数据集为100的小顶堆(小顶堆的对顶比所有元素都小)，然后依次往堆结构中读取数字，调整堆，使其保持小顶堆，最后得到top100的最大数。

2、hash映射进行分治，然后归并

3、hash统计

4、bloom filter

5、外排序

6、bitmap

7、多层划分

8、tire树

9、mapreduce

原文：https://www.cnblogs.com/bewolf/p/9352174.html

踩

(0)

评论一句话评论（0）

分享档案

更多>