在mapper加上combiner相当于提前进行reduce,即把一个Mappper中的相同key进行了聚合,减少shuffle过程中传输数据量,以及reducer端的计算量。【注意:map端的提前聚合不能影响最终的结果,eg:求平均值的就不能在map端提前聚合】
根据数据分布情况,自定义散列函数将key均匀分配到不同的reducer中去
hadoop解决数据倾斜方法
原文:https://www.cnblogs.com/dkp0911/p/13939869.html