首页 > 其他 > 详细

mapreduce分区

时间:2020-03-27 21:28:58      阅读:57      评论:0      收藏:0      [点我收藏+]

MapReduce当中的分区:相同key的数据发送到同一个reduce当中去
物以类聚,人以群分。
分区就是把同一类的数据,划分到一个地方去,划分到同一个reduce当中去
直达的火车,上面坐的人都是去同一个地方的
默认使用的是HashPartitioner 这个类来对我们的数据进行分区,实现将相同的数据,发送到同一个reduce当中去
使用的算法:使用k2 取hashCode值,然后对reduceTask的个数进行取模

 

 

 

如果是自定义分区要点:

1、不能在本地跑,只能打成jar包在linux上执行

2、要设置ReduceTask的个数

   例如设置两个ReduceTask的个数:

  job.setReduceTasks(2)

mapreduce分区

原文:https://www.cnblogs.com/nacyswiss/p/12584018.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!