HADOOP的数据流

时间：2015-12-08 17:42:30 阅读：216 评论：0 收藏：0 [点我收藏+]

　　HDFS在InputFormat(将data转换为<key,value>)等支持下，将数据块传入MAPPER中，MAPPER输出<key, value>到内存，如果发生spill则存入本地文件, 形成较大文件region(可能有combine发生)。之后的去向分为两种，一种是本机有reduce，则加入到reduce的内存中；另外一种是远程复制到别的机器上的reduce中。经过merge和sort, 由reduce处理，并将数据写会HDFS。