解决的问题:
1. 磁盘读取速度慢:磁盘容量大了,将一个大的文件存在磁盘上,但读取速度慢。
解决方法:hdfs将文件拆开存在不同的节点(datanode)上,namenode记载文件存储的位置(管理datanode)。
一次写入,多次读取,hdfs同时读取多个datanode上数据,最后将datanode数据组合成该大文件。
只是增加了数据查找的时间(namenode找datanode数据时间)。
2. 数据分析速度和正确性:map reduce
原文:http://www.cnblogs.com/weixiaole/p/5174756.html