————厦门大学mooc:大数据技术原理与应用
两大核心:
分布式文件系统(HDFS)、分布式并行框架(MapReduce)
hadoop的特性:
1.高可靠性:Hadoop平台采用冗余副本机制
2.高效率
3.很好的扩展性
4.高容错性
5.成本低
Hadoop的结构:
Hive:在Hadoop中实现数据仓库的功能,可支持SQL语句(通过Hive转换成MapReduce语句)
Pig:实现流式处理,提供类似SQL的查询语言:Pig Latin(轻量级)
Oozie:调度完成不同的作业
zookeeper:负责分布式锁、集群管理等
HBase:支持随机读写和实时应用
Flume:日志收集,如收集实时性的流
Sqoop:用于在Hadoop与传统数据库之间进行数据传递
Ambari:部署、管理
原文:https://www.cnblogs.com/cellphone7/p/10063440.html