2.?目录结构:
关于Hadoop
什么是Hadoop??
?Hadoop?是apache?子项目?专注于分布式计算的?稳定高效标准的开源软件体系。
模块:
Hadoop?Common?:公用类支出协同模块
Hadoop?Distributed?File?System?(HDFS):分布式文件系统
Hadoop?YARN?:定时任务和集群资源管理框架(2.x版本,1.x版本没有)
Hadoop?MapReduce?:并行处理大数据
文档信息
http://hadoop.apache.org/docs/current/
相关子项目
*Ambari:一个基于网络的工具,配置,管理,监控的Apache?Hadoop集群包括Hadoop?HDFS及其Hadoop体系的性能诊断的管理工具。
Avro?:?系列化系统
Cassandra:可扩展的多主数据库没有单点故障(HA)
Chukwa一种用于管理大型分布式系统的数据采集系统。
*HBase:一个可扩展的,支持大型表的结构化数据存储的分布式数据库。
*Hive:数据仓库的基础设施,提供数据汇总和专案查询。
*Mahout:一个可扩展的机器学习和数据挖掘库。(用于数据挖掘)
Pig?:一个高层次的数据流语言支持并行计算的一种框架。
*Spark::一个对Hadoop数据进行快速整体计算。它提供了一个简单而富有表现力的编程模型,支持多种应用,包括ETL,机器学习,数据流处理,和图形计算。
Tez:广义的数据流编程框架,基于Hadoop?Yarn,它提供了一个强大和灵活的引擎执行任务的任意DAG为批处理和交互式的使用情况。tez被Hive,Pig及Hadoop生态系统中的其他框架广泛采用,在Hadoop生态猪?等框架,以及其他的商业软件(如ETL工具),以取代Hadoop?MapReduce?作为底层的执行引擎。
*zookeeper:一个高性能协调分布式程序的应用。
原文:http://xinyeyouxiang.iteye.com/blog/2191492