初学Hadoop(一)

时间：2015-03-12 02:09:17 阅读：311 评论：0 收藏：0 [点我收藏+]

1. Hadoop官网：http://hadoop.apache.org/

2.?目录结构：

关于Hadoop

什么是Hadoop?？

?Hadoop?是apache?子项目?专注于分布式计算的?稳定高效标准的开源软件体系。

模块：

Hadoop?Common?：公用类支出协同模块

Hadoop?Distributed?File?System?(HDFS)：分布式文件系统

Hadoop?YARN?：定时任务和集群资源管理框架（2.x版本，1.x版本没有）

Hadoop?MapReduce?：并行处理大数据

文档信息

http://hadoop.apache.org/docs/current/

相关子项目

*Ambari:一个基于网络的工具，配置，管理，监控的Apache?Hadoop集群包括Hadoop?HDFS及其Hadoop体系的性能诊断的管理工具。

Avro?:?系列化系统

Cassandra：可扩展的多主数据库没有单点故障(HA)

Chukwa一种用于管理大型分布式系统的数据采集系统。

*HBase:一个可扩展的，支持大型表的结构化数据存储的分布式数据库。

*Hive:数据仓库的基础设施，提供数据汇总和专案查询。

*Mahout:一个可扩展的机器学习和数据挖掘库。(用于数据挖掘)

Pig?:一个高层次的数据流语言支持并行计算的一种框架。

*Spark::一个对Hadoop数据进行快速整体计算。它提供了一个简单而富有表现力的编程模型，支持多种应用，包括ETL，机器学习，数据流处理，和图形计算。

Tez:广义的数据流编程框架，基于Hadoop?Yarn，它提供了一个强大和灵活的引擎执行任务的任意DAG为批处理和交互式的使用情况。tez被Hive,Pig及Hadoop生态系统中的其他框架广泛采用，在Hadoop生态猪?等框架，以及其他的商业软件（如ETL工具），以取代Hadoop?MapReduce?作为底层的执行引擎。

*zookeeper:一个高性能协调分布式程序的应用。

初学Hadoop(一)

原文：http://xinyeyouxiang.iteye.com/blog/2191492

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)