三省2：hadoop是什么鬼1

时间：2017-03-07 14:31:04 阅读：221 评论：0 收藏：0 [点我收藏+]

一开始玩了会手机，实在是良心受煎熬，到这个时间点，必须要开始学点东西了。。身边的同学有学运维开发，有学java开发，而我本来也是学的运维，无奈学习不努力，工作徒伤悲。。。既然身边的人都有学专业的东西，做专业的工作，那我就选择一个没人做的，也是从0开始的大数据开始吧，反正也是学，比别人起点低还不如找一个别人也没有的起点去学习。所以，开始我的第一课。。。Hadoop！

看电视也看到了点东西。。

沉鱼落雁，闭月羞花。。。沉鱼是指西施浣纱，落雁是指昭君出塞，闭月是指貂蝉拜月，羞花是指杨贵妃醉酒看花。。。

开始：

Hadoop，至少现在会拼了。。

（copy）Hadoop是一个由Apache基金会所开发的开源分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序，充分利用集群的威力进行高速运算和存储。

该图主要列举了生态圈内部主要的一些组件，从底部开始进行介绍：

1) HDFS：Hadoop生态圈的基本组成部分是Hadoop分布式文件系统（HDFS）。HDFS是一种数据分布式保存机制，数据被保存在计算机集群上。数据写入一次，读取多次。HDFS为HBase等工具提供了基础。

2)MapReduce：Hadoop的主要执行框架是MapReduce，它是一个分布式、并行处理的编程模型。MapReduce把任务分为map(映射)阶段和reduce(化简)。开发人员使用存储在HDFS中数据（可实现快速存储），编写Hadoop的MapReduce任务。由于MapReduce工作原理的特性， Hadoop能以并行的方式访问数据，从而实现快速访问数据。

3) Hbase：HBase是一个建立在HDFS之上，面向列的NoSQL数据库，用于快速读/写大量数据。HBase使用Zookeeper进行管理，确保所有组件都正常运行。

4) ZooKeeper：用于Hadoop的分布式协调服务。Hadoop的许多组件依赖于Zookeeper，它运行在计算机集群上面，用于管理Hadoop操作。

5) Hive：Hive类似于SQL高级语言，用于运行存储在Hadoop上的查询语句，Hive让不熟悉MapReduce开发人员也能编写数据查询语句，然后这些语句被翻译为Hadoop上面的MapReduce任务。像Pig一样，Hive作为一个抽象层工具，吸引了很多熟悉SQL而不是Java编程的数据分析师。

6) Pig：它是MapReduce编程的复杂性的抽象。Pig平台包括运行环境和用于分析Hadoop数据集的脚本语言(Pig Latin)。其编译器将Pig Latin翻译成MapReduce程序序列。

7) Sqoop：是一个连接工具，用于在关系数据库、数据仓库和Hadoop之间转移数据。Sqoop利用数据库技术描述架构，进行数据的导入/导出；利用MapReduce实现并行化运行和容错技术。

技术分享

。。。。。

了解了一点皮毛，有点困了，洗洗睡，明天接着看视频学习hadoop的安装。。

三省2：hadoop是什么鬼1

原文：http://shuaiz.blog.51cto.com/10626377/1903773

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)