首页 > 其他 > 详细

Hadoop简介

时间:2020-04-03 12:57:56      阅读:51      评论:0      收藏:0      [点我收藏+]

1.Hadoop的发展历史起源介绍

  a.Hadoop最早起源于Nutch、Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询的功能,但随着抓取网页数量的增加,遇到了严重的可扩展的问题——如何解决数10亿网页的存储和索引问题。  

  b.2003、2004年谷歌发表的两篇论文为该问题提供了可行的解决方案。

    ——分布式文件系统(GFS),可用于处理海量网页的存储

    ——分布式计算框架(MapReduce),可用于处理海量数据网页的索引计算

  c.Nutch的开发人员完成了相应的开源实现HDFS和MapReduce,并从Nutch中剥离称为独立项目Hadoop,到了2008年1月,Hadoop成为了Apache顶级项目(同年,cloudera公司成立),迎来了他的快速发展。

  d.Hadoop作者Doug Cutting。

  e.Apache Lucene是一个文件搜索系统库。

  f.Apache Nutch作为前者的一部分,主要包括web爬虫、全文检索;2003年‘谷歌分布式文件系统GPS’论文,2004年开源版本HDFS。

  g.2004年‘谷歌MapReduce’论文,2005年Nutch开源版MapReduce。

  狭义上来说,hadoop就是单独指代hadoop这个软件

  广义上来说,hadoop指代大数据的一个生态圈,包括很多其他的软件

  技术分享图片

 

2.hadoop的发展版本简介

  0.x系列:hadoop当中最早的一个开源版本,在此基础上演变了了1.x以及2.x。

  1.x系列:hadoop第二代开源版本,主要修复0.x版本的bug。(计算和资源分配胶合在一起)

  2.x系列:架构产生了重大变化,引入了yarn平台等许多新特性,也是现在生产环境中使用做多的。

  3.x系列:在2.x的基础上,引入了一些hdfs的新特性,且已经发行了稳定版本,也是未来的趋势。

 

 3.hadoop生产环境版本选择

  Hadoop三大发行版本:Apache、Cloudera、Hortonworks。

  Apache:原生版本,入门学习比较好,有bug、兼容性问题、有需要升级的地方。

  其他厂商解决了原生apache的部分问题:

  Cloudera:大型互联网企业使用比较多。

  Hortonworks:文档比较好。

  Apache Hadoop:

    官网地址:http://hadoop.apache.org/releases.html

    下载地址:https://archive.apache.org/dist/hadoop/common/

  Cloudera Hadoop:

    官网地址:https://www.cloudera.com/downloads/cdh/5-10-0.html

    下载地址:http://archive.cloudera.com/cdh5/cdh/5/

    a.2008年成立的Cloudera是最早将Hadoop商用的公司,为合作伙伴提供Hadoop的商用解决方案,主要包括支持、咨询服务、培训。

    b.2009年Hadoop的创始人Doug Cutting也加盟了Cloudera公司。Cloudera产品主要为Cdh,Cloudera Manager,ClouderaSupport。

    c.cdh是Cloudera的Hadoop发行版,完全开源,比Apache Hadoop在兼容性,安全性,稳定性上有所增强。

    e.Cloudera Manager是集群的软件分发管理及监控平台,可以在几小时内部署好一个Hadoop集群,并未集群的节点及服务进行实时监控。

    f.Cloudera Support是对Hadoop的技术支持。

    g.Cloudera的标价为每个节点每年4000美元。Cloudera开发并贡献了可实时处理大数据的lmpala项目。

  Hortonworks Hadoop:

    官网地址:https://hortonworks.com/products/data-center/hdp/

    下载地址:https://hortonworks.com/downloads/#data-platform

    现Cloudera与Hortonworks已合并。

    a.2011年成立的Hortonworks是雅虎与硅谷风投公司Benchmark Capital合资组建。

    b.公司成立之初就吸纳了大约25~30名专门研究Hadoop的雅虎工程师,上述工程师均在2005年开始协助雅虎开发Hadoop,贡献了80%的代码。

    c.雅虎工程副总裁、雅虎Hadoop开发团队负责人Eric Baldeschwieler出任Hortonworks的首席执行官。

    d.Hortonworks的主打产品是Hortonworks Data Platform(HDP),也同样是100%开源产品,HDP除常见的项目外还包括了Ambari,一款开源的安装和管理系统。

    f.HCatalog一个元数据管理系统,HCatalog现已集成到Facebook开源的Hive中。Hortonworks的Stinger开创性极大的优化了Hive项目。Hortonworks为入门提供了一个非常好的,易于使用的沙盒。

    g.Hortonworks开发了很多增强特性并提交至核心主干,这使得Apache Hadoop能够在包括Window Server和Windows Azure在内的Microsoft Windows平台上本地运行。定价以集群为基础,每个节点每年为12500美元。

 

4.Hadoop的架构模块介绍

  技术分享图片

 

   HDFS模块:数据存储

    namenode:主节点,主要负责集群的管理以及元数据信息管理。(一个)

    datanode:从节点,主要负责存储用户数据。(多个)

    seconndaryNameNode:辅助namenode管理元数据信息,以及元数据信息的冷备份。

  Yarn模块:资源分配

    ResourceManager:主节点,主要负责资源(cpu、内存、磁盘等)分配。(一个)

     NodeManager:从节点,主要负责执行任务。(多个)

  Mapreduce模块:数据处理

5.Hadoop的运行模式

  Hadoop运行模式包括:本地模式、伪分布式模式、完全分布式运行模式。

  1.本地运行模式

    无须任何守护进程,所有程序都运行在同一个JVM上执行。在独立模式下调试MR程序非常高效。所以一般该模式主要是在学习或者开发阶段调试使用。

  2.伪分布式运行模式

    Hadoop守护进程运行在本地机器上,模拟一个小规模集群,换句话说,可以配置一台机器的Hadoop集群伪分布式是完全分布式的一个特例(所有的节点都在一台机器上运行)。

  3.完全分布式运行模式(开发重点)

    Hadoop守护进程运行在一个集群上,需要多台机器实现完全分布式服务安装。

 

Hadoop简介

原文:https://www.cnblogs.com/dan2/p/12625426.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!