首页 > 其他 > 详细

Hadoop1-认识Hadoop大数据处理架构

时间:2019-11-08 13:46:19      阅读:131      评论:0      收藏:0      [点我收藏+]

一、简介概述

  1、什么是Hadoop

    Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构

    Hadoop是基于java语言开发,具有很好的跨平台的特性,并且可以部署在廉价的计算机集群中

    Hadoop的核心是分布式文件系统HDFS(Hadoop Distribute File System)和MapReduce,安装完Hadoop默认就已经安装了HDFS和Mapreduce

    Hadoop被公认为行业大数据标准开源软件,在分布式环境下提供了海量数据的处理能力

    几乎所有主流厂商都围绕Hadoop提供开发工具,开源软件、商业化工具和技术服务,如谷歌、雅虎、微软、思科、淘宝等都支持Hadoop

    官方网址:http://hadoop.apache.org/

  2、Hadoop图标

  技术分享图片

 

  2、Hadoop的特性

    Hadoop是一个能够对大量数据进行分布式处理的软件框架,并且是以一种可靠、高效、可伸缩的方式进行处理的,它具有以下几个方面的特性:

    高可靠性

    高效性

    高扩展性

    高容错性

    低成本

    运行在linux平台上

    支持多种编程语言

  3、应用广泛

    互联网居多,雅虎、facebook(用于平台处理、推荐系统和数据仓库等)、百度、淘宝、网易、华为、中国移动等,其中,淘宝的Hadoop集群比较大

  4、企业应用架构

 技术分享图片

  5、版本

    1)版本演变

      Apache Hadoop版本分为两代,我们将第一代Hadoop称为Hadoop1.0,第二代Hadoop称为Hadoop 2.0
      第一代Hadoop包含三个大版本,分别是0.20.x,0.21.x和0.22.x,其中,0.20.x最后演化成1.0.x,变成了稳定版,而0.21.x和0.22.x则增加了NameNode HA等新的重大特性
      第二代Hadoop包含两个版本,分别是0.23.x和2.x,它们完全不同于Hadoop 1.0,是一套全新的架构,均包含HDFS Federation和YARN两个系统,相比于0.23.x,2.x增加了NameNode HA和Wire-compatibility两个重大特性
      当前最新版本已经有3.X版本

    2)图示

技术分享图片

    3)各类版本

         Apache Hadoop

      Hortonworks

      Cloudera(CDH:Cloudera Distribution Hadoop)

      MapR

  6、各个版本区别

技术分享图片

二、Hadoop项目结构

    在不断丰富发展,现已成为一个丰富的Hadoop生态系统

  1、结构图

技术分享图片

  2、模块及相关项目

技术分享图片

 

 

 

 

 

安装部署请见:Hadoop2-认识Hadoop大数据处理架构-单机部署

参考:http://hadoop.apache.org/

参考:http://dblab.xmu.edu.cn/post/1089/

参考:https://cwiki.apache.org/confluence/display/HADOOP/Hadoop+Active+Release+Lines

转载请注明出处:https://www.cnblogs.com/zhangxingeng/p/11718557.html

 

 

 

 

 

 

 

Hadoop1-认识Hadoop大数据处理架构

原文:https://www.cnblogs.com/zhangxingeng/p/11718557.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!