首页 > 其他 > 详细

第二节:Hadoop之Hadoop概述2

时间:2021-01-19 12:24:52      阅读:38      评论:0      收藏:0      [点我收藏+]

1.2.2 Hadoop生态系统
1.概述
当下Hadoop已经成长为一个庞大的体系,貌似只要和海量数据相关的,没有哪个领域缺少 Hadoop的身影.
狭义的Hadoop:是一个适合大数据分布式存储和分布式计算的平台,包括HDFS、 MapReduce和YARN.
广义的 Hadoop:指以 Hadoop为基础的生态系统,是一个很庞大的体系, Hadoop是其中最重要最基础的

一个部分:生态系统中的每个子系统只负责解决某一个特定的
问题域(甚至可能更窄),不是一个全能系统而是小而精的多个小系统, Hadoop生态系统的主要构成如图1.1所示。

技术分享图片

 

图1.1 Hadoop生态系统


2. HDFS
Hadoop生态圈的基本组成部分是Hadoop分布式文件系统(HDFS),大数据处理框架比如 MapReduce或者Spark等要处理的数据源大部分都是存储在HDFS之上。
Hive或者 HBase等框架的数据通常情况下也是存储在HDFS之上的。简言之:HDFS为大数据的存储提供了保障。

3. MapReduce
MapReduce是一个分布式、并行处理的编程模型,开发人员编写 Hadoop的MapReduce作业就能使用存储在HDFS中的数据来完成相应的数据处理功能。


4. YARN
是 Hadoop2.x之后对 Hadoop1.x之前 Job Tracker和 Task Tracker模型的优化而诞生的,主要职责是负责整个系统的资源管理和调度,而且在YARN之上能运行各种不同类型

( MapReduce、Tez、Spark)的执行框架。

5. HBase
HBase是一个建立在HDFS之上的面向列的数据库,用于快速读写大量数据。HBase使用 Zookeeper进行管理,确保所有组件都正常运行,
HBase查询速度的一个关键因素就是其 RowKey设计的是否合理,这点需要重点关注。


6. ZooKeeper
Zookeeper是分布式协调服务的框架, Hadoop的许多组件依赖于 Zookeeper,比如 HDES NameNode HA的自动切换、 HBase的高可用、以及 Spark Standalone模式Master的HA机制都是通过 Zookeeper来实现的

7. Hive
Hive让不熟悉 Map Reduce的开发人员能编写数据查询语句(sOL语句)来对大数据进行统计分析操作,Hive的执行原理就是将SQL语句翻译为 MapReduce作业并提交到 Hadoop集群上运行,这个框架一诞生就受到了很多熟悉SOL的人员的追捧,
因为只需要写SQL,而不需要面向 MapReduce编程AP进行相应代码的开发,大大降低了学习的门槛也提升了开发效率。

8. Pig

Pig是一个用于并行计算的高级数据流语言和执行框架,有一套和SOL类似的执吾句,处理的对象是HDFS上文件。Pig的数据处理语言是数据流方式的,一步一步的进行处理(该框架简单了解即可,近些年在生产上使用的并不是太多)

9. Sqoop
是一个用于在关系数据库、数据仓库(Hive)和 Hadoop之间的数据转移框架。可以借助于Sqoop完成关系型数据库到HDFS、Hive、 HBase等 Hadoop生态系统中框架的数据导入导出操作,底层也是通过 MapReduce作业来实现的。

10. Flume
Fume是由 Cloudera提供的一个分布式、高可靠、高可用的服务,用于分布式的海量日志的高效收集、聚合、移动/传输系统的框架;Flume是一个基于流式的数据的非常简单的(只需要一个配置文件)、灵活的、健壮的、容错的架构。

11. Oozie
Ooze是一个工作流调度引擎,在 Ooze上可以执行 MapReduce,Hive,Spak等不同类型的单一或者依赖性(后一个作业的执行是依赖于前一个或者多个作业执行成功后执行的)的作业。可以使用 Cloudera Manager中的HUE子项目在页面上对Ooie进行配置和管理,类似的工作流调度引擎在大数据中使用的还有 Azkaban,后续章节详细介绍。

12. Mahout

Mahout是一个机器学习和数据挖据库,它提供的 MapReduce包含很多实现,包括聚类算法,回归测试、统计建模。

 

 


三、大数据应用案例


1.大数据在华数传媒的应用

当下大数据之热使得技术界对 Hadoop的话题热火朝天,但在日常工作中,企业往往还是遵循既有模式,对于 Hadoop到底能否真正帮到金业的应用依然心存顾虑Hadoop是不是很年轻?这个开源的事物能否符合公司业务级的严谨要求?有没有企业真的应用过?一系列问题素绕人们心头。这可以理解,毕竟任何一个新生事物出来都要有一个接受过程。
对于 Hadoop,其实这些都不是问题,专业人士都知道, Hadoop到现在已有10余年,
这对于一个实用技术的稳定发展已足够长久,事实上,虽然“大数据”一词才出来二三年但它实际指称的海量的、多类型的数据现象早就有了,不但在互联网领域,更在工业商业,通信、金融、传媒等存在久远,比如,生产线上巨量传感器数据的接收分析
通信系统全程全网的实时日志文件采集与分析、医疗系统密集数据采集与分析从而帮助快速的科学诊断等等,所有这些都需要新型的数据处理技术来支撑, Hadoop在这些领域突显了强大竞争力,并在国内外的相关实践中获得广泛应用
2013年,华数传媒的大数据系统完成了从无到有的基础建设,实现了基本应用然而,华数大数据仍面临很多挑战:数据量增加带来的服务性能压力、数据分析无法满足高时效性业务、业务支撑功能无法满足复杂的商用需求、对网络和服务器质量等数据分析仍为空白等等。为此,华数传媒亟需解决如下问题:

(1)数据采集、存储和转发,通过大数据技术满足海量、多来源、多样性数据的存储、管理要求,支持平台硬件的线性扩展,提供快速实时的数据分析结果,并迅速作用于业务。
(2)个性化用户推荐。不仅限于数据本身的分析和决策价值,通过构建在大数据平台之上整合业务能力,为用户提供融合、个性化的内容服务。
(3)从内容传输到内容制造。使用大数据挖掘技术先于观众知道他们需求,预知将受到追捧的电视。另外,通过观众对演员、情节、基调、类型等元数据的标签化来了解受众偏好,从而进行分析观测,为后续的影视制作等内容开发做好准备。

(4)使用大数据平台提供基于全量数据的实时榜单。以时间(小时/天/周)用户等维度,对点播节目、直播节目、节目类别、搜索关键词等进行排名分析、同比环比分析、趋势分析等。地区风向标主要以城市和时间等维度分析点播排行、剧集排行分类排行、热搜排行及用户数量的变化另外。从时间频道,影片类型、剧集等维度根据在看数量、新增数量、结束观看数量,完整看完等分析用户走向。
(5)新媒体指数分析,通过对用户行为分析获取很多的隐性指标,从侧面反映用户对业务的认可度、用户的使用行为习惯等。在此基础之上,大数据分析可帮助华数传媒构建规范的指标分析和衡量体系,为业务运营提供强有力的指导。
(6)智能推荐,运用星环科技大数据基础架构,通过对用户行为数据的采集分析,进行精准画像,使用智能推荐引擎,实现信息的个性化推荐(TV屏、手机、PC)个性化营销(个性化广告,丰富产品组合、市场分析)基于可持续扩展和优化智能推荐算法,以及大数据带来的实时数据交互能力,为每一个用户量身定做的推荐节目极大提高了产品的到达率,增强了用户忠诚度。

2.大数据在全球最大超市 Wal-Mart的应用


Wal-Mart应用大数据技术分析顾客商品搜索行为,找出超越竞争对手的商机。

全球最大连锁超市 Wal-Mart虽然十年前就投入在线电子商务,但在线销售的营收远远落后于Amazon,后来, Wal-Mart决定采用 Hadoop来分析顾客搜寻商品的行为以及用户通过搜索引擎寻找到Wal-Mart网站的关键词,利用这些关键词的分析结果发据顾客需求,以规划下一季商品的促销策略,甚至打算分析顾客在 Facebook、 Twitter等社交网站上对商品的讨论,
甚至 Wal-Mart能比父亲更快知道女儿怀孕的消息,并且主动寄送相关商品的促销邮件,期望能比竞争对手提前一步发现顾客需求。

3.大数据在全球最大拍卖网站eBay的应用


eBay用 Hadoop拆解非结构性巨量数据,降低数据仓储负载经营拍卖业务的eBuy用 Hadoop来分析买卖双方在网站上的行为,cBay拥有全世
界最大的数据仓储系统,每天增加的数据量有50TB,光是储存就是一大挑战,更何况要分析这些数据,而且更困难的挑战是这些数据包括结构化的数据和非结构化的数据,
如照片、影片、电子邮件、用户的网站浏览Log记录等。
eBay是全球最大的拍卖网站,8千万名用户每天产生的50TB数据量,相当于五增加了1座美国国会图书馆的数据量。
eBay分析平台高级总监 Oliver Ratzesberger也坦言,大数据分析最大的挑战就是要同时处理结构化以及非结构化的数据,eBay正是用 Hadoop来解决这一难题。

eBay在5年多前就另外设置了一个软硬件整合的平台 Singularity,搭配压缩技术来解决结构化数据和半结构化数据分析问题,
3年前更在这个平台整合了 Hadoop来处理非结构化数据,通过 Hadoop来进行数据预处理,将大块结构化和非结构化数据拆解成小型数据,再放入数据仓储系统的数据模型中分析,来加快分析速度,也减轻对数据仓储系统的分析负载。
 

 

第二节:Hadoop之Hadoop概述2

原文:https://www.cnblogs.com/taimi/p/14297158.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!