首页 > 其他 > 详细

Hadoop概述

时间:2020-01-10 11:45:19      阅读:70      评论:0      收藏:0      [点我收藏+]

Hadoop概述

Hadoop项目是Apache的顶级项目
Hadoop项目是以可靠、可扩展和分布式计算为目的发展而来的软件

大数据特点

数据容量大:TB--PB
数据类型多:各种非结构化数据。
商业价值高:客户群体细分,提供定制化服务
处理速度快:分布式存储计算,提高效率

Hadoop核心组件

主要作用:存储和计算
核心组件:
hadoop Common: 一组分布式文件系统通用的I/O的组件与接口。(序列化、java RPC 和持计划数据结构)
HDFS:Hadoop的分布式文件系统
Hadoop MapReduce:分布式计算框架
        可以离线分布式计算,多台机器同时计算其中的一部分数据,将计算结果汇总。得到计算结果。可扩展
Hadoop Yarn:(分布式的资源管理器)
        MapReduce任务运行在yarn上。yarn提供资源

Hadoop的框架演变

Hadoop1.0的MR:将资源管理和任务调度、计算功能放在一起、扩展性差,不支持多计算框架
Hadoop2.0的MR:将资源管理和任务调度分开,提高扩展性,支持多计算框架

Hadoop生态圈

管理工具:Ambari、CDH等等。目前多数企业使用CDH管理集群
资源管理器:yarn
        yarn管理集群资源,通俗讲就是用来跑任务的。
计算框架:MapReduce(离线)、Storm、Spark、Flink(实时计算)
数据采集:Flume 、sqoop
        Flume:文本数据采集,例如可以将网络日志等文件归集到HDFS的某个路径下
        Sqoop:数据库数据同步,例如将MySQL数据同步到某个HDFS路径下
生成组件:pig
        可以通过编写脚本,生成MR任务
数据仓库:hive  (数据存储在hdfs
协调服务:zookeeper
        各个组件之间的协调服务,可以作为高可用的协调服务,(高可用:指保证集群中某个服务器宕机,不会影响整个集群的使用)
数据库中间件:hbase、ES、rides、mongledb
数据存储:HDFS(可备份,可扩展)
任务调度:oozie

技术分享图片

Hadoop概述

原文:https://www.cnblogs.com/mayucheng123/p/12174874.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!