Spark从入门到精通（一）

时间：2018-11-30 23:33:31 阅读：185 评论：0 收藏：0 [点我收藏+]

什么是Spark

大数据计算框架
离线批处理
大数据体系架构图（Spark）
Spark包含了大数据领域常见的各种计算框架：比如Spark Core用于离线计算，Spark SQL用于交互式查询，Spark Streaming用于实时流式计算，Spark MLib用于机器学习，Spark GraphX用于图计算
Spark主要用于大数据的计算，而Hadoop以后主要用于大数据的存储（比如HDFS、Hive、HBase）等，，以及资源调度（Yarn）
Spark+hadoop的组合是大数据领域最热门的组合，也是最有前景的组合
Spark与MapReduce计算过程，Spark基于内存进行计算，所以速度更快
Spark整体架构图

速度快：基于内存进行计算（当然也有部分计算基于磁盘，比如shuffle）
容易上手开发：Spark的基于RDD的计算模型，比Hadoop的基于Map-Reduce的计算模型要更加易于理解，更加易于上手开发，实现各种复杂功能，比如二次排序，topn等复杂操作时，更加便捷
超强的通用性：Spark提供了多种计算组件
集成Hadoop：Spark与Hadoop进行了高度的继承，完成double win
极高的活跃度

待续...

原文：https://www.cnblogs.com/sky-chen/p/10046888.html

踩

(0)

评论一句话评论（0）

分享档案

更多>