Spark概念梳理

时间：2016-04-24 21:52:29 阅读：270 评论：0 收藏：0 [点我收藏+]

1）spark通常把shuffle操作定义为划分stage的边界，其实stage的边界有两种：ShuffleMapTask和ResultTask。ResultTask就是输出结果，输出结果的称为ResultTask，都为引起stage的划分，比如以下代码：

rdd.parallize(1 to 10).foreach(println)

每个stage内部，一定有一个ShuffleMapTask或者是ResultTask，因为这两者是划分stage的依据，是stage之间的边界。一个stage中的所有task最后会以taskSet的形式提交给TaskScheduler去执行，Spark实现了三种不同的TaskScheduler，包括LocalSheduler、ClusterScheduler和MesosScheduler。

2）actions(动作)会生成一个job，触发job的提交，所以我们从客户端提交的一个作业可能会被划分为多个job。但是，如果一个action后没有其他操作，也就是这个action是最后一个操作的话，这个action就独立为一个stage，而非提交一个job。（参考0）

3)task分为ShuffleMapTask和ResultTask（参考1）。

Spark概念梳理

原文：http://www.cnblogs.com/lz3018/p/5428250.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)