spark内核源码解析一

时间：2020-05-09 17:34:57 阅读：51 评论：0 收藏：0 [点我收藏+]

1、Application，自己编写的spark程序。
2、spark-submit，利用shell来提交自己的spark程序
3、Driver，standalone提交方式，会通过反射构造出一个Driver进程。Driver进程会执行application程序。
4、SparkContext，Driver进程执行Application程序时会构造一个SparkContext。它会构造出DAGScheduler和TaskScheduler。构造TaskScheduler时，会去寻找集群的master，通过一个后台进程，然后向master注册Application。Master收到注册请求后会在spark集群上找worker，然后启动相应的Executor。
5、Master
6、Worker
7、Executor，进程。Executor通过上面的步骤启动后会反向注册到taskScheduler上去。所有Executor反向注册完成后，会结束SparkContext初始化，会继续执行Application代码。Executor每接收一个Task都会用TaskRunner封装，然后从线程池中找一个线程执行。TaskRunner就将我们写的代码，要执行的算子和函数拷贝，反序列化，然后执行Task。
8、Job，每执行一个action就会提交一个job提交给DAGScheduler。
9、DAGScheduler，DAGScheduler会将job划分为多个stage，然后为每一个stage创建一个taskset，stage划分算法很重要。TaskScheduler会把TaskSet里面的每一个Task提交到executor上面去执行，task分配算法。
10、TaskScheduler
11、ShuffleMapTask and ResultTask，Task有两种，只有最后一个stage的Task才是ResultTask，其余的都是ShuffleMapTask

最后spark应用的执行，就是stage分批次作为task提交到executor执行，每个task针对RDD的一个Partition，执行我们定义的算子和函数，依次类推直到结束。

技术分享图片

spark内核源码解析一

原文：https://www.cnblogs.com/xiaofeiyang/p/12858811.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)