首页 > 其他 > 详细

Spark两种运行流程

时间:2020-04-12 16:27:29      阅读:48      评论:0      收藏:0      [点我收藏+]

 SparkOnYarn(cluster)

1.由客户端向ResourceManager提交请求,上传jar包和配置参数到RM分配的HDFS路径

2.ResuurceManager向NodeManager申请资源,创建Spark ApplicationMaster(每一个SparkContext都有一个appmaster)

3.NM启动ApplicationMaster,并向RMMaster注册

4.ApplicationMaster找到HDFS中的文件,启动SparkContext、DAGScheduler和YARN Cluster Scheduler

5.RS向RSM注册申请container

6.RM通知NM分配Container(每个Container对应一个executor)

7.Spark ApplicationMaster直接和Container(executor)进行交互,完成分布式任务

8.程序运行完后applicationMaster向RM注销自己

cluster模式下driver运行在集群中,其实是在ApplicationMaster这个进程中

 

Spark两种运行流程

原文:https://www.cnblogs.com/zy0423/p/12685860.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!