spark on yarn

时间：2017-12-22 22:36:17 阅读：216 评论：0 收藏：0 [点我收藏+]

公司中一般采用spark on yarn 模式，下面主要介绍spark on yarn的安装与简单程序运行。

1、spark on yarn两种运行模式

yarn-cluster：用于生产环境。Driver和AM运行在一起，client单独。

yarn-client：能立即看到输出结果。Driver运行在本地。AM仅用来管理资源。

client提交的job都会在worker上分配一个唯一的APPmaster。

2、配置spark-env.sh文件，让spark找到yarn在哪里

HADOOP_CONF_DIR=/home/hadoop/app/hadoop/etc/hadoop

3、配置slaves文件，指定在哪些节点运行worker

技术分享图片

4、spark-env.sh—spark的环境变量

技术分享图片

5、试运行集群

bin/spark-shell --master yarn-client

启动成功：

技术分享图片

6、作业提交（运行pi）

bin/spark-submit \
--class org.apache.spark.examples.JavaSparkPi \
--master yarn-client \
--num-executors 1 \
--driver-memory 1g \
--executor-memory 1g \
--executor-cores 1 \
lib/spark-examples-1.6.1-hadoop2.6.0.jar

技术分享图片

错误解决：

技术分享图片

解决方式：

同步时间
在hadoop配置文件中yarn-site.xml配置

技术分享图片

spark on yarn

原文：http://www.cnblogs.com/VillageKnight-Ding/p/8082893.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)