首页 > 移动平台 > 详细

在spark上运行独立程序(Self-Contained Applications)

时间:2015-07-05 18:35:32      阅读:363      评论:0      收藏:0      [点我收藏+]

在hadoop集群上搭好spark环境及体验spark shell之后可以重新做做官方的快速上手

运行独立程序(SimpleApp.py):
首先编写程序(这里用Pytho的API):

from pyspark import SparkContext

logFile = "README.md" #注意这里的文件是在hdfs中的
sc = SparkContext("local","Simple App")
logData = sc.textFile(logFile).cache()

numAs = logData.filter(lambda s:‘a‘ in s).count()
numBs = logData.filter(lambda s:‘b‘ in s).count()

print "lines with a: %i,lines with b: %i" %(numAs,numBs)

然后进入spark安装目录运行:

hadoop@Mhadoop:/usr/local/spark/spark-1.3.1-bin-hadoop2.4$ vi /home/hadoop/Public/SimpleApp.py
hadoop@Mhadoop:/usr/local/spark/spark-1.3.1-bin-hadoop2.4$
./bin/spark-submit --master local
/home/hadoop/Public/SimpleApp.py

core spark concepts:

每一个spark应用都包含一个在集群上运行着多个并行操作的主驱动程序(driver program)。它包括你应用的main函数和在集群上定义的分布式数据集以及对他们的操作。比如在《spark-shell初体验》中的Driver Program就是Spark shell。

Driver Program连接集群是通过SparkContext对象,在shell中这个对象已经被创建,即 sc。一旦有了这个对象,你就可以用它创建分布式数据集RDDS。比如上面程序中的logData

为了运行这些操作,Driver Programs 管理着许多工作节点即executors。比如我们执行count()操作,不同的机器可能计算文件的不同部分。


版权声明:本文为博主原创文章,未经博主允许不得转载。

在spark上运行独立程序(Self-Contained Applications)

原文:http://blog.csdn.net/yijichangkong/article/details/46763597

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!