首页 > 其他 > 详细

8.Spark集群测试

时间:2015-10-20 13:41:10      阅读:240      评论:0      收藏:0      [点我收藏+]

Spark集群测试

 

把Spark安装包下的”README.txt”上传到hdfs

技术分享

通过hdfs的web控制台可以发现成功上传了文件:

技术分享

启动Spark shell:

接下来通过以下命令读取刚刚上传到HDFS上的“README.md”文件 :

val count = file.flatMap(line => line.split(" ")).map(word => (word,1)).reduceByKey(_+_)

技术分享

对读取的文件进行以下操作:

val count = file.flatMap(line => line.split(" ")).map(word => (word,1)).reduceByKey(_+_)

技术分享

接下来使用collect命令提交并执行Job:

count.collect

技术分享

技术分享

从控制台可以看到我们的程序成功在集群上运行.

使用Spark交互模式:

1. 运行./spark-shell.sh

2. scala> val data = Array(1, 2, 3, 4, 5) //产生data

data: Array[Int] = Array(1, 2, 3, 4, 5)

3. scala> val distData = sc.parallelize(data) //将data处理成RDD

distData: spark.RDD[Int] = spark.ParallelCollection@7a0ec850 (显示出的类型为RDD)

4. scala> distData.reduce(_+_) //在RDD上进行运算,对data里面元素进行加和

12/05/10 09:36:20 INFO spark.SparkContext: Starting job...

5. 最后运行得到

12/05/10 09:36:20 INFO spark.SparkContext: Job finished in 0.076729174 s

res2: Int = 15

技术分享

8.Spark集群测试

原文:http://www.cnblogs.com/dmyu/p/4826525.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!