spark基础练习（未完)

时间：2015-10-14 01:31:09 阅读：294 评论：0 收藏：0 [点我收藏+]

1、filter
val rdd = sc.parallelize(List(1,2,3,4,5))
val mappedRDD = rdd.map(2*_)
mappedRDD.collect
val filteredRDD = mappedRdd.filter(_>4)
filteredRDD.collect

(上述完整写法)
val filteredRDDAgain = sc.parallelize(List(1,2,3,4,5)).map(2 * _).filter(_ > 4).collect

2、wordcount
val rdd = sc.textfile("/data/README.md")
rdd.count
rdd.cache
val wordcount = rdd.flatMap(_.split(‘、‘)).map(_,1).reduceByKey(_+_)
wordcount.collect
wordcount.saveAsTextFile("/data/result")

3、sort
val== rdd.flatMap(_split(‘ ‘)).map((_,1)).reduceByKey(_+_).map(x => (x._2,x._1)).sortByKey(false).map(x => (x._2,x._1)).saveasTextFile("/data/resultsorted")

4、union
val rdd1 = sc.parallelize(List((‘a‘,1),(‘b‘,1)))
val rdd2 = sc.parallelize(List((‘c‘,1),(‘d‘,1)))
val result = rdd1 union rdd2
result.collect
(join 同理)

spark基础练习（未完)

原文：http://www.cnblogs.com/yangsy0915/p/4876262.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)