RDD

时间：2020-09-18 16:41:51 阅读：39 评论：0 收藏：0 [点我收藏+]

import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.rdd.RDD


//map(func)
object rdd2 {
  def main(args: Array[String]): Unit = {
    //本地模式
    val conf: SparkConf = new SparkConf().setAppName("My scala word count").setMaster("local")

    //创建spark上下文对象
    val sc = new SparkContext(conf)


    //1）map对所有数据进行操作
    val listRDD: RDD[Int] = sc.makeRDD(1 to 10,2)
    val mapRDD: RDD[Int] = listRDD.map(data=>data*2)
    mapRDD.collect().foreach(println)


    //2）mapPartions对所有分区进行操作
    //mapPartitions效率比map高
    //mapPartitions可能会发生内存溢出
    val mapPartitionsRDD: RDD[Int] = listRDD.mapPartitions(datas => {
      datas.map(data=>data*2)
    })

    mapPartitionsRDD.collect().foreach(println)

    //3）mapPartitionsWithIndex算子，分区号
    val tupleRDD: RDD[(Int, Int)] = listRDD.mapPartitionsWithIndex {
      case (num, datas) => {
        datas.map(data => (data, num))
      }
    }
    tupleRDD.collect().foreach(println)




  }


}

RDD

原文：https://www.cnblogs.com/hapyygril/p/13691433.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)