首页 > 其他 > 详细

Spark编程学习笔记--分区

时间:2020-03-10 15:26:13      阅读:57      评论:0      收藏:0      [点我收藏+]

分区

分区的作用和原则

分区第一个作用增加程序的并行度实现分布式计算

分区第二个作用减少通信开销

技术分享图片

 

技术分享图片

 

 

 技术分享图片

技术分享图片

 

技术分享图片

 

 技术分享图片

 

 

spark.default.parallelism

Local模式 默认为本地机器的CPU 数目

Apache Mesos模式 没有设置时,默认分区数目为8

Standalone模式和YARN模式    规则:集群中所有CPU核心数目总和 spark.default.parallelism 中的最大值

 

设置分区的方法

创建RDD时手动指定分区个数

 

sc.textFile(path, partitionNum)

 

 使用repartition分法重新设置分区个数

 技术分享图片

 

 自定义分区方法

继承org.apache.spark.Partitioner

 

 

 

Spark编程学习笔记--分区

原文:https://www.cnblogs.com/conquorer/p/12455430.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!