1:RDD的定义及五大特性剖析RDD是分布式内存的一个抽象概念,是一种高度受限的共享内存模型,即RDD时只读的记录分区的集合,能跨集群所有节点并行计算,是一种基于工作集的抽象模型。(1)分区列表(2)每一个分区都有一个计算函数(3)依赖于其它RDD的列表(4)key-value数据类型的RDD分区器(5)每一个分区都有一个优先位置列表2:DataSet的定义及内部机制剖析
spark的灵魂:RDD和DataSet
原文:https://blog.51cto.com/wangyichao/2436090