首页 > 其他 > 详细

spark

时间:2014-04-11 10:15:51      阅读:527      评论:0      收藏:0      [点我收藏+]

spark

1. 比起hadoop hr在于快。。


2.spark 利用 delay schedule来解决速度。(简单的来说就是延迟很短的时间来看本机是否可以利用。而不是copy)


3.支持3种语言

  scala(2.10.x)

  python(推荐python2.7。。最好不要用3.0以上的)

  java(请用java8) (java8以前版本的太慢了。不推荐使用)


4.有4种模式看可以运行  local(多用于测试) yran mesos standalone 


这里有必要说下scala语言

基于jvm的fp+oo

与java互操作

var x: Int =7

def square(x:Int):Int =x*x

def square(x:Int):Int ={x*x} //在block中的最后一个值将被返回

def square(x:Int):Int ={print.....} //不返回


scala-fp的方式处理集合

val list=(1,2,3)

list.foreach(x=>println(x))

list.map(_+2)

。。。

自己可以去看看。


spark runtime


driver program 

sparkcontext              cluster manager              2个worker node  (executor  cache  task ,task )


核心抽象

resilient distriuted dataset

a list of partitions

a function for computing each split

a list of dependencies on other rdds

上面是必要的

还有3点,这里不介绍了


如何创建rdd

直接从集合转化

从各种(分布式)文件系统来












spark,布布扣,bubuko.com

spark

原文:http://blog.csdn.net/edagarli/article/details/23383233

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!