首页 >  
搜索关键字:spark    ( 4595个结果
spark on yarn详解
1、参考文档:spark-1.3.0:http://spark.apache.org/docs/1.3.0/running-on-yarn.htmlspark-1.6.0:http://spark.apache.org/docs/1.6.0/running-on-yarn.html备注:从spark... ...
分类:其他   时间:2017-11-14 23:56:06    收藏:0  评论:0  赞:0  阅读:33
Spark GraphX 属性图操作
结果: ...
分类:其他   时间:2017-11-14 20:04:39    收藏:0  评论:0  赞:0  阅读:30
Spark记录-Spark On YARN内存分配(转载)
Spark On YARN内存分配(转载) Spark On YARN内存分配(转载) 说明 按照Spark应用程序中的driver分布方式不同,Spark on YARN有两种模式: yarn-client模式、yarn-cluster模式。 当在YARN上运行Spark作业,每个Spark ex ...
分类:其他   时间:2017-11-14 12:46:48    收藏:0  评论:0  赞:0  阅读:35
Spark之MapReduce原理
参考http://www.cnblogs.com/wuyudong/p/mapreduce-principle.html MapReduce 我们来拆开看: Mapping(映射)对集合里的每个目标应用同一个操作。 Reducing(化简)遍历集合中的元素来返回一个综合的结果。 主体思路是通过分散计 ...
分类:其他   时间:2017-11-13 20:42:43    收藏:0  评论:0  赞:0  阅读:28
Spark无法创建新线程
Spark提交程序报错,无法创建新的线程 原因是因为这台公用机器上跑的进程太多了,需要修改Linux参数,允许用户最大进程数 查看允许用户最大进程数配置 修改允许用户最大进程数配置 在文件后面追加一句,并使配置立即生效 ...
分类:编程语言   时间:2017-11-13 17:40:48    收藏:0  评论:0  赞:0  阅读:26
用spark-md5.js自动生成MD5码
项目中会遇到很多上传文件时自动生成MD5码的情况,根据查找资料,写了个小案例,仅供大家参考。 代码如下: html部分: ...
分类:Web开发   时间:2017-11-12 16:15:00    收藏:0  评论:0  赞:0  阅读:23
倾情大奉送--Spark入门实战系列 (转自:http://www.cnblogs.com/shishanyuan/p/4699644.html)
这一两年Spark技术很火,自己也凑热闹,反复的试验、研究,有痛苦万分也有欣喜若狂,抽空把这些整理成文章共享给大家。这个系列基本上围绕了Spark生态圈进行介绍,从Spark的简介、编译、部署,再到编程模型、运行架构,最后介绍其组件SparkSQL、Spark Streaming、Spark MLi ...
分类:Web开发   时间:2017-11-12 12:04:36    收藏:0  评论:0  赞:0  阅读:19
spark2.0.1源码编译
一、编译源码步骤演示详解 . 编译spark环境要求 1、必须在linux系统下编译(以centos6.4为例) 2、编译使用的JDK版本必须是1.6以上(以JDK1.8为例) 3、编译需要使用Maven版本3.0以上(以Maven3.3.9为例) 4、编译需要使用Scala(以scala-2.11 ...
分类:其他   时间:2017-11-12 10:18:00    收藏:0  评论:0  赞:0  阅读:18
Spark HA 配置中spark.deploy.zookeeper.url 的意思
Spark HA的配置网上很多,最近我在看王林的Spark的视频,要付费的。那个人牛B吹得很大,本事应该是有的,但是有本事,不一定就是好老师。一开始吹中国第一,吹着吹着就变成世界第一。就算你真的是世界第一,视频(2.Spark内核解密(11-43讲全)中的第12课)里关于spark.deploy.z ...
分类:Web开发   时间:2017-11-11 15:53:22    收藏:0  评论:0  赞:0  阅读:25
Hadoop API:遍历文件分区目录,并根据目录下的数据进行并行提交spark任务
hadoop api提供了一些遍历文件的api,通过该api可以实现遍历文件目录: 并行执行sh的线程: 执行sh的java代码: submitsparkjob.sh 执行BatchSubmit.jar的命令: ...
分类:Windows开发   时间:2017-11-11 00:03:06    收藏:0  评论:0  赞:0  阅读:53
spark 类标签的稀疏 特征向量
本地向量和矩阵 本地向量(Local Vector)存储在单台机器上,索引采用0开始的整型表示,值采用Double类型的值表示。Spark MLlib中支持两种类型的矩阵,分别是密度向量(Dense Vector)和稀疏向量(Spasre Vector),密度向量会存储所有的值包括零值,而稀疏向量存 ...
分类:其他   时间:2017-11-10 13:34:38    收藏:0  评论:0  赞:0  阅读:23
spark scala word2vec 和多层分类感知器在情感分析中的实际应用
转自:http://www.cnblogs.com/canyangfeixue/p/7227998.html 对于威胁检测算法使用神经网络训练有用!!!TODO待实验 结果如下: ...
分类:其他   时间:2017-11-10 12:20:54    收藏:0  评论:0  赞:0  阅读:20
SPARK
Note that, before Spark 2.0, the main programming interface of Spark was the Resilient Distributed Dataset (RDD). After Spark 2.0, RDDs are replaced b ...
分类:其他   时间:2017-11-09 18:12:50    收藏:0  评论:0  赞:0  阅读:20
Spark记录-spark报错Unable to load native-hadoop library for your platform
解决方案一: #cp $HADOOP_HOME/lib/native/libhadoop.so $JAVA_HOME/jre/lib/amd64 #源码编译snappy ./configure make & make install #cp libsnappy.so $JAVA_HOME/jre/l ...
分类:其他   时间:2017-11-09 13:27:16    收藏:0  评论:0  赞:0  阅读:18
spark算子:combineByKey
假设我们有一组个人信息,我们针对人的性别进行分组统计,并进行统计每个分组中的记录数。 输出步骤: 上边的信息中,个人信息中只有一个值,如果value是元组的话,需要定义出一个type: ...
分类:其他   时间:2017-11-08 22:00:37    收藏:0  评论:0  赞:0  阅读:19
spark 从RDD createDataFrame 的坑
Scala: import org.apache.spark.ml.linalg.Vectors val data = Seq( (7, Vectors.dense(0.0, 0.0, 18.0, 1.0), 1.0), (8, Vectors.dense(0.0, 1.0, 12.0, 0.0), ...
分类:其他   时间:2017-11-08 19:15:28    收藏:0  评论:0  赞:0  阅读:27
Spark 算子
RDD算子分类,大致可以分为两类,即: Transformation:转换算子,这类转换并不触发提交作业,完成作业中间过程处理。 Action:行动算子,这类算子会触发SparkContext提交Job作业。 一:Transformation:转换算子 1.map map是对RDD中的每个元素都执行 ...
分类:其他   时间:2017-11-08 14:23:05    收藏:0  评论:0  赞:0  阅读:27
Narrow waist for Network and Data
在计算机网络中,有一个叫做“窄腰”的概念。 这个概念的出现解决了一个关键问题:在任何给定的网络设备上,想象一个堆栈,底层硬件层和顶层软件层。中间可能会存在各种网络硬件;类似地,也存在各种软件和应用程序。需要一种方法来确保无论硬件如何,软件仍然可以连接到网络; 无论软件如何,网络硬件都知道如何处理网络 ...
分类:Web开发   时间:2017-11-08 14:05:58    收藏:0  评论:0  赞:0  阅读:17
spark分区数,task数目,core数,worker节点个数,excutor数量梳理
作者:王燚光链接:https://www.zhihu.com/question/33270495/answer/93424104来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 梳理一下Spark中关于并发度涉及的几个概念File,Block,Split,Task,Pa ...
分类:其他   时间:2017-11-07 20:45:00    收藏:0  评论:0  赞:0  阅读:39
spark算子:partitionBy对数据进行分区
def partitionBy(partitioner: Partitioner): RDD[(K, V)] 该函数根据partitioner函数生成新的ShuffleRDD,将原RDD重新分区。 参考:http://lxw1234.com/archives/2015/07/356.htm ...
分类:其他   时间:2017-11-07 20:31:43    收藏:0  评论:0  赞:0  阅读:28
4595条   1 2 3 4 ... 230 下一页
© 2014 bubuko.com 版权所有 鲁ICP备09046678号-4
打开技术之扣,分享程序人生!
             

鲁公网安备 37021202000002号