首页 >  
搜索关键字:spark    ( 3688个结果
(3)RDD编程
1.RDD基础 弹性分布式数据集,简称RDD,是一个不可变的分布式对象集合。在Spark中,对数据的所有操作不外乎创建RDD,转化已有RDD以及调用RDD操作进行求值。 每一个RDD都被分为多个分区,这些分区运行在集群中的不同节点上,RDD可以包含Python,Java,Scala中任意类型的对象, ...
分类:其他   时间:2017-01-23 23:50:36    收藏:0  评论:0  赞:0  阅读:6
修改SequenceFileInputFormat hdfs blocksize
用spark读取sequencefile时,非常消耗时间,默认情况下SequenceFileInputFormat切分文件是沿用FIleInputFormat,对于大文件会切成Hdfsblocksize大小,如果想切的更小,增加spark任务的并法度,可以自己修改:classMySequenceFileInputFormat[K,V]extendsFileInputFormat[K,V]{ ..
分类:其他   时间:2017-01-23 21:48:03    收藏:0  评论:0  赞:0  阅读:8
Spark安装
spark的安装 先到官网下载安装包 先到官网下载安装包 注意第二项要选择和自己hadoop版本相匹配的spark版本,然后在第4项点击下载。若无图形界面,可用windows系统下载完成后传送到centos中。 安装spark 安装spark sudo tar -zxf ~/spark-2.0.0/ ...
分类:其他   时间:2017-01-23 20:04:20    收藏:0  评论:0  赞:0  阅读:6
(1)Spark数据分析导论
1.1 Spark是什么 Spark是一个用来实现快速而通用的集群计算的平台。Spark扩展了广泛使用的MapReduce平台计算模型,而且高效地支持更多模式,包括交互式查询和流处理。Spark的一个主要的特点就是能够在内存中进行计算。 1.2 一个大一统的软件栈 Spark的核心是一个对由很多计算 ...
分类:其他   时间:2017-01-23 17:36:28    收藏:0  评论:0  赞:0  阅读:13
(2)Spark下载与入门
2.1 Spark核心概念简介 驱动器程序通过一个SparkContext对象来访问Spark。这个对象代表对计算集群的一个连接。shell启动时已经创建了一个SparkContext对象,是一个叫做sc的变量。一旦有了SparkContext,你就可以用它来创建RDD。要执行这些操作,驱动器程序一 ...
分类:其他   时间:2017-01-23 17:26:38    收藏:0  评论:0  赞:0  阅读:7
spark 编译遇到的错误及解决办法(二)
解决方法:在build前加入代码: ...
分类:其他   时间:2017-01-22 23:31:35    收藏:0  评论:0  赞:0  阅读:8
用Spark学习FP Tree算法和PrefixSpan算法
在FP Tree算法原理总结和PrefixSpan算法原理总结中,我们对FP Tree和PrefixSpan这两种关联算法的原理做了总结,这里就从实践的角度介绍如何使用这两个算法。由于scikit-learn中没有关联算法的类库,而Spark MLlib有,本文的使用以Spark MLlib作为使用 ...
分类:编程语言   时间:2017-01-22 15:23:03    收藏:0  评论:0  赞:0  阅读:6
spark textFile 困惑与解释
在编写spark测试应用时, 会用到sc.textFile(path, partition) 当配置为spark分布式集群时,当你读取本地文件作为输入时, 需要将文件存放在每台work节点上。 这时会有困惑,spark在读取文件时,是每台worker节点都把文件读入? 然后在进行分配? 会不会出现重 ...
分类:其他   时间:2017-01-22 10:43:35    收藏:0  评论:0  赞:0  阅读:11
Spark入门实战
星星之火,可以燎原 Spark简介 Spark是一个开源的计算框架平台,使用该平台,数据分析程序可自动分发到集群中的不同机器中,以解决大规模数据快速计算的问题,同时它还向上提供一个优雅的编程范式,使得数据分析人员通过编写类似于本机的数据分析程序即可实现集群并行计算。 Spark项目由多个紧密集成的组... ...
分类:其他   时间:2017-01-21 16:07:31    收藏:0  评论:0  赞:0  阅读:13
分别使用Hadoop和Spark实现TopN(1)——唯一键
0.简介 TopN算法是一个经典的算法,由于每个map都只是实现了本地的TopN算法,而假设map有M个,在归约的阶段只有M x N个,这个结果是可以接受的并不会造成性能瓶颈。 这个TopN算法在map阶段将使用TreeMap来实现排序,以到达可伸缩的目的。 当然算法有两种,一种是唯一键,就是说ke ...
分类:其他   时间:2017-01-21 12:54:36    收藏:0  评论:0  赞:0  阅读:11
RDD之七:Spark容错机制
引入 一般来说,分布式数据集的容错性有两种方式:数据检查点和记录数据的更新。 面向大规模数据分析,数据检查点操作成本很高,需要通过数据中心的网络连接在机器之间复制庞大的数据集,而网络带宽往往比内存带宽低得多,同时还需要消耗更多的存储资源。 因此,Spark选择记录更新的方式。但是,如果更新粒度太细太 ...
分类:其他   时间:2017-01-21 00:36:30    收藏:0  评论:0  赞:0  阅读:9
Scala
Scala 一、前言 大数据领域的Spark、Kafka、Summingbird等都是由Scala语言编写而成,相比Java而言,Scala更精炼。由于笔者从事大数据相关的工作,所以有必要好好学习Scala语言,之前也学习过,但是没有记录,所以就会忘记,感觉Scala确实比Java方便精炼很多,下面 ...
分类:其他   时间:2017-01-20 23:27:58    收藏:0  评论:0  赞:0  阅读:7
RDD之二:原理
RDD简介 在集群背后,有一个非常重要的分布式数据架构,即弹性分布式数据集(Resilient Distributed Dataset,RDD)。RDD是Spark的最基本抽象,是对分布式内存的抽象使用,实现了以操作本地集合的方式来操作分布式数据集的抽象实现。RDD是Spark最核心的东西,它表示已 ...
分类:其他   时间:2017-01-20 21:50:28    收藏:0  评论:0  赞:0  阅读:12
Spark SQL下的Parquet使用最佳实践和代码实战
一:Spark SQL下的Parquet使用最佳实践 1,过去整个业界对大数据的分析的技术栈的Pipeline一般分为一下两种方式: A)Data Source -> HDFS -> MR/Hive/Spark(相当于ETL) -> HDFS Parquet -> SparkSQL/impala - ...
分类:数据库技术   时间:2017-01-20 16:18:49    收藏:0  评论:0  赞:0  阅读:15
分布式数据集RDD经典集锦
RDD是spark的核心组成,想要理解spark,就必须了解RDD。那么RDD具有什么样的特性,怎么来创建和应用呢?一、RDD(ResilientDistributedDataset)RDD是一个弹性分布式数据集,这里我们解释一下它具体的含义:(1)弹性-如果在内存中的数据丢失,可以重建(2)分布式-在整个集群中..
分类:其他   时间:2017-01-20 13:19:05    收藏:0  评论:0  赞:0  阅读:9
spark streaming的应用
今天我们讲spark streaming的应用,这个是实时处理的,类似于Storm以及Flink相关的知识点, 说来也巧,今天的自己也去听了关于Flink的相关的讲座,可惜自己没有听得特别清楚,好像是 spark streaming与flink是竞争关系,好了,我们进入今天的主题吧 1.一般会做用户 ...
分类:其他   时间:2017-01-19 22:50:21    收藏:0  评论:0  赞:0  阅读:10
Deeplearning4j 实战(2):Deeplearning4j 手写体数字识别Spark实现
本文实现了Deeplearning4j在Spark上的模型训练和模型评估。以Mnist数据集的分类作为应用,Lenet作为分类的网络。
分类:其他   时间:2017-01-19 21:49:49    收藏:0  评论:0  赞:0  阅读:9
Spark的函数式编程
Spark是近年来发展较快的分布式并行数据处理框架,了解和掌握spark对于学习大数据有着至关重要的意义。但是spark依赖于函数单元,它的函数编程过程是怎样的呢?我们怎么来应用呢?一、Spark的函数式编程Spark依赖于函数单元,函数是其编程的基本单元,只有输入输出,没有state..
分类:其他   时间:2017-01-19 20:17:03    收藏:0  评论:0  赞:0  阅读:8
Spark Pregel参数说明
Pregel是个强大的基于图的迭代算法,也是Spark中的一个迭代应用aggregateMessage的典型案例,用它可以在图中方便的迭代计算,如最短路径、关键路径、n度关系等。然而对于之前对图计算接触不多的童鞋来说,这个api还算是一个比较重量组的接口,不太容易理解。 Spark中的Pregel定... ...
分类:其他   时间:2017-01-19 18:30:28    收藏:0  评论:0  赞:0  阅读:13
spark shuffle 内幕彻底解密课程
一:到底什么是Shuffle? Shuffle中文翻译为“洗牌”,需要Shuffle的关键性原因是某种具有共同特征的数据需要最终汇聚到一个计算节点上进行计算。   二:Shuffle可能面临的问...
分类:其他   时间:2017-01-18 14:51:59    收藏:0  评论:0  赞:0  阅读:10
3688条   1 2 3 4 ... 185 下一页
© 2014 bubuko.com 版权所有 鲁ICP备09046678号-4
打开技术之扣,分享程序人生!
             

鲁公网安备 37021202000002号