首页 >  
搜索关键字:spark    ( 629个结果
spark2.x由浅入深深到底系列六之RDD java api详解三
学习任何spark知识点之前请先正确理解spark,可以参考:正确理解spark本文详细介绍了sparkkey-value类型的rddjavaapi一、key-value类型的RDD的创建方式1、sparkContext.parallelizePairsJavaPairRDD<String,Integer>javaPairRDD= sc.parallelizePairs(Arrays.asList(newT..
分类:编程语言   时间:2017-09-20 00:23:46    收藏:0  评论:0  赞:0  阅读:27
十二道MR习题 - 2 - 多文件保存
题目: 需要将MR的执行结果保存到3个文件中,该怎么做。 又是一个送分题。 对于Hadoop的MapReduce来说只需要设置一下reduce任务的数量即可。MR的Job默认reduce数量是1,需要调用job的setNumReduceTasks()方法来调整reduce任务的数量。 对于spark... ...
分类:其他   时间:2017-09-20 00:19:21    收藏:0  评论:0  赞:0  阅读:15
spark wordcont Spark: sortBy和sortByKey函数详解
在很多应用场景都需要对结果数据进行排序,Spark中有时也不例外。在Spark中存在两种对RDD进行排序的函数,分别是 sortBy和sortByKey函数。sortBy是对标准的RDD进行排序,它是从Spark 0.9.0之后才引入的(可以参见SPARK-1063)。而sortByKey函数是对P ...
分类:其他   时间:2017-09-19 22:02:10    收藏:0  评论:0  赞:0  阅读:18
Spark Configuration (2.2.0) 笔记
Spark的配置项分为三部分 Spark properties control most application parameters and can be set by using a SparkConf object, or through Java system properties. Env ...
分类:其他   时间:2017-09-19 17:39:16    收藏:0  评论:0  赞:0  阅读:19
sparkStreaming入门
1.环境 jdk : 1.8 scala : 2.11.7 hadoop:2.7 spark : 2.2.0 2. 开发工具 idea 2017.2 3.maven的pom文件 <dependencies> <!-- https://mvnrepository.com/artifact/com.su ...
分类:其他   时间:2017-09-19 16:40:14    收藏:0  评论:0  赞:0  阅读:20
sparkStreaming结合sparkSql进行日志分析
package testimport java.util.Propertiesimport org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport org.apache.spark.sql.{SQLContext, S ...
分类:数据库技术   时间:2017-09-19 16:38:37    收藏:0  评论:0  赞:0  阅读:20
scala(一)方法&函数
写在前面 众所周知,scala一向宣称自己是面向函数的编程,(java表示不服,我是面向bean的编程!)那什么是函数? 在接触java的时候,有时候用函数来称呼某个method(实在找不出词了),有时候用方法来称呼某个method,虽然method的中文翻译就是“方法”,但对于java来说,方法和 ...
分类:其他   时间:2017-09-19 14:00:30    收藏:0  评论:0  赞:0  阅读:20
spark写大文件报错
2017-09-18 18:16:23 [SparkListenerBus] [org.apache.spark.scheduler.LiveListenerBus] [ERROR] - Listener EventLoggingListener threw an exceptionjava.io. ...
分类:其他   时间:2017-09-18 19:35:48    收藏:0  评论:0  赞:0  阅读:29
Spark学习笔记6:Spark调优与调试
1、使用Sparkconf配置Spark 对Spark进行性能调优,通常就是修改Spark应用的运行时配置选项。 Spark中最主要的配置机制通过SparkConf类对Spark进行配置,当创建出一个SparkContext时,就需要创建出一个SparkConf实例。 Sparkconf实例包含用户 ...
分类:其他   时间:2017-09-18 12:07:20    收藏:0  评论:0  赞:0  阅读:15
spark2.x由浅入深深到底系列六之RDD java api调用scala api的原理
RDDjavaapi其实底层是调用了scala的api来实现的,所以我们有必要对javaapi是怎么样去调用scalaapi,我们先自己简单的实现一个scala版本和java版本的RDD和SparkContext一、简单实现scala版本的RDD和SparkContextclassRDD[T](value:Seq[T]){ //RDD的map操作 defmap[U](f:T=>U)..
分类:编程语言   时间:2017-09-18 10:35:08    收藏:0  评论:0  赞:0  阅读:22
spark2.x由浅入深深到底系列六之RDD java api详解二
packagecom.twq.javaapi.java7; importorg.apache.spark.SparkConf; importorg.apache.spark.api.java.JavaRDD; importorg.apache.spark.api.java.JavaSparkContext; importorg.apache.spark.api.java.function.Function2; importorg.apache.spark.api.java.function.VoidFunc..
分类:编程语言   时间:2017-09-18 10:34:27    收藏:0  评论:0  赞:0  阅读:21
spark2.x由浅入深深到底系列六之RDD java api详解一
以下对RDD的三种创建方式、单类型RDD基本的transformationapi、采样Api以及pipe操作进行了javaapi方面的阐述一、RDD的三种创建方式从稳定的文件存储系统中创建RDD,比如localfileSystem或者hdfs等,如下://从hdfs文件中创建 JavaRDD<String>textFileRDD=sc.textFile("hd..
分类:编程语言   时间:2017-09-18 10:31:39    收藏:0  评论:0  赞:0  阅读:27
Spark学习笔记5:Spark集群架构
Spark的一大好处就是可以通过增加机器数量并使用集群模式运行,来扩展计算能力。Spark可以在各种各样的集群管理器(Hadoop YARN , Apache Mesos , 还有Spark自带的独立集群管理器)上运行,所以Spark应用既能够适应专用集群,又能用于共享的云计算环境。 Spark运行 ...
分类:其他   时间:2017-09-18 09:30:34    收藏:0  评论:0  赞:0  阅读:29
十二道MR习题 – 1 – 排序
题目: 一个文件,大小约为100G。文件的每一行都是一个数字,要求对文件中的所有数字进行排序。 对于这个题目,了解过Hadoop的同学可以笑而不语了。即使用spark实现也是非常简单的事情。 先说下如何用Hadoop实现。实际上也没什么好说的:Map任务逐行读入数字,而后在Reduce中输出就可以了... ...
分类:编程语言   时间:2017-09-18 09:20:33    收藏:0  评论:0  赞:0  阅读:19
IDEA 学习笔记之 Spark/SBT项目开发
Spark/SBT项目开发: 下载Scala SDK 下载SBT 配置IDEA SBT:(如果不配置,就会重新下载SBT, 非常慢,因为以前我已经下过了,所以要配置为过去使用的SBT) 新建立SBT项目: 导入Spark jars: 创建WordCount: 配置运行参数: 运行结果: ...
分类:其他   时间:2017-09-17 13:13:40    收藏:0  评论:0  赞:0  阅读:27
spark集群部署错误告警随记
1,Error: Could not find or load main class namenode-format 这个是错误的把hadoop namenode -format 命令写成hadoop namenode-format 2, WARN util.NativeCodeLoader: Un ...
分类:其他   时间:2017-09-17 10:32:53    收藏:0  评论:0  赞:0  阅读:20
Spark学习笔记4:数据读取与保存
Spark对很多种文件格式的读取和保存方式都很简单。Spark会根据文件扩展名选择对应的处理方式。 Spark支持的一些常见文件格式如下: 1、文本文件 使用文件路径作为参数调用SparkContext中的textFile()函数,就可以读取一个文本文件。也可以指定minPartitions控制分区 ...
分类:其他   时间:2017-09-17 00:00:05    收藏:0  评论:0  赞:0  阅读:24
spark-streaming读kafka数据到hive遇到的问题
在项目中使用spark-stream读取kafka数据源的数据,然后转成dataframe,再后通过sql方式来进行处理,然后放到hive表中, 遇到问题如下,hive-metastor在没有做高可用的情况下,有时候会出现退出,这个时候,spark streaminG的微批作业就会失败, 然后再启重 ...
分类:其他   时间:2017-09-16 21:29:55    收藏:0  评论:0  赞:0  阅读:22
Sqoop的安装部署
1.下载 sqoop-1.4.6-cdh5.7.6.tar.gz 2.在linux中进行安装, tar -zxvf /opt/tools/spark-1.6.1-bin-2.6.0-cdh5.7.6.tgz -C /opt/cdh-5.7.6/ 3.进入sqoop安装目录,我装在/opt/cdh-5 ...
分类:其他   时间:2017-09-16 21:12:04    收藏:0  评论:0  赞:0  阅读:22
Spark日志分析项目Demo(9)--常规性能调优
一 分配更多资源 分配更多资源:性能调优的王道,就是增加和分配更多的资源,性能和速度上的提升,是显而易见的;基本上,在一定范围之内,增加资源与性能的提升,是成正比的;写完了一个复杂的spark作业之后,进行性能调优的时候,首先第一步,我觉得,就是要来调节最优的资源配置;在这个基础之上,如果说你的sp ...
分类:其他   时间:2017-09-16 20:22:10    收藏:0  评论:0  赞:0  阅读:32
629条   1 2 3 4 ... 32 下一页
© 2014 bubuko.com 版权所有 鲁ICP备09046678号-4
打开技术之扣,分享程序人生!
             

鲁公网安备 37021202000002号