首页 >  
搜索关键字:spark    ( 3778个结果
spark性能调优02-JVM调优
1、降低cache操作的内存占比 1.1 为什么要降低cache操作的内存占比 spark的堆内存分别两部分,一部分用来给Rdd的缓存进行使用,另一部分供spark算子函数运行使用,存放函数中的对象 默认情况下,供Rdd缓存使用的占0.6,但是,有些时候,不需要那么多的缓存,反而函数计算需要更多的内 ...
分类:其他   时间:2017-02-23 17:18:58    收藏:0  评论:0  赞:0  阅读:9
Apache Flink vs Apache Spark——感觉二者是互相抄袭啊 看谁的好就抄过来 Flink支持在runtime中的有环数据流,这样表示机器学习算法更有效而且更有效率
Apache Flink是什么 Flink是一款新的大数据处理引擎,目标是统一不同来源的数据处理。这个目标看起来和Spark和类似。没错,Flink也在尝试解决 Spark在解决的问题。这两套系统都在尝试建立一个统一的平台可以运行批量,流式,交互式,图处理,机器学习等应用。所以,Flink和Spar ...
分类:编程语言   时间:2017-02-23 15:50:52    收藏:0  评论:0  赞:0  阅读:11
spark性能调优01-常规调优
1、分配更多的资源 1.1 分配的资源有:executor、cup per executor、memory per executor、driver memory 1.2 如何分配:在spark-submit提交时设置相应的参数 1.3 调节到多大(原则:能使用的资源有多大,就尽量调节到最大的大小) ...
分类:其他   时间:2017-02-23 15:49:45    收藏:0  评论:0  赞:0  阅读:7
Beam 超实用examples之Pi值计算
BeamPi值计算Beam刚刚开源不是很久,快2个月了。目前的版本是0.5.0版本。官方的源码中提供了4个examples.无奈这四个案例都只是WordCount的四种不同的实现。作为一个从Spark进入大数据殿堂的笔者来说,用过n多次的SparkPi的我,怎么能忍受竟然没有Pi实现的example呢。假如有了这..
分类:其他   时间:2017-02-23 14:27:44    收藏:0  评论:0  赞:0  阅读:7
Pandas:让你像写SQL一样做数据分析
1. 引言 Pandas是一个开源的Python数据分析库。Pandas把结构化数据分为了三类: Series,1维序列,可视作为没有column名的、只有一个column的DataFrame; DataFrame,同Spark SQL中的DataFrame一样,其概念来自于R语言,为多column ...
分类:数据库技术   时间:2017-02-22 18:11:24    收藏:0  评论:0  赞:0  阅读:13
Spark 的官网(版本为1.6.1的总官网)
1. 多多读官网,所有的只知识点都可以从上面的总纲中查到。 ...
分类:其他   时间:2017-02-22 17:01:09    收藏:0  评论:0  赞:0  阅读:6
第31课:Spark资源调度分配内幕天机彻底解密:Driver在Cluster模式下的启动、两种不同的资源调度方式源码彻底解析、资源调度内幕总结
本課主題 Master 资源调度的源码鉴赏 Spark 的 Worker 是基于什么逻辑去启动 Executor 资源调度管理 Master 资源调度的源码鉴赏 當前 Master 必順是 Alive 的方式採用進行資源的調度,一開始的時候會判斷一下狀態,如果不是 Alive 的狀態會直接返回,也就 ...
分类:其他   时间:2017-02-22 16:37:34    收藏:0  评论:0  赞:0  阅读:8
Apache Beam程序向导4
ApacheBeam程序向导4今天在集群上实验BeamOnSpark的时候,遇到一个坑爹的问题,这个问题总结起来是一个java.lang.NoClassDefFoundError错误,具体错误如下图1所示图1错误提示该错误提示SparkStreamingContext没有定义,这说明java虚拟机加载进来了SparkStreamingContext,也就..
分类:Web开发   时间:2017-02-22 15:24:28    收藏:0  评论:0  赞:0  阅读:7
第29课:Master HA彻底解密
本課主題 Master HA 解析 Master HA 解析源码分享 Master HA 解析 Spark Master HA on ZooKeeper 切換流程圖 Master HA 的四大方式 ZOOKEEPER 是自動管理 Master; FILESYSTEM 的方式在 Master 出現突障 ...
分类:其他   时间:2017-02-22 11:39:25    收藏:0  评论:0  赞:0  阅读:10
第28课:Spark天堂之门解密
本課主題 Spark 天堂之门 Spark 天堂之门源码分享 Spark天堂之门:SparkContext SparkContext 使用案例 Spark 天堂內幕 DAGScheduler 是面向 Job 的 Stage 的高層調度器; TaskScheduler 是一個接口,是低層調度器,根據具 ...
分类:其他   时间:2017-02-22 11:12:56    收藏:0  评论:0  赞:0  阅读:6
Spark中cache和persist的区别
cache和persist都是用于将一个RDD进行缓存的,这样在之后使用的过程中就不需要重新计算了,可以大大节省程序运行时间。 cache和persist的区别 基于Spark 1.6.1 的源码,可以看到 说明是cache()调用了persist(), 想要知道二者的不同还需要看一下persist ...
分类:系统服务   时间:2017-02-19 21:55:05    收藏:0  评论:0  赞:0  阅读:15
大数据实战总结
2017-02-1414:56:05情人节没啥送的,充气娃娃太俗,女朋友送不起,就送全套吧!!!2.14日晚8:00,Q群不见不散!!6大数据内功修炼到企业实战2.0》全新完整版!!!无加密,免费送!!!牢记接头暗号:大数据培训哪家强?老司机推荐十八掌!神回复:老子推荐十八掌!!!-----..
分类:其他   时间:2017-02-18 14:39:05    收藏:0  评论:0  赞:0  阅读:16
Java web
Java web java-并发 Hadoop那些事儿 leetcode 从易到难(1) Easy篇 建模之美 Android开发问题整理 Power Map鹦鹉学舌篇 Python实战小程序 Openstack 实现技术分解 Spark SQL 1.4.1 详解 监控报警 Java web ...
分类:编程语言   时间:2017-02-18 11:04:43    收藏:0  评论:0  赞:0  阅读:15
.Spark Streaming(上)--实时流计算Spark Streaming原理介
Spark入门实战系列--7.Spark Streaming(上)--实时流计算Spark Streaming原理介绍 http://www.cnblogs.com/shishanyuan/p/4747735.html 1、Spark Streaming简介 1.1 概述 Spark Streami ...
分类:其他   时间:2017-02-17 18:01:47    收藏:0  评论:0  赞:0  阅读:18
CNN
import org.apache.log4j.{Level,Logger}import org.apache.spark.{SparkConf,SparkContext}import org.apache.spark.storage.StorageLevelimport org.apache.sp ...
分类:其他   时间:2017-02-17 17:01:47    收藏:0  评论:0  赞:0  阅读:9
Spark 应用程序部署工具spark-submit
1. 简介Spark的bin目录中的spark-submit脚本用于启动集群上的应用程序。 可以通过统一的接口使用Spark所有支持的集群管理器,因此不必为每个集群管理器专门配置你的应用程序(It c...
分类:其他   时间:2017-02-17 10:22:31    收藏:0  评论:0  赞:0  阅读:13
搭建scala 开发spark程序环境及实例演示
上一篇博文已经介绍了搭建scala的开发环境,现在进入正题。如何开发我们的第一个spark程序。下载spark安装包,下载地址http://spark.apache.org/downloads.html(因为开发环境需要引用spark的jar包)我下载的是spark-2.1.0-bin-hadoop2.6.tgz,因为我的scalaIDE版本是scala-SDK..
分类:其他   时间:2017-02-17 00:53:50    收藏:0  评论:0  赞:0  阅读:16
HTTP服务器用什么组件或者方式比较好
我目前用Indy的HttpServer组件来编写,但遇到一个暂时没有办法解决的问题,就是上传文件到这个HTTPServer,如果文件名包含中文,则会出现乱码。网上查了一下,这是个indy的遗留问题,据说要到11的版本才会解决。 故在此请教各位大神,此类需求用什么组件或者方式比较好?1) RTC 2) ...
分类:Web开发   时间:2017-02-16 22:00:49    收藏:0  评论:0  赞:0  阅读:14
sparksql编程笔记1:构建dataframe
项目开始用的是spark core操作rdd进行大数据计算,后来经过高人点拨使用spark sql,发现spark sql确实好用很多,留下一些笔记。。 在OReilly即将推出的力作《High Performance Spark》中有这样一段文字,我想看了后也能增加使用spark sql的决心。 ...
分类:数据库技术   时间:2017-02-16 01:19:01    收藏:0  评论:0  赞:0  阅读:21
eclipse搭建spark环境
前提: 安装好eclipse和jdk 第一步:下载spark-1.4.0-bin-hadoop2.6.tgz到本地,并解压在本地目录 地址为:http://spark.apache.org/downloads.html 第二步:下载windows下hadoop工具包(分为32位和64位的),在本地新 ...
分类:系统服务   时间:2017-02-15 16:40:02    收藏:0  评论:0  赞:0  阅读:15
3778条   1 2 3 4 ... 189 下一页
© 2014 bubuko.com 版权所有 鲁ICP备09046678号-4
打开技术之扣,分享程序人生!
             

鲁公网安备 37021202000002号