首页 >  
搜索关键字:spark    ( 5038个结果
Spark学习之路 (四)Spark的广播变量和累加器
一、概述 在spark程序中,当一个传递给Spark操作(例如map和reduce)的函数在远程节点上面运行时,Spark操作实际上操作的是这个函数所用变量的一个独立副本。这些变量会被复制到每台机器上,并且这些变量在远程机器上的所有更新都不会传递回驱动程序。通常跨任务的读写变量是低效的,但是,Spa ...
分类:其他   时间:2018-04-21 19:08:59    收藏:0  评论:0  赞:0  阅读:30
Spark学习之路 (二)Spark2.3 HA集群的分布式安装
一、下载Spark安装包 1、从官网下载 http://spark.apache.org/downloads.html 2、从微软的镜像站下载 http://mirrors.hust.edu.cn/apache/ 3、从清华的镜像站下载 https://mirrors.tuna.tsinghua.e ...
分类:其他   时间:2018-04-20 21:05:13    收藏:0  评论:0  赞:0  阅读:16
Azkaban和Oozie的区别
Azkaban和Oozie的区别: 当前,实际生产中最流行的两种Hadoop工作流引擎是Azkaban与Oozie。但活跃度最高的当是Azkaban了,下面对两者的异同之处作如下对比。 功能对比 Azkaban和Oozie都可以调用像linux、mapreduce、pig、spark、java等脚本 ...
分类:其他   时间:2018-04-20 14:20:16    收藏:0  评论:0  赞:0  阅读:25
Scala学习之路 (一)Spark初识
一、官网介绍 官网地址:http://spark.apache.org/ Apache Spark?是用于大规模数据处理的统一分析引擎。 从右侧最后一条新闻看,Spark也用于AI人工智能 spark是一个实现快速通用的集群计算平台。它是由加州大学伯克利分校AMP实验室 开发的通用内存并行计算框架, ...
分类:其他   时间:2018-04-19 23:45:15    收藏:0  评论:0  赞:0  阅读:39
大数据-05-Spark之读写HBase数据
本文主要来自于 http://dblab.xmu.edu.cn/blog/1316 2/ 谢谢原作者 准备工作一:创建一个HBase表 这里依然是以student表为例进行演示。这里假设你已经成功安装了HBase数据库,如果你还没有安装,可以参考[大数据 04 Hbase入门][1],进行安装,安装 ...
分类:其他   时间:2018-04-19 22:40:15    收藏:0  评论:0  赞:0  阅读:35
Azkaban2.5.0安装
1、Azkaban安装部署 azkaban-web-server-2.5.0.tar.gz azkaban-executor-server-2.5.0.tar.gz azkaban-sql-script-2.5.0.tar.gz 2、安装 将安装文件上传到集群,最好上传到安装 spark,hive、 ...
分类:其他   时间:2018-04-18 18:25:01    收藏:0  评论:0  赞:0  阅读:16
SparkThriftServer 源码分析
[toc] 版本 spark 2.2.0 起点 + Spark thrift server复用了Hive Server2的源码,插入了自己的覆盖的方法。 + 整个过程里面需要穿插着Hive和Spark的源码。 + 整个流程是从Beeline开始的,Beeline属于是Hive的源码,下面开始进入流程 ...
分类:其他   时间:2018-04-18 10:45:07    收藏:0  评论:0  赞:0  阅读:31
spark科普
普Spark,Spark是什么,如何使用Spark(1)转自:http://www.aboutyun.com/thread-6849-1-1.html 阅读本文章可以带着下面问题:1.Spark基于什么算法的分布式计算(很简单)2.Spark与MapReduce不同在什么地方3.Spark为什么比H ...
分类:其他   时间:2018-04-17 17:41:35    收藏:0  评论:0  赞:0  阅读:21
容器开启数据服务之旅系列(二):Kubernetes如何助力Spark大数据分析
摘要:容器开启数据服务之旅系列(二):Kubernetes如何助力Spark大数据分析(二):Kubernetes如何助力Spark大数据分析概述本文为大家介绍一种容器化的数据服务Spark+OSSonACK,允许Spark分布式计算节点对阿里云OSS对象存储的直接访问。容器开启数据服务之旅系列(二):Kubernetes如何助力Spark大数据分析(二):Kubernetes如何助力Spark大
分类:Web开发   时间:2018-04-17 15:39:11    收藏:0  评论:0  赞:0  阅读:34
spark web ui
spark UI 界面:http://www.cnblogs.com/xing901022/p/6445254.html 几个概念的解释:http://blog.csdn.net/jiangwlee/article/details/50774561 ...
分类:Web开发   时间:2018-04-17 10:54:30    收藏:0  评论:0  赞:0  阅读:11
当Spark遇上TensorFlow分布式深度学习框架原理和实践
近年来,机器学习和深度学习不断被炒热,tensorflow 作为谷歌发布的数值计算和神经网络的新框架也获得了诸多关注,spark和tensorflow深度学习框架的结合,使得tensorflow在现有的spark集群上就可以进行深度学习,而不需要为深度学习设置单独的集群,为了深入了解spark遇上t ...
分类:其他   时间:2018-04-16 23:37:06    收藏:0  评论:0  赞:0  阅读:34
Spark(四): Spark-sql 读hbase
SparkSql 访问 hbase配置 测试验证 SparkSql 访问 hbase配置: 拷贝HBase的相关jar包到Spark节点上的$SPARK_HOME/lib目录下,清单如下: guava-14.0.1.jar htrace-core-3.1.0-incubating.jar hbase ...
分类:数据库技术   时间:2018-04-16 18:01:03    收藏:0  评论:0  赞:0  阅读:31
大数据入门第二十四天——SparkStreaming(2)与flume、kafka整合
前一篇中数据源采用的是从一个socket中拿数据,有点属于“旁门左道”,正经的是从kafka等消息队列中拿数据! 主要支持的source,由官网得知如下: 获取数据的形式包括推送push和拉取pull 一、spark streaming整合flume 1.push的方式 更推荐的是pull的拉取方式 ...
分类:Web开发   时间:2018-04-16 17:28:56    收藏:0  评论:0  赞:0  阅读:22
Spark(二): 内存管理
转自:http://www.cnblogs.com/tgzhu/p/5822370.html Spark 作为一个以擅长内存计算为优势的计算引擎,内存管理方案是其非常重要的模块; Spark的内存可以大体归为两类:execution和storage,前者包括shuffles、joins、sorts和 ...
分类:其他   时间:2018-04-16 17:13:53    收藏:0  评论:0  赞:0  阅读:23
Spark(一): 基本架构及原理
转自:http://www.cnblogs.com/tgzhu/p/5818374.html Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一,与Hadoop和Storm ...
分类:其他   时间:2018-04-16 15:40:02    收藏:0  评论:0  赞:0  阅读:30
Kafka 入门
Kafka是由LinkedIn开发的一个分布式的消息系统,使用Scala编写,它以可水平扩展和高吞吐率而被广泛使用。目前越来越多的开源分布式处理系统如Cloudera、Apache Storm、Spark都支持与Kafka集成。 Kafka拓扑结构 安装和启动 Download Download t ...
分类:其他   时间:2018-04-15 19:08:50    收藏:0  评论:0  赞:0  阅读:29
Openfire+spark在linux上搭建内部聊天系统
一、 实验环境 Ubuntu server14.04 openfire:http://www.igniterealtime.org/downloads/index.jsp spark:http://www.igniterealtime.org/downloads/index.jsp JDK:要求1. ...
分类:系统服务   时间:2018-04-15 15:25:24    收藏:0  评论:0  赞:0  阅读:23
什么是Spark(四)运算过程中的黑科技
Spark在运算过程中提供了一套完整的机制用来提高效率。 1. 用于收集信息的Accumulator,自带增量,用于spark全局收集数据;共享数据; 2. 用于提高传输速率的broadcast机制;如果需要将已知大对象比如上万条的List,这些多大几十M甚至更大对象如果传统作为Map对象的方式下放 ...
分类:其他   时间:2018-04-14 22:40:17    收藏:0  评论:0  赞:0  阅读:48
学习笔记--Spark
参考来源:http://www.yiibai.com/spark/ 概述 Apache Spark是一个集群计算设计的快速计算。它是建立在Hadoop MapReduce之上,它扩展了 MapReduce 模式,有效地使用更多类型的计算,其中包括交互式查询和流处理。Spark的主要特征是其内存集群计 ...
分类:其他   时间:2018-04-14 00:02:51    收藏:0  评论:0  赞:0  阅读:33
Go语言之常量与运算符
用例1//此文件用来练习//常量与运算符的packagemainimport"fmt"//定义单个常量constSPARK_NAME="spark-test001"constNODE_NUMint=3//下面的方式,只是简写const(CPU=3.4MEMORY=1024)//同时定义多个变量constFTP_NAME,ES_NAME,YARN_NAME="ftp-beijing","es-bei
分类:编程语言   时间:2018-04-12 16:38:41    收藏:0  评论:0  赞:0  阅读:27
5038条   1 2 3 4 ... 252 下一页
© 2014 bubuko.com 版权所有 鲁ICP备09046678号-4
打开技术之扣,分享程序人生!
             

鲁公网安备 37021202000002号