首页 >  
搜索关键字:spark    ( 40个结果
Spark学习笔记——Spark Streaming
许多应用需要即时处理收到的数据,例如用来实时追踪页面访问统计的应用、训练机器学习模型的应用, 还有自动检测异常的应用。Spark Streaming 是 Spark 为这些应用而设计的模型。它允许用户使用一套和批处理非常接近的 API 来编写流式计算应用,这样就可以大量重用批处理应用的技术甚至代码。 ...
分类:其他   时间:2017-04-26 01:00:55    收藏:0  评论:0  赞:0  阅读:7
spark中使用sparksql对日志进行分析(属于小案例)
一:使用sparksql开发 1.sparksql开发的两种方式 HQL:SQL语句开发 eq : sqlContext.sql("xxxx") DSL : sparkSql中DataFrame的API调用方式 eq:val df=sqlContext.xxx df.select("number") ...
分类:数据库技术   时间:2017-04-25 23:09:19    收藏:0  评论:0  赞:0  阅读:5
Spark修炼之道(基础篇)——Linux大数据开发基础:第六节:vi、vim编辑器(二)(转载)
转自云栖社区: https://yq.aliyun.com/articles/60354?spm=5176.8251999.569296.36.siyXRn 周志湖 2015-08-25 21:23:00 浏览305 评论0 摘要: 本节主要内容 缓冲区的使用 文件的存盘与读盘 文本查找 文本替换 ...
分类:系统服务   时间:2017-04-25 15:45:42    收藏:0  评论:0  赞:0  阅读:5
Spark集群模式&Spark程序提交
Spark集群模式&Spark程序提交 1. 集群管理器 Spark当前支持三种集群管理方式 Standalone—Spark自带的一种集群管理方式,易于构建集群。 Apache Mesos—通用的集群管理,可以在其上运行Hadoop MapReduce和一些服务应用。 Hadoop YARN—Ha ...
分类:其他   时间:2017-04-25 00:30:20    收藏:0  评论:0  赞:0  阅读:22
spark-submit的参数名称解析
执行时需要传入的参数说明 Usage: spark-submit [options] <app jar | Python file> [app options] 参数名称 含义 --master MASTER_URL 可以是spark://host:port, mesos://host:port, ...
分类:其他   时间:2017-04-25 00:23:37    收藏:0  评论:0  赞:0  阅读:11
6大主流开源SQL引擎总结,遥遥领先的是谁?
根据 O’Reilly 2016年数据科学薪资调查显示,SQL 是数据科学领域使用最广泛的语言。大部分项目都需要一些SQL 操作,甚至有一些只需要SQL。本文就带你来了解这些主流的开源SQL引擎!背景介绍 本文涵盖了6个开源领导者:Hive、Impala、Spark SQL、Drill、HAWQ 以 ...
分类:数据库技术   时间:2017-04-24 20:34:50    收藏:0  评论:0  赞:0  阅读:15
关于spark的mllib学习总结(Java版)
本篇博客主要讲述如何利用spark的mliib构建机器学习模型并预测新的数据,具体的流程如下图所示: 加载数据对于数据的加载或保存,mllib提供了MLUtils包,其作用是Helper metho...
分类:编程语言   时间:2017-04-24 19:42:37    收藏:0  评论:0  赞:0  阅读:14
50.性能调优之重构RDD架构以及RDD持久化
本文为《Spark大型电商项目实战》 系列文章之一,主要介绍重构RDD及持久化的原因及方法,并在代码中实现优化。
分类:其他   时间:2017-04-23 21:06:18    收藏:0  评论:0  赞:0  阅读:13
Openfire服务器和Spark客户端配置
关于之前一直在进行的聊天app的项目,我们还没有完成,这次我们介绍一下,Openfire服务器的配置。 1.Openfire下载 Openfire下载地址:http://www.igniterealtime.org/ 在屏幕的右侧有个Openfire3.9.3,这个是目前最新的版本。 2.安装 一个 ...
分类:其他   时间:2017-04-23 19:50:23    收藏:0  评论:0  赞:0  阅读:10
Shell阅读
set -e 若指令传回值不等于0,则立即退出shell。set -x 执行指令后,会先显示该指令及所下的参数。set -a mylove 设置为环境变量 SPARK_HOME="$(cd "`dirname "$0"`/.."; pwd)" $()用于执行里面的命令 ...
分类:系统服务   时间:2017-04-22 19:27:43    收藏:0  评论:0  赞:0  阅读:8
揭秘Spark应用性能调优
引言:在多台机器上分布数据以及处理数据是Spark的核心能力,即我们所说的大规模的数据集处理。为了充分利用Spark特性,应该考虑一些调优技术。本文每一小节都是关于调优技术的,并给出了如何实现调优的必要步骤。本文选自《SparkGraphX实战》。1用缓存和持久化来加速Spark我们..
分类:其他   时间:2017-04-21 21:49:56    收藏:0  评论:0  赞:0  阅读:15
Spark 例子
1、Java下Spark开发环境搭建(from http://www.cnblogs.com/eczhou/p/5216918.html) 1.1、jdk安装 安装oracle下的jdk,我安装的是jdk 1.7,安装完新建系统环境变量JAVA_HOME,变量值为“C:\Program Files\ ...
分类:其他   时间:2017-04-21 00:40:41    收藏:0  评论:0  赞:0  阅读:14
Spark SQL数据加载和保存实战
一:前置知识详解: Spark SQL重要是操作DataFrame,DataFrame本身提供了save和load的操作, Load:可以创建DataFrame, Save:把DataFrame中的数据保存到文件或者说与具体的格式来指明我们要读取的文件的类型以及与具体的格式来指出我们要输出的文件是什 ...
分类:数据库技术   时间:2017-04-20 23:21:28    收藏:0  评论:0  赞:0  阅读:22
Spark MLlib数据类型
MLlib支持几种数据类型:本地向量(local vectors),和存储在本地或者基于RDD的分布式矩阵(matrices)。底层的线性代数转换操作是基于Breeze和jblas实现的。在MLlib...
分类:其他   时间:2017-04-20 20:11:56    收藏:0  评论:0  赞:0  阅读:19
Spark
什么是Spark Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架。最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一。 与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势。 首先,S ...
分类:其他   时间:2017-04-20 19:32:28    收藏:0  评论:0  赞:0  阅读:8
java编写spark程序
转载:http://blog.csdn.net/qiaojialin/article/details/53942028 ...
分类:编程语言   时间:2017-04-20 19:31:21    收藏:0  评论:0  赞:0  阅读:10
java8 Map的一些简单使用
privatestaticMap<String,Integer>newMap=newHashMap<String,Integer>(); publicstaticvoidmain(String[]args){ newMap.put("hadoop",100); newMap.put("spark",50); newMap.put("java",80); newMap.put("mysql",90); newMap.put("redis",50); newMap.put("oracle"..
分类:编程语言   时间:2017-04-20 17:34:51    收藏:0  评论:0  赞:0  阅读:9
Spark应用开发之一:Hadoop分析大数据
要学会和使用一门技术的时候,首先要弄清楚该技术出现的背景和要解决的问题。要说spark首先要了解海量数据的处理和Hadoop技术。一个系统在运行的过程中都会产生许多的日志数据,这些日志数据包含但不局限我们平常开发中使用log4j或者logback生成的记录系统运行情况的日志。例如..
分类:其他   时间:2017-04-20 17:21:01    收藏:0  评论:0  赞:0  阅读:12
浅谈Spark内部运行机制
Spark中最重要的机制有那些?1.RDD,2.Spark调度机制,3Shuffle过程什么是RDD?可以这么说,你懂了RDD,基本上就可以对Hadoop和Spark的一半给吃透了,那么到底是RDDRDD(弹性分布式数据集)首先体现数据集,RDD是对原始数据的封装,该种数据结构内部可以对数据进行逻辑分区,其次..
分类:其他   时间:2017-04-20 11:42:26    收藏:0  评论:0  赞:0  阅读:12
Spark存储管理
Spark的存储管理 RDD的存放和管理都是由Spark的存储管理模块实现和管理的。本文从架构和功能两个角度对Spark的存储管理模块进行介绍。 架构角度 从架构角度,存储管理模块主要分为以下两层: 通信层:存储管理模块采用的是主从结构来实现通信层,主节点和从节点之间传输控制信息、状态信息。 存储层 ...
分类:其他   时间:2017-04-20 10:44:39    收藏:0  评论:0  赞:0  阅读:18
40条   1 2 下一页
© 2014 bubuko.com 版权所有 鲁ICP备09046678号-4
打开技术之扣,分享程序人生!
             

鲁公网安备 37021202000002号