首页 >  
搜索关键字:spark    ( 3911个结果
2.sparkSQL--DataFrames与RDDs的相互转换
Spark SQL支持两种RDDs转换为DataFrames的方式 使用反射获取RDD内的Schema 当已知类的Schema的时候,使用这种基于反射的方法会让代码更加简洁而且效果也很好。 通过编程接口指定Schema 通过Spark SQL的接口创建RDD的Schema,这种方式会让代码比较冗长。 ...
分类:数据库技术   时间:2017-03-25 00:46:06    收藏:0  评论:0  赞:0  阅读:14
Spark运行模式概述
Spark编程模型回顾 Spark编程模型几大要素 (1) Driver Program (2) 输入-Transformation-Action (3) 缓存 (4) 共享变量 RDD的五大特征 (1)分区 partitions (2)依赖 dependencies() (3)计算函数 compu ...
分类:其他   时间:2017-03-24 14:13:29    收藏:0  评论:0  赞:0  阅读:8
Spark编程环境搭建(基于Intellij IDEA的Ultimate版本)
为什么,我要在这里提出要用Ultimate版本。 IDEA Community(社区版)再谈之无奈之下还是去安装旗舰版 IntelliJ IDEA的黑白色背景切换(Ultimate和Community版本皆通用) 使用 IntelliJ IDEA 导入 Spark 最新源码及编译 Spark 源代码 ...
分类:其他   时间:2017-03-24 00:42:28    收藏:0  评论:0  赞:0  阅读:16
hive安装以及hive on spark
spark由于一些链式的操作,spark 2.1目前只支持hive1.2.1 到http://mirror.bit.edu.cn/apache/hive/hive-1.2.1/ 网址下载hive1.2.1的部署包 2.配置系统环境变量/etc/profile 3. 解压 4.修改配置文件 可不做任何 ...
分类:其他   时间:2017-03-23 23:53:39    收藏:0  评论:0  赞:0  阅读:6
带你认识spark安装包的目录结构
其实啊,将spark的压缩包解压好,就已经是spark的最简易安装了。 其实啊,想说的是,只要将spark这压缩包解压好,就已经是spark的最简易安装了。 ...
分类:其他   时间:2017-03-23 21:42:52    收藏:0  评论:0  赞:0  阅读:11
(一)spark算子 分为3大类
value类型的算子 处理数据类型为value型的算子(也就是这个算子只处理数据类型为value的数据),可以根据rdd的输入分区与输出分区的关系分为以下几个类型 (1)输入分区与输出分区一对一型 map型:对rdd的每个数据项,通过用户自定义的函数映射转换成一个新的rdd 上面4个方框表示4个rd ...
分类:其他   时间:2017-03-23 20:16:50    收藏:0  评论:0  赞:0  阅读:10
(二)spark算子 分为3大类
transgormation的算子对key-value类型的数据有三种: (1)输入 与 输出为一对一关系 mapValue();针对key-value类型的数据并只对其中的value进行操作,不对key进行操作 (2)对单个rdd聚集 (2)对单个rdd聚集 combineByKey 相当于将(v ...
分类:其他   时间:2017-03-23 20:12:07    收藏:0  评论:0  赞:0  阅读:10
(三)spark算子 分为3大类
ation算子通过sparkContext执行提交作业的runJob,触发rdd的DAG执行 (foreach) foreach(f) 会对rdd中的每个函数进行f操作,下面的f操作就是打印输出没有元素 saveAsTextFile foreach(f) 会对rdd中的每个函数进行f操作,下面的f操 ...
分类:其他   时间:2017-03-23 20:10:07    收藏:0  评论:0  赞:0  阅读:8
spark包
spark-assembly-1.5.2-hadoop2.6.0.jar ...
分类:其他   时间:2017-03-23 18:30:02    收藏:0  评论:0  赞:0  阅读:11
about云Hadoop相关技术总结
让你真正明白spark streaminghttp://www.aboutyun.com/forum.php?mod=viewthread&tid=21141(出处: about云开发) ...
分类:其他   时间:2017-03-23 01:13:08    收藏:0  评论:0  赞:0  阅读:11
通过 Spark R 操作 Hive
作为数据工程师,我日常用的主力语言是R,HiveQL,Java与Scala。R是非常适合做数据清洗的脚本语言,并且有非常好用的服务端IDE——RStudio Server;而用户日志主要储存在hive中,因此用HiveQL写job也是日常工作之一;当然R的执行效率确实不靠谱,因此还需要Java(El ...
分类:其他   时间:2017-03-22 20:55:35    收藏:0  评论:0  赞:0  阅读:14
用maven编译spark2.1.0
以下编译都是在root用户下执行的命令 1.安装Maven 3.3.9和Java 7+ ,这里是官方文档中要求的maven和jdk版本,其他版本未测; 2.执行 export MAVEN_OPTS="-Xmx2g -XX:ReservedCodeCacheSize=512m" 3.切换到spark2 ...
分类:其他   时间:2017-03-22 13:18:48    收藏:0  评论:0  赞:0  阅读:9
spark Task not serializable
Job aborted due to stage failure: Task not serializable: If you see this error: The above error can be triggered when you intialize a variable on the ...
分类:其他   时间:2017-03-21 16:51:29    收藏:0  评论:0  赞:0  阅读:17
Hadoop/Spark开发环境配置
修改hostname bogon 为localhost 查看ip地址 执行结果 此时python 版本为2.7 将python版本升级至3.0及以上 一、 下载欲升级python版本 Python-3.4.5,将包放于本机与虚似机的共享目录下,上传至虚似机的opt目录下 二、 解压 三、阅读READ ...
分类:其他   时间:2017-03-21 15:53:31    收藏:0  评论:0  赞:0  阅读:10
Spark性能优化之道——解决Spark数据倾斜(Data Skew)的N种姿势
本文转发自Jason’s Blog,原文链接 http://www.jasongj.com/spark/skew/ 摘要 为何要处理数据倾斜(Data Skew) 什么是数据倾斜 数据倾斜是如何造成的 从数据源直接读取。如读取HDFS,Kafka 读取上一个Stage的Shuffle数据 如何缓解/ ...
分类:其他   时间:2017-03-21 15:35:34    收藏:0  评论:0  赞:0  阅读:10
Kafka剖析(一):Kafka背景及架构介绍
Kafka是由LinkedIn开发的一个分布式的消息系统,使用Scala编写,它以可水平扩展和高吞吐率而被广泛使用。目前越来越多的开源分布式处理系统如Cloudera、Apache Storm、Spark都支持与Kafka集成。InfoQ一直在紧密关注Kafka的应用以及发展,“Kafka剖析”专栏 ...
分类:其他   时间:2017-03-21 10:17:26    收藏:0  评论:0  赞:0  阅读:13
spark.mllib源码阅读-优化算法1-Gradient
Spark中定义的损失函数及梯度,在看源码之前,先回顾一下机器学习中定义了哪些损失函数,毕竟梯度求解是为优化求解损失函数服务的。监督学习问题是在假设空间F中选取模型f作为决策函数,对于给定的输入X,由...
分类:编程语言   时间:2017-03-20 19:32:19    收藏:0  评论:0  赞:0  阅读:18
基于Spark和Hive进行的豆瓣电影数据分析
基于Spark和Hive进行的豆瓣电影数据分析 http://lvyou.baidu.com/plan/02dd403a77fd9af7350d8e34?16Z16jf=16/2017_3/dxnVx 贬酏 厚黯 http://lvyou.baidu.com/plan/7f1aba5ecddc6 ...
分类:其他   时间:2017-03-20 13:41:07    收藏:0  评论:0  赞:0  阅读:9
[人工智能]基于Spark机器学习之决策树实现
[人工智能]基于Spark机器学习之决策树实现 http://lvyou.baidu.com/plan/5a1e9a252e59a1d67e227254?775rH=2017/03.16/ZfbD 蚀隹 http://lvyou.baidu.com/plan/09861211d1d002e1397d ...
分类:其他   时间:2017-03-20 13:11:14    收藏:0  评论:0  赞:0  阅读:13
第37课:Spark中Shuffle详解及作业
第37课:Spark中Shuffle详解及作业 炉僖与 … ^ http://lvyou.baidu.com/plan/c5a33927536896e6f1bf88c7?17x55z=3-17/17 http://lvyou.baidu.com/plan/c5b38f3cbf23536896e ...
分类:其他   时间:2017-03-20 11:51:41    收藏:0  评论:0  赞:0  阅读:12
3911条   1 2 3 4 ... 196 下一页
© 2014 bubuko.com 版权所有 鲁ICP备09046678号-4
打开技术之扣,分享程序人生!
             

鲁公网安备 37021202000002号