首页 >  
搜索关键字:spark    ( 404个结果
下载基于大数据技术推荐系统实战教程(Spark ML Spark Streaming Kafka Hadoop Mahout Flume Sqoop Redis)
地址:http://pan.baidu.com/s/1c2tOtwc密码:yn2r82课高清完整版,转一播放码。互联网行业是大数据应用最前沿的阵地,目前主流的大数据技术,包括hadoop,spark等,全部来自于一线互联网公司。从应用角度讲,大数据在互联网领域主要有三类应用:搜索引擎(比如百度,谷歌等),广..
分类:Web开发   时间:2017-07-25 19:27:42    收藏:0  评论:0  赞:0  阅读:25
Spark 分析网站排名热度
需求:/解决是一个各个子模块内的热度排名--》排名得用sortBy---》(可能就是简单的排序,或者是二次排序)---》//前面有一个wordCount---》算出次数出来--》考虑什么作为key//算的一个网站下面,每个子模块下面的网页热度前2名://算的一个网站下面,每个子模块下面的网页热度..
分类:Web开发   时间:2017-07-25 15:23:22    收藏:0  评论:0  赞:0  阅读:18
Spark源代码分析之六:Task调度(二)
话说在《Spark源代码分析之五:Task调度(一)》一文中,我们对Task调度分析到了DriverEndpoint的makeOffers()方法。这种方法针对接收到的ReviveOffers事件进行处理。代码例如以下: // Make fake resource offers on all exe ...
分类:其他   时间:2017-07-24 18:48:58    收藏:0  评论:0  赞:0  阅读:24
python spark kmeans demo
官方的demo ...
分类:编程语言   时间:2017-07-24 16:04:30    收藏:0  评论:0  赞:0  阅读:15
一、spark错误
1、 spark 从hbase过滤出数据形成RDD,然后再做计算,这个错误大概意思是 从hbase过滤出来的数据为空,也就是一个空的RDD 2、 org.apache.spark.shuffle.MetadataFetchFailedException: Missing an output loca ...
分类:其他   时间:2017-07-24 12:51:04    收藏:0  评论:0  赞:0  阅读:13
Spark 性能相关參数配置具体解释-shuffle篇
作者:刘旭晖 Raymond 转载请注明出处Email:colorant at 163.comBLOG:http://blog.csdn.net/colorant/随着Spark的逐渐成熟完好, 越来越多的可配置參数被加入到Spark中来, 在Spark的官方文档http://spark.apach ...
分类:其他   时间:2017-07-23 12:25:33    收藏:0  评论:0  赞:0  阅读:24
使用spark对hive表中的多列数据判重
本文处理的场景如下,hive表中的数据,对其中的多列进行判重deduplicate。 1、先解决依赖,spark相关的所有包,pom.xml spark-hive是我们进行hive表spark处理的关键。 2、spark-client 3、判重流程 4、运行方式 提交任务脚本 运行: 结果 ...
分类:其他   时间:2017-07-23 00:23:49    收藏:0  评论:0  赞:0  阅读:16
Ubuntu 安装 spark
环境: Unbunt 12.04 Hadoop 2.2.x Sprak 0.9 Scala scala-2.9.0.final.tgz 步骤 1. 下载 scala 2. 解压scala,然后改动/etc/profile,加入例如以下 export SCALA_HOME=/home/software ...
分类:系统服务   时间:2017-07-22 20:28:19    收藏:0  评论:0  赞:0  阅读:15
Spark学习笔记
Spark学习笔记 转贴请声明原文:http://blog.csdn.net/duck_genuine/article/details/40506715 join跟union方法測试效果 join(otherDataset, [numTasks]):(K, V) join (K, W) => (K, ...
分类:其他   时间:2017-07-22 17:51:48    收藏:0  评论:0  赞:0  阅读:16
Spark 编程实战之经典算法TOP K
TopK TopK算法有两步,一是统计词频,二是找出词频最高的前K个词。 1.实例描述 假设取Top1,则有如下输入和输出。 输入: HelloWorldByeWorld HelloHadoopByeHadoop ByeHadoopHelloHadoop 输出: 词Hadoop词频4 2.设计思路 首先统计WordCount的词频,将数据转化为(词,词频)..
分类:编程语言   时间:2017-07-21 21:41:36    收藏:0  评论:0  赞:0  阅读:26
Spark机器学习(11):协同过滤算法
协同过滤(Collaborative Filtering,CF)算法是一种常用的推荐算法,它的思想就是找出相似的用户或产品,向用户推荐相似的物品,或者把物品推荐给相似的用户。怎样评价用户对商品的偏好?可以有很多方法,如用户对商品的打分、购买、页面停留时间、保存、转发等等。得到了用户对商品的偏好,就可 ...
分类:编程语言   时间:2017-07-21 19:32:01    收藏:0  评论:0  赞:0  阅读:20
【Spark】RDD操作具体解释4——Action算子
本质上在Actions算子中通过SparkContext运行提交作业的runJob操作,触发了RDD DAG的运行。 依据Action算子的输出空间将Action算子进行分类:无输出、 HDFS、 Scala集合和数据类型。 无输出 foreach 对RDD中的每一个元素都应用f函数操作,不返回RD ...
分类:其他   时间:2017-07-21 18:10:49    收藏:0  评论:0  赞:0  阅读:28
【Spark Core】TaskScheduler源代码与任务提交原理浅析2
引言 上一节《TaskScheduler源代码与任务提交原理浅析1》介绍了TaskScheduler的创建过程,在这一节中,我将承接《Stage生成和Stage源代码浅析》中的submitMissingTasks函数继续介绍task的创建和分发工作。 DAGScheduler中的submitMiss ...
分类:其他   时间:2017-07-21 13:10:37    收藏:0  评论:0  赞:0  阅读:18
Spark Kudu 结合
Kudu的背景 Hadoop中有很多组件,为了实现复杂的功能通常都是使用混合架构, Hbase:实现快速插入和修改,对大量的小规模查询也很迅速 HDFS/Parquet + Impala/Hive:对超大的数据集进行查询分析,对于这类场景, Parquet这种列式存储文件格式具有极大的优势。 HDF ...
分类:其他   时间:2017-07-20 17:06:40    收藏:0  评论:0  赞:0  阅读:32
Exactly-once Spark Streaming from Apache Kafka
这篇文章我已经看过两遍了。收获颇多,抽个时间翻译下,先贴个原文链接吧。也给自己留个任务 http://blog.cloudera.com/blog/2015/03/exactly-once-spark-streaming-from-apache-kafka/ 这篇文章我已经看过两遍了。收获颇多,抽个 ...
分类:Web开发   时间:2017-07-20 15:03:02    收藏:0  评论:0  赞:0  阅读:21
Kafka集群部署及測试
题记 眼下我们对大数据进行研究方向以Spark为主,当中Spark Streaming是能够接收动态数据流并进行处理。那么Spark Streaming支持多源的数据发送端,比如TCP、ZeroMQ、自然也包含Kafka,并且Kafka+SparkStreaming的技术融合也比較经常使用并且成熟, ...
分类:其他   时间:2017-07-20 09:22:47    收藏:0  评论:0  赞:0  阅读:25
Spark机器学习(10):ALS交替最小二乘算法
1. Alternating Least Square ALS(Alternating Least Square),交替最小二乘法。在机器学习中,特指使用最小二乘法的一种协同推荐算法。如下图所示,u表示用户,v表示商品,用户给商品打分,但是并不是每一个用户都会给每一种商品打分。比如用户u6就没有给商 ...
分类:编程语言   时间:2017-07-20 00:29:26    收藏:0  评论:0  赞:0  阅读:29
spark 随机森林算法案例实战
随机森林算法 由多个决策树构成的森林,算法分类结果由这些决策树投票得到,决策树在生成的过程当中分别在行方向和列方向上添加随机过程,行方向上构建决策树时采用放回抽样(bootstraping)得到训练数据,列方向上采用无放回随机抽样得到特征子集,并据此得到其最优切分点,这便是随机森林算法的基本原理。图 ...
分类:编程语言   时间:2017-07-19 10:22:33    收藏:0  评论:0  赞:0  阅读:48
随机森林算法demo python spark
关键参数 最重要的,常常需要调试以提高算法效果的有两个参数:numTrees,maxDepth。 numTrees(决策树的个数):增加决策树的个数会降低预测结果的方差,这样在测试时会有更高的accuracy。训练时间大致与numTrees呈线性增长关系。 maxDepth:是指森林中每一棵决策树最 ...
分类:编程语言   时间:2017-07-19 10:19:34    收藏:0  评论:0  赞:0  阅读:28
00、Wordcount
1、pom.xml 4.0.0 sparkcore sparkcore-java 1.0 jar sparkcore-java http://maven.apache.org UTF-8 org.apache.spark spark-core_2.11 ... ...
分类:其他   时间:2017-07-18 23:47:03    收藏:0  评论:0  赞:0  阅读:23
404条   1 2 3 4 ... 21 下一页
© 2014 bubuko.com 版权所有 鲁ICP备09046678号-4
打开技术之扣,分享程序人生!
             

鲁公网安备 37021202000002号