2015年12月16日-全部文章-布布扣-bubuko.com

Spark基于RDD近乎完美的实现了分布式内存的抽象，且能够基于位置感知性调度、自动容错、负载均衡和高度的可扩展性，Spark中允许用户在执行多个查询时显式的将工作集缓存起来以供后续查询重用，这极大的提高了查询的速度。

分类：其他时间：2015-12-16 12:49:50 收藏：0 评论：0 赞：0 阅读：184

[root@db02support-files]#egrep-v"#|^$"my-innodb-heavy-4G.cnf[client]#客户端模块port=3306#mysql客户端默认监听(listenon)的TCP/IP端口socket=/application/mysql-5.5.32/tmp/mysql.sock#为MySQL客户程序与服务器之间的本地通信指定一个套接字文件的路径[mysqld]#服务端模..

分类：数据库技术时间：2015-12-16 12:49:41 收藏：0 评论：0 赞：0 阅读：240

王家林每日大数据语录Spark篇0003

Spark一体化多元化的解决方案极大的减少了开发和维护的人力成本和部署平台的物力成本，并在性能方面有极大的优势，特别适合于迭代计算，例如机器学习和和图计算；同时Spark对Scala和Python交互式shell的支持也极大的方便了通过shell直接来使用Spark集群来验证解决问题的方法，..

分类：其他时间：2015-12-16 12:49:30 收藏：0 评论：0 赞：0 阅读：266

王家林每日大数据语录Spark篇0010（2015.11.2于深圳）

SparkContext是用户程序和Spark交互的接口，它会负责连接到Spark集群，并且根据系统默认配置和用户设置来申请计算资源，完成RDD的创建等工作。

分类：其他时间：2015-12-16 12:49:20 收藏：0 评论：0 赞：0 阅读：196

王家林每日大数据语录Spark篇0011（2015.11.2于深圳）

RDD的saveAsTextFile方法会首先生成一个MapPartitionsRDD，该RDD通过雕工PairRDDFunctions的saveAsHadoopDataset方法向HDFS等输出RDD数据的内容，并在在最后调用SparkContext的runJob来真正的向Spark集群提交计算任务。

分类：其他时间：2015-12-16 12:49:10 收藏：0 评论：0 赞：0 阅读：218

Magento实现手机和用户名登录

默认情况下，magento只支持邮箱登录，所以我们需要修改一下代码。思路是：可以通过输入的手机号和用户名来查找邮箱。首先需要重写控制器，添加配置文件<rewrite><模块名_控制器_account><from><![CDATA[#^/customer/account/#]]></from><to&g..

分类：移动平台时间：2015-12-16 12:49:01 收藏：0 评论：0 赞：0 阅读：584

王家林每日大数据语录Spark篇0012（2015.11.2于深圳）

可以从两个方面来理解RDD之间的依赖关系，一方面是RDD的parentRDD(s)是什么，另一方面是依赖于parentRDD(s)哪些Partions(s);根据依赖于parentRDD(s)哪些Partions(s)的不同情况，Spark讲Dependency分为宽依赖和窄依赖两种。

分类：其他时间：2015-12-16 12:48:51 收藏：0 评论：0 赞：0 阅读：255

王家林每日大数据语录Spark篇0013（2015.11.3于广州）

RDD有narrowdependency和widedependency两种不同的类型的依赖，其中的narrowdependency指的是每一个parentRDD的Partition最多被childRDD的一个Partition所使用，而widedependency指的是多个childRDDs的Partition会依赖于同一个parentRDD的Partition。

分类：其他时间：2015-12-16 12:48:40 收藏：0 评论：0 赞：0 阅读：198

王家林每日大数据语录Spark篇0014（2015.11.4于南宁）

对于Spark中的join操作，如果每个partition仅仅和特定的partition进行join那么就是窄依赖；对于需要parentRDD所有partition进行join的操作，即需要shuffle,此时就是宽依赖。

分类：其他时间：2015-12-16 12:48:30 收藏：0 评论：0 赞：0 阅读：193

redis安装及基础操作详解

一、概述1、关系式数据库a)以表（行和列）存储数据b)建立在关系模型上的数据库2、nosql：notonlemysql【nosql数据库的类型】3、Web2.0对数据库的要求a、能够支持数据库高并发读写的需求a)关系式数据库、支持上万次的读取操作b)Nosql支持过百万的pvb、海量数据的高效率的存储和..

分类：其他时间：2015-12-16 12:48:21 收藏：0 评论：0 赞：0 阅读：238

使用5个步骤完成在windows7下安装mysql-5.7.10-winx64.zip

1、把下载得到的mysql安装包解压后得到如下目录结构D:\JackGao\Downloads\mysql-5.7.10-winx64\bin2、修改ini文件：D:\JackGao\Downloads\mysql-5.7.10-winx64\my-default.ini在[mysqld]后面添加basedir=D:\JackGao\Downloads\mysql-5.7.10-winx64datadir=D:\JackGao\Downloads..

分类：数据库技术时间：2015-12-16 12:48:10 收藏：0 评论：0 赞：0 阅读：1890

王家林每日大数据语录Spark篇0015（2015.11.5于南宁）

Spark中宽依赖指的是生成的RDD的每一个partition都依赖于父RDD(s)所有partition，宽依赖典型的操作有groupByKey,sortByKey等，宽依赖意味着shuffle操作，这是Spark划分stage的边界的依据，Spark中宽依赖支持两种ShuffleManager，即HashShuffleManager和SortShuffleManager，前..

分类：其他时间：2015-12-16 12:48:00 收藏：0 评论：0 赞：0 阅读：239

王家林每日大数据语录Spark篇0016（2015.11.6于南宁）

RDD在创建子RDD的时候，会通过Dependency来定义他们之间的关系，通过Dependency，子RDD可以获得parentRDD(s)和parentRDD(s)的Partition(s).

分类：其他时间：2015-12-16 12:47:50 收藏：0 评论：0 赞：0 阅读：331

王家林每日大数据语录Spark篇0017（2015.11.6于南宁）

在Spark的Stage内部的每个Partition都会被分配一个计算任务Task，这些Task是并行执行的;Stage之间的依赖关系变成了一个大粒度的DAG，Stage只有在它没有parentStage或者parentStage都已经执行完成后才可以执行，也就是说DAG中的Stage是从前往后顺序执行的。

分类：其他时间：2015-12-16 12:47:40 收藏：0 评论：0 赞：0 阅读：163

王家林每日大数据语录Spark篇0018（2015.11.7于南宁）

在Spark的reduceByKey操作时会触发Shuffle的过程，在Shuffle之前，会有本地的聚合过程产生MapPartitionsRDD，接着具体Shuffle会产生ShuffledRDD,之后做全局的聚合生成结果MapPartitionsRDD

分类：其他时间：2015-12-16 12:47:30 收藏：0 评论：0 赞：0 阅读：238

王家林每日大数据语录Spark篇0019（2015.11.10于重庆）

park中的Task分为ShuffleMapTask和ResultTask两种类型，在Spark中DAG的最后一个Stage内部的任务都是ResultTask，其余所有的Stage(s)的内部都是ShuffleMapTask，生成的Task会被Driver发送到已经启动的Executor中执行具体的计算任务，执行的实现是在TaskRunner.run方法中完成的。

分类：其他时间：2015-12-16 12:47:20 收藏：0 评论：0 赞：0 阅读：219

王家林每日大数据语录Spark篇0020（2015.11.11于重庆）

Spark中生成的不同的RDD中有的喝用户的逻辑显式的对于，例如map操作会生成MapPartitionsRDD，而又的RDD则是Spark框架帮助我们隐式生成的，例如reduceByKey操作时候的ShuffledRDD.

分类：其他时间：2015-12-16 12:47:10 收藏：0 评论：0 赞：0 阅读：143

王家林每日大数据语录Spark篇0021（2015.11.18于珠海）

SparkRDD实现基于Lineage的容错机制，基于RDD的各项transformation构成了computechain，在部分计算结果丢失的时候可以根据Lineage重新计算恢复。在窄依赖中，在子RDD的分区丢失要重算父RDD分区时，父RDD相应分区的所有数据都是子RDD分区的数据，并不存在冗余计算；在宽依赖情况..

分类：其他时间：2015-12-16 12:47:02 收藏：0 评论：0 赞：0 阅读：232

王家林每日大数据语录Spark篇0022（2015.11.18于珠海）

SparkCheckpoint通过将RDD写入Disk做检查点，是Sparklineage容错的辅助，lineage过长会造成容错成本过高，这时候在中间阶段做检查点容错，如果之后有节点出现问题而丢失分区，从做检查点的RDD开始重做Lineage，就会减少开销。Checkpoint主要适用于以下两种情况：1.DAG中的Linea..

分类：其他时间：2015-12-16 12:46:51 收藏：0 评论：0 赞：0 阅读：285

linux学习笔记：locate,find命令总结

linux中locate,find命令都是在文件系统中查找符合条件的文件，但是locate是利用数据库来搜寻数据，所以速度相对比较快。locate依赖于事先构建好的索引库，每天系统在空闲时间都会通过周期性任务自动完成索引库的更新，手动更新索引库就需要执行命令updatedb,也正是因为依赖于数..

分类：系统服务时间：2015-12-16 12:46:30 收藏：0 评论：0 赞：0 阅读：258