首页 > 数据库技术 > 详细

Spark SQL

时间:2017-08-25 13:01:57      阅读:255      评论:0      收藏:0      [点我收藏+]

1.1.  Spark SQL概述

1.1.1.   什么是Spark SQL

 技术分享

Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。

1.1.2.   为什么要学习Spark SQL

我们已经学习了Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduce的程序的复杂性,由于MapReduce这种计算模型执行效率比较慢。所以Spark SQL的应运而生,它是将Spark SQL转换成RDD,然后提交到集群执行,执行效率非常快!

1.易整合

技术分享

2.统一的数据访问方式

 技术分享

3.兼容Hive

技术分享

 

 

 

 

 

4.标准的数据连接

 技术分享

1.1.  DataFrames

1.1.1.   什么是DataFrames

与RDD类似,DataFrame也是一个分布式数据容器。然而DataFrame更像传统数据库的二维表格,除了数据以外,还记录数据的结构信息,即schema。同时,与Hive类似,DataFrame也支持嵌套数据类型(struct、array和map)。从API易用性的角度上 看,DataFrame API提供的是一套高层的关系操作,比函数式的RDD API要更加友好,门槛更低。由于与R和Pandas的DataFrame类似,Spark DataFrame很好地继承了传统单机数据分析的开发体验。

技术分享

 

 

 

 

 

 

 

 

 

 

1.1.2.   创建DataFrames

 在Spark SQL中SQLContext是创建DataFrames和执行SQL的入口,在spark已经内置了一个sqlContext

技术分享

技术分享

hadoop fs -put person.txt /

技术分享

技术分享

 

Spark SQL

原文:http://www.cnblogs.com/Khaleesi-yu/p/7427249.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!