hive底层使用的是MapReduce,我们都知道,相比于mapreduce,spark要快的多,spark sql 可以对接hive,读取hive中的数据,并且利用spark 计算引擎完成计算。
要实现spark sql 处理hive中的数据,最关键的就是要spark获取hive表的元素信息。
在spark 客户端,切换到安装包下spark/conf目录,创建文件hive-site.xml:配置hive的metastore路径
<configuration>
<property>
<name>hive.metastore.uris</name>
<value>thrift://node1:9083</value>
</property>
</configuration>
启动spark-shell测试是否配置成功
1.启动zookeeper集群
2.启动HDFS集群
3.启动yarn集群
4.启动hive
hive --service metastore 启动元数据服务 hive 启动客户端
5.启动spark集群
spark/sbin/start-all.sh 启动集群
6.在spark客户端启动spark shell
spark/bin/spark -shell --master spark://node1:7077
7.测试是否能连上hive元数据库
spark.sql("show databases").show() 查看hive元数据库
如果能成功看到数据库名,证明配置成功。
原文:https://www.cnblogs.com/itachilearner/p/13382797.html