spark on hive 配置

时间：2020-07-27 09:39:19 阅读：69 评论：0 收藏：0 [点我收藏+]

hive底层使用的是MapReduce，我们都知道，相比于mapreduce，spark要快的多，spark sql 可以对接hive，读取hive中的数据，并且利用spark 计算引擎完成计算。

要实现spark sql 处理hive中的数据，最关键的就是要spark获取hive表的元素信息。

在spark 客户端，切换到安装包下spark/conf目录，创建文件hive-site.xml：配置hive的metastore路径

<configuration>

<property>

<name>hive.metastore.uris</name>

<value>thrift://node1:9083</value>

</property>

</configuration>

启动spark-shell测试是否配置成功

1.启动zookeeper集群

2.启动HDFS集群

3.启动yarn集群

4.启动hive

hive --service metastore 启动元数据服务 hive 启动客户端

5.启动spark集群

spark/sbin/start-all.sh 启动集群

6.在spark客户端启动spark shell

spark/bin/spark -shell --master spark://node1:7077

7.测试是否能连上hive元数据库

spark.sql("show databases").show() 查看hive元数据库

如果能成功看到数据库名，证明配置成功。

原文：https://www.cnblogs.com/itachilearner/p/13382797.html

踩

(0)

评论一句话评论（0）

分享档案

更多>