首页 > 编程语言 > 详细

python 之spark连接hive

时间:2020-12-24 17:06:33      阅读:55      评论:0      收藏:0      [点我收藏+]

可参考 https://blog.csdn.net/m0_46651978/article/details/111618085#comments_14329527

一、首先,linux上

====单节点方法====

1. 先把spark stop了:sbin/stop-all.sh
2. 把hive里面的hive-site.xml拷贝到spark234/conf中
cp /opt/bigdata/hadoop/hive110/conf/hive-site.xml /opt/bigdata/spark/spark234/conf/
3. 把mysql-connector拉到/opt/bigdata/spark/spark234/jars
4. 重启spark:sbin/start-all.sh

====集群方法,集群还是用黑界面吧====
以上过程中第2点增加: 把hive里面的core-site.xml & hdfs-site.xml拷贝到spark234/conf中

二、windows上

====单节点方法====

1. 配环境变量:SPARK_HOME:D:\spark-2.3.4-bin-hadoop2.6
 path :%SPARK_HOME%\bin

2. 把一中linux中的spark234/conf直接覆盖到spark-2.3.4-bin-hadoop2.6/conf
(注意改hive-site.xml中的地址为虚拟机地址)
3. 把一中linux中的spark234/jars直接覆盖到spark-2.3.4-bin-hadoop2.6/jars 
4.Pycharm中:

settings -> interpreter -> 

+ joblib 存取模型

+ matplotlib

+ numpy

+ pyspark

+ scikit-learn

代码:

if __name__ == __main__:
    spark=SparkSession.builder.appName("test")        .master("spark://192.168.56.111:7077")        .enableHiveSupport().getOrCreate()
    df=spark.sql("select * from dm_events.dm_usereventfinal limit 3")
    df.show()

 

python 之spark连接hive

原文:https://www.cnblogs.com/sabertobih/p/14183397.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!