Pyspark笔记一

时间：2019-10-30 21:45:29 阅读：141 评论：0 收藏：0 [点我收藏+]

1. pyspark读csv文件后无法显示中文

#pyspark读取csv格式时，不能显示中文
df = spark.read.csv(r"hdfs://mymaster:8020/user/root/data_spark.csv", schema=schema)

#解决方法，加入encoding=‘gbk‘，即
df = spark.read.csv(r"hdfs://mymaster:8020/user/root/data_spark.csv", schema=schema, encoding=‘gbk‘)

2. 查看和修改默认编码格式

import sys
#查看默认编码格式
print(sys.getdefaultencoding())

#修改编码格式
sys.setdefaultencoding(‘utf8‘)

#参考：https://blog.csdn.net/abc_321a/article/details/81945577

3. pyspark导入spark

原因：python中没有默认的sparksession，需要导入

#方法
from pyspark import SparkContext
from pyspark.sql.session import SparkSession

sc = SparkContext(‘local‘, ‘test‘)
spark = SparkSession(sc)
#之后即可以使用spark
#参考：https://blog.csdn.net/zt7524/article/details/98173650

4. Pyspark引入col函数出错，ImportError: cannot import name ‘Col‘ from ‘pyspark.sql.functions‘

#有人建议的是，不过我用的时候会报错
from pyspark.sql.functions import col

#后来测试了一种方式可以用
from pyspark.sql import Row, column

#也试过另一个参考，不过要更新pyspark包之类的，于是暂时没有用该方法，也就是安装pyspark-stubs包：pip install pyspark-stubs
#参考：http://isunix.github.io/blog/2019/06/04/pysparkzhong-yin-ru-colhan-shu-de-fang-shi/
#参考：https://stackoverflow.com/questions/40163106/cannot-find-col-function-in-pyspark
#参考：https://pypi.org/project/pyspark-stubs/

Pyspark笔记一

原文：https://www.cnblogs.com/qi-yuan-008/p/11768161.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)