原文链接:https://cloud.tencent.com/developer/article/1096712
在大神创作的基础上,学习了一些新知识,并加以注释。
TARGET:将旧金山犯罪记录(San Francisco Crime Description)分类到33个类目中
源代码及数据集:https://github.com/cymx66688/python.git
一、载入数据集data
1 import time 2 from pyspark.sql import SQLContext 3 from pyspark import SparkContext 4 # 利用spark的csv库直接载入csv格式的数据 5 sc = SparkContext() 6 sqlContext = SQLContext(sc) 7 data = sqlContext.read.format(‘com.databricks.spark.csv‘).options(header=‘true‘, 8 inferschema=‘true‘).load(‘train.csv‘) 9 # 选10000条数据集,减少运行时间 10 data = data.sample(False, 0.01, 100) 11 print(data.count())
结果:
8703
1.1 除去与需求无关的列
# 除去一些不要的列,并展示前五行
drop_list = [‘Dates‘, ‘DayOfWeek‘, ‘PdDistrict‘, ‘Resolution‘, ‘Address‘, ‘X‘, ‘Y‘]
data = data.select([column for column in data.columns if column not in drop_list])
data.show(5)
原文:https://www.cnblogs.com/cymx66688/p/10699018.html