首页 > 其他 > 详细

项目实战-使用PySpark处理文本多分类问题

时间:2019-04-12 22:36:11      阅读:377      评论:0      收藏:0      [点我收藏+]

原文链接:https://cloud.tencent.com/developer/article/1096712

在大神创作的基础上,学习了一些新知识,并加以注释。

TARGET:将旧金山犯罪记录(San Francisco Crime Description)分类到33个类目中

源代码及数据集:https://github.com/cymx66688/python.git

一、载入数据集data

 1 import time
 2 from pyspark.sql import SQLContext
 3 from pyspark import SparkContext
 4 # 利用spark的csv库直接载入csv格式的数据
 5 sc = SparkContext()
 6 sqlContext = SQLContext(sc)
 7 data = sqlContext.read.format(com.databricks.spark.csv).options(header=true,
 8                                                                   inferschema=true).load(train.csv)
 9 # 选10000条数据集,减少运行时间
10 data = data.sample(False, 0.01, 100)
11 print(data.count())
结果:
8703

1.1 除去与需求无关的列

# 除去一些不要的列,并展示前五行
drop_list = [‘Dates‘, ‘DayOfWeek‘, ‘PdDistrict‘, ‘Resolution‘, ‘Address‘, ‘X‘, ‘Y‘]
data = data.select([column for column in data.columns if column not in drop_list])
data.show(5)

 

 





 

项目实战-使用PySpark处理文本多分类问题

原文:https://www.cnblogs.com/cymx66688/p/10699018.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!