项目实战-使用PySpark处理文本多分类问题

时间：2019-04-12 22:36:11 阅读：378 评论：0 收藏：0 [点我收藏+]

原文链接：https://cloud.tencent.com/developer/article/1096712

在大神创作的基础上，学习了一些新知识，并加以注释。

TARGET：将旧金山犯罪记录（San Francisco Crime Description）分类到33个类目中

源代码及数据集：https://github.com/cymx66688/python.git

一、载入数据集data

 1 import time
 2 from pyspark.sql import SQLContext
 3 from pyspark import SparkContext
 4 # 利用spark的csv库直接载入csv格式的数据
 5 sc = SparkContext()
 6 sqlContext = SQLContext(sc)
 7 data = sqlContext.read.format(‘com.databricks.spark.csv‘).options(header=‘true‘,
 8                                                                   inferschema=‘true‘).load(‘train.csv‘)
 9 # 选10000条数据集，减少运行时间
10 data = data.sample(False, 0.01, 100)
11 print(data.count())

结果：

8703

1.1 除去与需求无关的列

# 除去一些不要的列，并展示前五行
drop_list = [‘Dates‘, ‘DayOfWeek‘, ‘PdDistrict‘, ‘Resolution‘, ‘Address‘, ‘X‘, ‘Y‘]
data = data.select([column for column in data.columns if column not in drop_list])
data.show(5)

项目实战-使用PySpark处理文本多分类问题

原文：https://www.cnblogs.com/cymx66688/p/10699018.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)