首页 > 编程语言 > 详细

python学习笔记4_数据清洗与准备

时间:2019-11-09 18:57:04      阅读:93      评论:0      收藏:0      [点我收藏+]

一、处理缺失值

pandas使用浮点值NaN(Not a Number)来显示缺失值,并将缺失值称为NA(not available(不可用))。

NA常用处理方法:

dropna:根据每个标签的值是否是缺失数据来筛选轴标签,并根据允许丢失的数据量来确定阈值。

fillna:用某些值填充的数据或使用插值方法(如‘ffill‘ 或‘bfill‘)。

isnull:返回表明哪些值是缺失值的布尔值。

notnull:isnull的反函数。

1、过滤(data.dropna())

删除包含缺失值的行(默认):data.dropna()等价于data[data.notnull()],默认会删除包含缺失值的行

 技术分享图片

通过传入参数方式,可以

删除所有值均为NA的行:data.dropna(how=’all‘)

删除所有值均为NA的列 :data.dropna(axis=1,how=all)

 

 

 技术分享图片

 

 技术分享图片

保留包含一定数量的观察值的行:data.dropna(thresh=2)

技术分享图片

2、补全(data.fillna())

技术分享图片

 

二、数据转换

1、删除

 

2、转换

 

3、替代

 

三,字符串操作

1、字符串对象方法

 

2、正则表达式

 

3、向量化字符串函数

 

python学习笔记4_数据清洗与准备

原文:https://www.cnblogs.com/dlp-527/p/11825672.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!