一、处理缺失值
pandas使用浮点值NaN(Not a Number)来显示缺失值,并将缺失值称为NA(not available(不可用))。
NA常用处理方法:
dropna:根据每个标签的值是否是缺失数据来筛选轴标签,并根据允许丢失的数据量来确定阈值。
fillna:用某些值填充的数据或使用插值方法(如‘ffill‘ 或‘bfill‘)。
isnull:返回表明哪些值是缺失值的布尔值。
notnull:isnull的反函数。
1、过滤(data.dropna())
删除包含缺失值的行(默认):data.dropna()等价于data[data.notnull()],默认会删除包含缺失值的行
通过传入参数方式,可以
删除所有值均为NA的行:data.dropna(how=’all‘)
删除所有值均为NA的列 :data.dropna(axis=1,how=all)
保留包含一定数量的观察值的行:data.dropna(thresh=2)
2、补全(data.fillna())
二、数据转换
1、删除
2、转换
3、替代
三,字符串操作
1、字符串对象方法
2、正则表达式
3、向量化字符串函数
原文:https://www.cnblogs.com/dlp-527/p/11825672.html