数据清洗之数据预处理重复值缺失值异常值数据离散化

时间：2020-02-07 00:53:00 阅读：88 评论：0 收藏：0 [点我收藏+]

数据清洗之数据预处理

摩托车的销售情况数据

Condition：摩托车新旧情况（new：新的和used：使用过的）
Condition_Desc：对当前状况的描述
Price：价格
Location：发获地址
Model_Year：购买年份
Mileage：里程
Exterior_Color：车的颜色
Make：制造商（牌子）
Warranty：保修
Model：类型
Sub_Model：车辆类型
Type：种类
Vehicle_Title：车辆主题
OBO：车辆仪表盘
Watch_Count：表数
N_Reviews：评测次数
Seller_Status：卖家身份
Auction：拍卖（Ture或者False）
Buy_Now:现买
Bid_Count：出价计数

In [ ]:

import numpy as np
import pandas as pd
import os

In [ ]:

os.chdir(r‘F:\CSDN\课程内容\代码和数据‘)

In [ ]:

df = pd.read_csv(‘MotorcycleData.csv‘,encoding = ‘gbk‘,na_values=‘Na‘)

na_values=‘Na‘ 对所有的空字符串做缺失值填充

na_values=‘used‘  对所有的‘used’的数据写成缺失值

1. 重复值处理

In [ ]:

df.head(5)

对价格和里程数数据进行处理

In [ ]:

# 自定义一个函数
def f(x):
    if ‘$‘ in str(x):
        x = str(x).strip(‘$‘)           # 去除
        x = str(x).replace(‘,‘,‘‘)      # 替换
    else:
        x = str(x).replace(‘,‘,‘‘)
    return float(x)

In [ ]:

df[‘Price‘] =  df[‘Price‘] .apply(f)

In [ ]:

df[‘Mileage‘] = df[‘Mileage‘].apply(f)

In [ ]:

print (‘数据集是否存在重复观测: \n‘, any(df.duplicated()))

In [ ]:

df[df.duplicated()] #查看那些数据重复（全部）

In [ ]:

np.sum(df.duplicated()) #计算重复数量

In [ ]:

df.drop_duplicates() #删除所有变量都重复的行, 注意没有加inplace = True，只会是视图上删除，只有加了才对原始数据改动

In [ ]:

df.drop_duplicates(subset= [‘Condition‘,‘Condition_Desc‘,‘Price‘,‘Location‘],inplace=True) #按照两个变量重复 来 来去重

In [ ]:

df.info()

2. 缺失值处理

In [ ]:

df.apply(lambda x: sum(x.isnull())/len(x),axis= 0) #缺失比例，超过90%或95%就可以扔了

In [ ]:

#删除法
df.dropna() #直接删除法

In [ ]:

df.dropna(how=‘any‘,axis = 1 ) #只要有缺失，就删除这一列

df.dropna(how=‘all‘,axis = 1 ) #只有全部缺失，才删除这一列

In [ ]:

df.dropna(how=‘any‘,axis = 0) #只要有缺失，就删除这一行，等价于df.dropna()

axis = 0 或者 1代表的函数在数据集作用的方向，0代表沿着行的方向，1代表沿着列的方向

In [ ]:

df.dropna(axis = 0,how=‘any‘,subset=[‘Condition‘,‘Price‘,‘Mileage‘]) # 1代表列，0代表行，只要有缺失，就删除这一行,基于三个变量

在数据分析中，实际上大部分时候都是按照行来进行删除的，很少会基于列来进行删除列代表的是变量，是否删除删除列很多时候主要取决于缺失比例

使用替换法进行缺失值的填补

替换法

In [ ]:

df.head(10)

In [ ]:

df.Mileage.fillna(df.Mileage.mean()) # 年龄这里列 用均值填补

In [ ]:

df.Mileage.fillna(df.Mileage.median()) #中位数填补

In [ ]:

df[df[‘Exterior_Color‘].isnull()]

In [ ]:

df.Exterior_Color.fillna(df.Exterior_Color.mode()[0]) #众数填补mode()[0]，众数可能有好几个，后面表示取第一个

In [ ]:

df.fillna(20) # 所有缺失用20填补

In [ ]:

# 车的颜色使用众数,里程树使用均值
df.fillna(value = {‘Exterior_Color‘:df.Exterior_Color.mode()[0],‘Mileage‘:df.Mileage.mean()})

这里还是没有加inplace=True,所以数据本身没变，只是视图变化了

In [ ]:

df[‘Exterior_Color‘].fillna(method=‘ffill‘) #前向填补

In [ ]:

df[‘Exterior_Color‘].fillna(method=‘bfill‘) #后向填补

3.异常值处理

df.Price和df[‘Price‘]的作用应该是一样的

异常值检测可以使用均值的2倍标准差范围，也可以使用上下4分位数差方法

In [ ]:

# 判断年龄有什么异常值
# 剔除户主姓名,户主身份证号和年龄有缺失的样本
df.dropna(axis = 0,how=‘any‘,subset=[‘户主姓名‘,‘户主身份证号‘,‘age‘],inplace = True) #1代表列，0代表行，只要有缺失，就删除这一行,基于三个变量

In [ ]:

# 异常值检测之标准差法
xbar = df.Price.mean()     均值
xstd = df.Price.std()      标准差
print(‘标准差法异常值上限检测：\n‘,any(df.Price> xbar + 2.5 * xstd))
print(‘标准差法异常值下限检测：\n‘,any(df.Price< xbar - 2.5 * xstd))

In [ ]:

# 异常值检测之箱线图法
Q1 = df.Price.quantile(q = 0.25)      取25%为分位数
Q3 = df.Price.quantile(q = 0.75)
IQR = Q3 - Q1                         分位差

In [ ]:

print(‘箱线图法异常值上限检测：\n‘,any(df.Price > Q3 + 1.5 * IQR))
print(‘箱线图法异常值下限检测：\n‘,any(df.Price < Q1 - 1.5 * IQR))

In [ ]:

df.Price.describe()# 对价格进行描述性统计

In [ ]:

import matplotlib.pyplot as plt
%matplotlib inline

In [ ]:

df.Price.plot(kind =‘box‘)

In [ ]:

# 导入绘图模块
import matplotlib.pyplot as plt
# 设置绘图风格
plt.style.use(‘seaborn‘)
# 绘制直方图（30条柱子，密度以概率密度）
df.Price.plot(kind = ‘hist‘, bins = 30, density = True)
# 绘制核密度图
df.Price.plot(kind = ‘kde‘)
# 图形展现
plt.show()

In [ ]:

# 用99分位数和1分位数替换
#计算P1和P99
P1 =df.Price.quantile(0.01); P99 = df.Price.quantile(0.99)

#先创建一个新变量，进行赋值，然后将满足条件的数据进行替换
df[‘Price_new‘] = df[‘Price‘]
df.loc[df[‘Price‘] > P99,‘Price_new‘]  = P99
df.loc[df[‘Price‘] < P1,‘Price_new‘]  = P1

回忆：#注意loc是标签 #注意iloc是位置

In [ ]:

df[[‘Price‘,‘Price_new‘]].describe()

4.数据离散化

pandas.cut(x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False)
参数：
x，类array对象，且必须为一维，待切割的原形式
bins, 整数、序列尺度、或间隔索引。如果bins是一个整数，它定义了x宽度范围内的等宽面元数量，但是在这种情况下，x的范围在每个边上被延长1%，以保证包括x的最小值或最大值。如果bin是序列，它定义了允许非均匀bin宽度的bin边缘。在这种情况下没有x的范围的扩展。
right,布尔值。是否是左开右闭区间，right=True,左开右闭,right=False,左闭右开
labels,用作结果箱的标签。必须与结果箱相同长度。如果FALSE，只返回整数指标面元。
retbins,布尔值。是否返回面元
precision，整数。返回面元的小数点几位
include_lowest，布尔值。第一个区间的左端点是否包含

In [ ]:

df.head(5)

In [ ]:

df[‘Price_bin‘] =  pd.cut(df[‘Price_new‘],5,labels=range(5))
#切分五大类，把这五份分别取0～5的标签
df[‘Price_bin‘].hist()

自定义分段标准和标签

In [ ]:

df[‘Price_new‘].describe()

In [ ]:

w = [100,1000,5000,10000,20000,50000]

In [ ]:

df[‘Price_bin‘] =  pd.cut(df[‘Price_new‘], bins =w,labels=[‘低‘,‘便宜‘,‘划算‘,‘中等‘,‘高‘],right=False)

In [ ]:

df[‘Price_bin‘].value_counts()

cut的样本是不平均的

q cu t的样本划分下来基本是平均的

pandas.qcut(x, q, labels=None, retbins=False, precision=3, duplicates=’raise’)
参数：
x
q,整数或分位数组成的数组。
q, 整数或分位数数组整数比如 4 代表按照4分位数进行切割
labels, 用作结果箱的标签。必须与结果箱相同长度。如果FALSE，只返回整数指标面元。

原理都是基于分位数来进行离散化

In [ ]:

k = 5
w = [1.0*i/k for i in range(k+1)] 
w

这里w的作用就是分位
值为[0.0，0.2，0.4，0.6，0.8，1.0]
也就是“等频”

In [ ]:等频分段

df[‘Price_bin‘] = pd.qcut(df[‘Price_new‘],w,labels=range(k))
# 这里的w赋值的是q这个变量

In [ ]:

df[‘Price_bin‘].hist()

或者先计算分位数的值

In [ ]:

k = 5
w1 = df[‘Price_new‘].quantile([1.0*i/k for i in range(k+1)])#先计算分位数,在进行分段
w1[0] = w1[0]* 0.95 # 最小值缩小一点
w[-1] = w1[1]* 1.05 # 将最大值增大一点, 目的是为了确保数据在这个范围内

In [ ]:

w1

In [ ]:

df[‘Price_bin‘] = pd.cut(df[‘Price_new‘],w1,labels=range(k))
df[‘Price_bin‘].hist()



#在上面这个例子中，有两种分的方法，其中w啊是先划分一个等频段，w1是先计算了数据本身的等频区间。

数据清洗之数据预处理重复值缺失值异常值数据离散化

原文：https://www.cnblogs.com/xingnie/p/12264505.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)

数据清洗之数据预处理 重复值 缺失值 异常值 数据离散化

数据清洗之数据预处理

1. 重复值处理

2. 缺失值处理

3.异常值处理

4.数据离散化

数据清洗之数据预处理重复值缺失值异常值数据离散化