1.确定观察时间窗口
1.1导包
1.2读取数据及描述统计
根据描述结果可以看出最后一列即本阶段结束时间最小值为0,且包含缺失值,故需要先处理缺失值再处理异常值0
1.3数据清洗
1.3.1去重
drop_duplicates是数据框去重的函数,可以根据指定的若干列(subset=)去重
1.3.2缺失值的处理
后4列缺失值比例相同约为0.08,若缺失值在同一行,则考虑删除。所以验证各列缺失值是否都同在一行
在同一行,删除
1.3.3异常值的处理
原文:https://www.cnblogs.com/lvzw/p/11613218.html