首页 > 其他 > 详细

项目-信用评分卡案例总结

时间:2019-09-30 16:55:35      阅读:292      评论:0      收藏:0      [点我收藏+]

 1.确定观察时间窗口

使用用户逾期详情表data/CreditSampleWindow.csv:
- CID:用户ID
- STAGE_BEF:本阶段前的逾期阶段
- STAGE_AFT:本阶段进入的逾期阶段
- 其中逾期阶段含义为: M0:逾期0-3天; M1:逾期3-30天; M2:逾期30-60天; M3:逾期60-90天;以此类推
- START_DATE:进入本阶段时间
- CLOSE_DATE:本阶段结束时间
本数据取的是订单审批日从2015年1月1日到2017年10月31日的所有订单号,即这些订单对应的逾期详情,最后的截止日期为2018年5月31日

1.1导包

技术分享图片 

1.2读取数据及描述统计

技术分享图片

 

技术分享图片

 

 

 

 根据描述结果可以看出最后一列即本阶段结束时间最小值为0,且包含缺失值,故需要先处理缺失值再处理异常值0

技术分享图片

 1.3数据清洗

1.3.1去重

技术分享图片

  drop_duplicates是数据框去重的函数,可以根据指定的若干列(subset=)去重

1.3.2缺失值的处理

后4列缺失值比例相同约为0.08,若缺失值在同一行,则考虑删除。所以验证各列缺失值是否都同在一行

技术分享图片

在同一行,删除

技术分享图片

1.3.3异常值的处理

 

项目-信用评分卡案例总结

原文:https://www.cnblogs.com/lvzw/p/11613218.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!