首页 > 编程语言 > 详细

不同算法的信贷建模流程

时间:2019-09-03 11:24:49      阅读:118      评论:0      收藏:0      [点我收藏+]

一、逻辑回归评分卡

1.数据预处理,包括

(1)数据清洗
(2)格式转换
(3)缺失值填补

2.变量衍生/特征工程

3.分箱,采用ChiMerge,要求分箱完之后:

(1)不超过5箱
(2)Bad Rate单调
(3)每箱同时包含好坏样本
(4)特殊值如-1,单独成一箱

连续型变量可直接分箱
类别型变量:
(a)当取值较多时,先用bad rate编码,再用连续型分箱的方式进行分箱
(b)当取值较少时:
(b1)如果每种类别同时包含好坏样本,无需分箱
(b2)如果有类别只包含好坏样本的一种,需要合并

此处遇到的数据结构:类别型变量:类别种数>5类

                                                         类别种数<5类

                                    其中又分为:单类别中包含好坏样本

                                                         单类别中只包含好样本或者坏样本

                                    连续型变量。

步骤:

(1)处理类别数小于5的类别型变量,对某一类别中不包含好样本或者坏样本时进行合并,对于包含的不需要合并。

(2)处理类别数大于5的类别型变量,用bad rate进行编码,放入连续型变量里。

(3)对连续型变量进行分箱(一般是chi2分箱),包括(2)中的变量。

4.WOE编码、计算IV

5.单变量分析和多变量分析,均基于WOE编码后的值。

(1)选择IV高于0.01的变量
(2)比较两两线性相关性。如果相关系数的绝对值高于阈值,剔除IV较低的一个。热力图。

(3)多变量相关性,VIF

6.逻辑回归模型。

要求:
(1)变量显著
(2)符号为负

7.尝试加一下正则(之前和盾交流,在做评分卡时基本上不用正则)

  或者用树模型进行变量的选择

 

二.GBDT算法

1.数据预处理,包括

(1)数据清洗
(2)格式转换
(3)缺失值填补

2.变量衍生/特征工程

对于类别型变量,需要onehot(独热)编码,再训练GBDT模型

3.将独热编码和数值型变量放在一起进行模型训练、调参

 

不同算法的信贷建模流程

原文:https://www.cnblogs.com/ironan-liu/p/11451589.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!