首页 > 其他 > 详细

管道模型

时间:2019-05-08 12:56:37      阅读:113      评论:0      收藏:0      [点我收藏+]

把一系列算法打包在一起,让他们各司其职,形成一个流水线,即“管道模型”

就像组装汽车的工厂流水线

 

本节涉及:

  • 管道模型的基本概念和使用
  • 使用管道模型进行模型选择
  • 使用管道模型进行参数调优

 

管道模型的基本概念和使用

这种让我们若干个模型完美配合的功能,更完美的叫法——sklearn中的类(class)

1.基本概念

如果我们要对某个数据集进行进行模型训练的话,大概做法:

载入数据集【继续使用make_blobs 生成数据集】,然后对数据集进行预处理【假设需要】

#导入数据集生成器
from sklearn.datasets import make_blobs
#导入数据集拆分工具
from sklearn.model_selection import train_test_split
#导入预处理工具
from sklearn.preprocessing import StandardScaler
#导入多层感知器神经网络
from sklearn.neural_network import MLPClassifier
#导入画图工具
import matplotlib.pyplot as plt
#生成样本数量200,分类2,标准差5的数据集
X,y = make_blobs(n_samples=200,centers=2,cluster_std=5)
X_train,X_test,y_train,y_test = train_test_split(X,y,random_state=38)
#对数据进行预处理
scaler = StandardScaler().fit(X_train)
X_train_scaled = scaler.transform(X_train)
X_test_scaled = scaler.transform(X_test)
print(训练集数据形态:,X_train_scaled.shape)
print(测试集数据形态:,X_test_scaled.shape)
训练集数据形态: (150, 2)
测试集数据形态: (50, 2)

#这段代码中,我们选择的是MLP多层感知神经网络作为下一步要用的分类器模型【因为MLP是典型的需要进行数据预处理的算法模型】

 

 【结果分析】

 训练集中的数据样本为150个,测试集中的样本数量为50个,特征数都是2

 

看一下未经预处理的训练集和经过预处理的数据差别:

 

#原始的训练集
plt.scatter(X_train[:,0],X_train[:,1])
#经过预处理的训练集
plt.scatter(X_train_scaled[:,0],X_train_scaled[:,1],marker=^,edgecolor=k)
plt.title(training set & scaled trianing set)
plt.show()

 技术分享图片

 

 

 

【结果分析】

 从图中可以看到,StandardScaler将训练集的数据变的更加聚拢——> 利于使用神经网络模型进行拟合

 

使用网格搜索来确定MLP的最优参数:

【本例中选择hidden_layer_sizes 和 alpha 进行实验】

#导入网格搜索
from sklearn.model_selection import GridSearchCV
#设定网格搜索的模型参数字典
params = {hidden_layer_sizes:[(50,),(100,),(100,100)],alpha:[0.0001,0.001,0.01,0.1]}
#建立网格搜索模型
grid = GridSearchCV(MLPClassifier(max_iter=1600,random_state=38),param_grid=params,cv=3)
#拟合数据
grid.fit(X_train_scaled,y_train)
print(最佳得分:,grid.best_score_)
print(最佳参数,grid.best_params_)
最佳得分: 0.9533333333333334
最佳参数 {‘alpha‘: 0.0001, ‘hidden_layer_sizes‘: (100,)}

 

拟合测试集:

print(测试集得分:,grid.score(X_test_scaled,y_test))
测试集得分: 0.82

技术分享图片

 

 由于想测试的参数组合有3*4=12个,需要做12次预处理吗?

 

使用管道模型解决这个问题: 

 

#导入管道模型
from sklearn.pipeline import Pipeline
#建立包含预处理和神经网络的管道模型
pipeline = Pipeline([(scaler,StandardScaler()),(mlp,MLPClassifier(max_iter=1600,random_state=38))])
#拟合数据
pipeline.fit(X_train,y_train)
print(使用管道模型的MLP模型评分:,pipeline.score(X_test,y_test))
使用管道模型的MLP模型评分: 0.82

 【结果分析】

这段代码中,我们导入了sklearn中的 Pipeline类,然后在这条流水线中安装了两个设备——进行预处理的StandardScaler 和 最大迭代数位1600的MLP多层感知神经网络

然后用管道模型pipeline来拟合训练集,并对测试集进行评分

 

如果生成的数据集中数据点的量级差异不大——管道模型的得分和之前的得分差距不大

 

 2.使用管道模型进行网格搜索

 刚使用管道模型将 数据预处理和模型训练打包 到了一起

 下面,进行网格搜索:

 

#设置参数字典
params = {mlp__hidden_layer_sizes:[(50,),(100,),(100,100)],mlp__alpha:[0.0001,0.001,0.01,0.1]}
#将管道模型加入网格搜索
grid = GridSearchCV(pipeline,param_grid=params,cv=3)
#拟合数据
grid.fit(X_train ,y_train)
print(交叉验证最高分,grid.best_score_)
print(最优参数,grid.best_params_)
print(测试集得分,grid.score(X_test,y_test))
交叉验证最高分 0.8533333333333334
最优参数 {‘mlp__alpha‘: 0.0001, ‘mlp__hidden_layer_sizes‘: (100,)}
测试集得分 0.84

【随机生成的数据集不同,上述值不同】 

【结果分析】

 技术分享图片

通过使用管道模型,改变了交叉验证的方式:

技术分享图片

技术分享图片

技术分享图片

 

 技术分享图片

 

透视一下pipieline所进行处理的过程:

print(pipeline.steps)
[(‘scaler‘, StandardScaler(copy=True, with_mean=True, with_std=True)), (‘mlp‘, MLPClassifier(activation=‘relu‘, alpha=0.0001, batch_size=‘auto‘, beta_1=0.9,
       beta_2=0.999, early_stopping=False, epsilon=1e-08,
       hidden_layer_sizes=(100,), learning_rate=‘constant‘,
       learning_rate_init=0.001, max_iter=1600, momentum=0.9,
       n_iter_no_change=10, nesterovs_momentum=True, power_t=0.5,
       random_state=38, shuffle=True, solver=‘adam‘, tol=0.0001,
       validation_fraction=0.1, verbose=False, warm_start=False))]

 【结果分析】

 pipeline.steps 把包含在管道模型中的数据预处理scaler和多层感知神经网络MLP的全部参数返回,如同流水线的工作流程

从结果可以看出,在GridsearchCV进行每一步交叉验证之前,pipeline都会对数据集和验证集进行StandardScaler预处理操作

 

管道模型不仅可以把 数据预处理和模型训练集结合一起,也可以将很多不同的算法打包

 

管道模型

原文:https://www.cnblogs.com/expedition/p/10830477.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!