首页 > 其他 > 详细

机器学习笔记(四)--sklearn数据集

时间:2019-03-24 17:02:39      阅读:139      评论:0      收藏:0      [点我收藏+]

sklearn数据集

 (一)机器学习的一般数据集会划分为两个部分

训练数据:用于训练,构建模型。

测试数据:在模型检验时使用,用于评估模型是否有效。

划分数据的API:sklearn.model_selection.train_test_split

 

示例代码如下:

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split


# 使用加载器读取数据并存入变量iris
iris = load_iris()
# 查验数据规模
print(iris.data.shape)
# 用于输入的数据
#print(iris.data)
# 标签
#print(iris.target)
# 对数据进行随机分割 测试数据占总数据的30% 训练数据占总数据的70%
x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.3, random_state=30)
print(训练特征值:)
print(x_train)
print(训练目标值:)
print(y_train)
print(测试特征值:)
print(x_test)
print(测试目标值:)
print(y_test)

 

(二)转换器

fit_transform等价于  fit+transform

fit_transform()函数输入数据直接转换。

fit()函数输入数据,但不做事。计算平均值,方差等

transform()函数进行数据的转换。

 

(三)估计器

在sklearn中,估计器(estimator)是一类实现了算法的API。

1.用于分类的估计器:

sklearn.neighbors    k-近邻算法

sklearn.naive_bayes   贝叶斯

sklearn.linear_model.LogisticRegression  逻辑回归

sklearn.tree   决策树与随机森林

 

2.用于回归的估计器

sklearn.linear_model.LinearRegression   线性回归

sklearn.linear_model.Ridge   岭回归

 

机器学习笔记(四)--sklearn数据集

原文:https://www.cnblogs.com/doctorXiong/p/10588809.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!