机器学习笔记(四)--sklearn数据集

时间：2019-03-24 17:02:39 阅读：144 评论：0 收藏：0 [点我收藏+]

sklearn数据集

（一）机器学习的一般数据集会划分为两个部分

训练数据：用于训练，构建模型。

测试数据：在模型检验时使用，用于评估模型是否有效。

划分数据的API:sklearn.model_selection.train_test_split

示例代码如下：

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split


# 使用加载器读取数据并存入变量iris
iris = load_iris()
# 查验数据规模
print(iris.data.shape)
# 用于输入的数据
#print(iris.data)
# 标签
#print(iris.target)
# 对数据进行随机分割 测试数据占总数据的30% 训练数据占总数据的70%
x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.3, random_state=30)
print(‘训练特征值：‘)
print(x_train)
print(‘训练目标值：‘)
print(y_train)
print(‘测试特征值：‘)
print(x_test)
print(‘测试目标值：‘)
print(y_test)

(二)转换器

fit_transform等价于 fit+transform

fit_transform()函数输入数据直接转换。

fit()函数输入数据，但不做事。计算平均值，方差等

transform()函数进行数据的转换。

(三)估计器

在sklearn中，估计器（estimator）是一类实现了算法的API。

1.用于分类的估计器：

sklearn.neighbors k-近邻算法

sklearn.naive_bayes 贝叶斯

sklearn.linear_model.LogisticRegression 逻辑回归

sklearn.tree 决策树与随机森林

2.用于回归的估计器

sklearn.linear_model.LinearRegression 线性回归

sklearn.linear_model.Ridge 岭回归

机器学习笔记(四)--sklearn数据集

原文：https://www.cnblogs.com/doctorXiong/p/10588809.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)