样本数据集

为了便于测试,sklearnsklearn.datasets 模块中提供了一些内置数据集。例如,让我们加载 Fisher 的虹膜数据集:

import sklearn.datasets
iris_dataset = sklearn.datasets.load_iris()
iris_dataset.keys()
['target_names', 'data', 'target', 'DESCR', 'feature_names']

你可以阅读完整描述,功能名称和类名称(target_names)。那些存储为字符串。

我们对存储在 datatarget 字段中的数据和类感兴趣。按照惯例,这些表示为 Xy

X, y = iris_dataset['data'], iris_dataset['target']
X.shape, y.shape
((150, 4), (150,))
numpy.unique(y)
array([0, 1, 2])

Xy 的形状说有 150 个样本有 4 个特征。每个样本属于以下类别之一:0,1 或 2。

通过调用分类器的 fit() 方法,Xy 现在可用于训练分类器。

以下是 sklearn.datasets 模块提供的完整数据集列表及其大小和用途:

加载 描述 尺寸 用法
load_boston() 波士顿房价数据集 506 回归
load_breast_cancer() 乳腺癌威斯康星州数据集 569 分类(二进制)
load_diabetes() 糖尿病数据集 442 回归
load_digits(n_class) 数字数据集 1797 分类
load_iris() 虹膜数据集 150 分类(多级)
load_linnerud() Linnerud 数据集 20 多元回归

请注意(来源: http//scikit-learn.org/stable/datasets/)

这些数据集可用于快速说明 scikit 中实现的各种算法的行为。然而,它们通常太小而无法代表现实世界的机器学习任务。

除了这些内置的玩具样本数据集,sklearn.datasets 还提供了用于加载外部数据集的实用程序功能:

  • load_mlcomp 用于从 mlcomp.org 存储库加载样本数据集 (请注意,之前需要下载数据集)。是一个使用示例。
  • fetch_lfw_pairsfetch_lfw_people 用于加载来自 http://vis-www.cs.umass.edu/lfw/ 的野外标记面(LFW)对数据集,用于面部验证(分别面部识别)。此数据集大于 200 MB。是一个使用示例。