样本数据集
为了便于测试,sklearn
在 sklearn.datasets
模块中提供了一些内置数据集。例如,让我们加载 Fisher 的虹膜数据集:
import sklearn.datasets
iris_dataset = sklearn.datasets.load_iris()
iris_dataset.keys()
['target_names', 'data', 'target', 'DESCR', 'feature_names']
你可以阅读完整描述,功能名称和类名称(target_names
)。那些存储为字符串。
我们对存储在 data
和 target
字段中的数据和类感兴趣。按照惯例,这些表示为 X
和 y
X, y = iris_dataset['data'], iris_dataset['target']
X.shape, y.shape
((150, 4), (150,))
numpy.unique(y)
array([0, 1, 2])
X
和 y
的形状说有 150 个样本有 4 个特征。每个样本属于以下类别之一:0,1 或 2。
通过调用分类器的 fit()
方法,X
和 y
现在可用于训练分类器。
以下是 sklearn.datasets
模块提供的完整数据集列表及其大小和用途:
加载 | 描述 | 尺寸 | 用法 |
---|---|---|---|
load_boston() |
波士顿房价数据集 | 506 | 回归 |
load_breast_cancer() |
乳腺癌威斯康星州数据集 | 569 | 分类(二进制) |
load_diabetes() |
糖尿病数据集 | 442 | 回归 |
load_digits(n_class) |
数字数据集 | 1797 | 分类 |
load_iris() |
虹膜数据集 | 150 | 分类(多级) |
load_linnerud() |
Linnerud 数据集 | 20 | 多元回归 |
请注意(来源: http : //scikit-learn.org/stable/datasets/) :
这些数据集可用于快速说明 scikit 中实现的各种算法的行为。然而,它们通常太小而无法代表现实世界的机器学习任务。
除了这些内置的玩具样本数据集,sklearn.datasets
还提供了用于加载外部数据集的实用程序功能:
load_mlcomp
用于从 mlcomp.org 存储库加载样本数据集 (请注意,之前需要下载数据集)。这是一个使用示例。fetch_lfw_pairs
和fetch_lfw_people
用于加载来自 http://vis-www.cs.umass.edu/lfw/ 的野外标记面(LFW)对数据集,用于面部验证(分别面部识别)。此数据集大于 200 MB。这是一个使用示例。