樣本資料集

為了便於測試,sklearnsklearn.datasets 模組中提供了一些內建資料集。例如,讓我們載入 Fisher 的虹膜資料集:

import sklearn.datasets
iris_dataset = sklearn.datasets.load_iris()
iris_dataset.keys()
['target_names', 'data', 'target', 'DESCR', 'feature_names']

你可以閱讀完整描述,功能名稱和類名稱(target_names)。那些儲存為字串。

我們對儲存在 datatarget 欄位中的資料和類感興趣。按照慣例,這些表示為 Xy

X, y = iris_dataset['data'], iris_dataset['target']
X.shape, y.shape
((150, 4), (150,))
numpy.unique(y)
array([0, 1, 2])

Xy 的形狀說有 150 個樣本有 4 個特徵。每個樣本屬於以下類別之一:0,1 或 2。

通過呼叫分類器的 fit() 方法,Xy 現在可用於訓練分類器。

以下是 sklearn.datasets 模組提供的完整資料集列表及其大小和用途:

載入 描述 尺寸 用法
load_boston() 波士頓房價資料集 506 迴歸
load_breast_cancer() 乳腺癌威斯康星州資料集 569 分類(二進位制)
load_diabetes() 糖尿病資料集 442 迴歸
load_digits(n_class) 數字資料集 1797 分類
load_iris() 虹膜資料集 150 分類(多級)
load_linnerud() Linnerud 資料集 20 多元迴歸

請注意(來源: http//scikit-learn.org/stable/datasets/)

這些資料集可用於快速說明 scikit 中實現的各種演算法的行為。然而,它們通常太小而無法代表現實世界的機器學習任務。

除了這些內建的玩具樣本資料集,sklearn.datasets 還提供了用於載入外部資料集的實用程式功能:

  • load_mlcomp 用於從 mlcomp.org 儲存庫載入樣本資料集 (請注意,之前需要下載資料集)。是一個使用示例。
  • fetch_lfw_pairsfetch_lfw_people 用於載入來自 http://vis-www.cs.umass.edu/lfw/ 的野外標記面(LFW)對資料集,用於面部驗證(分別面部識別)。此資料集大於 200 MB。是一個使用示例。