樣本資料集
為了便於測試,sklearn
在 sklearn.datasets
模組中提供了一些內建資料集。例如,讓我們載入 Fisher 的虹膜資料集:
import sklearn.datasets
iris_dataset = sklearn.datasets.load_iris()
iris_dataset.keys()
['target_names', 'data', 'target', 'DESCR', 'feature_names']
你可以閱讀完整描述,功能名稱和類名稱(target_names
)。那些儲存為字串。
我們對儲存在 data
和 target
欄位中的資料和類感興趣。按照慣例,這些表示為 X
和 y
X, y = iris_dataset['data'], iris_dataset['target']
X.shape, y.shape
((150, 4), (150,))
numpy.unique(y)
array([0, 1, 2])
X
和 y
的形狀說有 150 個樣本有 4 個特徵。每個樣本屬於以下類別之一:0,1 或 2。
通過呼叫分類器的 fit()
方法,X
和 y
現在可用於訓練分類器。
以下是 sklearn.datasets
模組提供的完整資料集列表及其大小和用途:
載入 | 描述 | 尺寸 | 用法 |
---|---|---|---|
load_boston() |
波士頓房價資料集 | 506 | 迴歸 |
load_breast_cancer() |
乳腺癌威斯康星州資料集 | 569 | 分類(二進位制) |
load_diabetes() |
糖尿病資料集 | 442 | 迴歸 |
load_digits(n_class) |
數字資料集 | 1797 | 分類 |
load_iris() |
虹膜資料集 | 150 | 分類(多級) |
load_linnerud() |
Linnerud 資料集 | 20 | 多元迴歸 |
請注意(來源: http : //scikit-learn.org/stable/datasets/) :
這些資料集可用於快速說明 scikit 中實現的各種演算法的行為。然而,它們通常太小而無法代表現實世界的機器學習任務。
除了這些內建的玩具樣本資料集,sklearn.datasets
還提供了用於載入外部資料集的實用程式功能:
load_mlcomp
用於從 mlcomp.org 儲存庫載入樣本資料集 (請注意,之前需要下載資料集)。這是一個使用示例。fetch_lfw_pairs
和fetch_lfw_people
用於載入來自 http://vis-www.cs.umass.edu/lfw/ 的野外標記面(LFW)對資料集,用於面部驗證(分別面部識別)。此資料集大於 200 MB。這是一個使用示例。