介面和約定

使用特殊類完成對資料的不同操作。

大多數類屬於以下組之一:

  • 分類演算法(源自 sklearn.base.ClassifierMixin)解決分類問題
  • 迴歸演算法(源自 sklearn.base.RegressorMixin)解決連續變數重構問題(迴歸問題)
  • 預處理資料的資料轉換(源自 sklearn.base.TransformerMixin

資料儲存在 numpy.arrays 中(但如果可以轉換為 numpy.arrays,則接受其他類似於陣列的物件,例如 pandas.DataFrames)

資料中的每個物件都由一組特徵描述,一般慣例是資料樣本用陣列表示,其中第一維是資料樣本 id,第二維是特徵 id。

import numpy
data = numpy.arange(10).reshape(5, 2)
print(data)

Output:
[[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]

sklearn convention 中,上面的資料集包含 5 個物件,每個物件由 2 個特徵描述。