介面和約定
使用特殊類完成對資料的不同操作。
大多數類屬於以下組之一:
- 分類演算法(源自
sklearn.base.ClassifierMixin
)解決分類問題 - 迴歸演算法(源自
sklearn.base.RegressorMixin
)解決連續變數重構問題(迴歸問題) - 預處理資料的資料轉換(源自
sklearn.base.TransformerMixin
)
資料儲存在 numpy.array
s 中(但如果可以轉換為 numpy.array
s,則接受其他類似於陣列的物件,例如 pandas.DataFrame
s)
資料中的每個物件都由一組特徵描述,一般慣例是資料樣本用陣列表示,其中第一維是資料樣本 id,第二維是特徵 id。
import numpy
data = numpy.arange(10).reshape(5, 2)
print(data)
Output:
[[0 1]
[2 3]
[4 5]
[6 7]
[8 9]]
在 sklearn
convention 中,上面的資料集包含 5 個物件,每個物件由 2 個特徵描述。