接口和约定
使用特殊类完成对数据的不同操作。
大多数类属于以下组之一:
- 分类算法(源自
sklearn.base.ClassifierMixin
)解决分类问题 - 回归算法(源自
sklearn.base.RegressorMixin
)解决连续变量重构问题(回归问题) - 预处理数据的数据转换(源自
sklearn.base.TransformerMixin
)
数据存储在 numpy.array
s 中(但如果可以转换为 numpy.array
s,则接受其他类似于数组的对象,例如 pandas.DataFrame
s)
数据中的每个对象都由一组特征描述,一般惯例是数据样本用数组表示,其中第一维是数据样本 id,第二维是特征 id。
import numpy
data = numpy.arange(10).reshape(5, 2)
print(data)
Output:
[[0 1]
[2 3]
[4 5]
[6 7]
[8 9]]
在 sklearn
convention 中,上面的数据集包含 5 个对象,每个对象由 2 个特征描述。