监督学习简介
在很多情况下,一个人拥有大量数据并且使用它来将一个对象分类到几个已知类中的一个。考虑以下情况:
银行业务: 当银行收到客户对银行卡的请求时,银行必须根据已经享有信用记录已知卡的客户的特征来决定是否发行银行卡。
医疗: 人们可能有兴趣开发一种医疗系统,根据观察到的症状和对该患者进行的医学检查,诊断患者是否患有特定疾病。
财务: 一家金融咨询公司希望根据控制价格变动的若干技术特征来预测股票价格的趋势,该趋势可分为向上,向下或无趋势。
基因表达: 分析基因表达数据的科学家希望确定乳腺癌中最相关的基因和风险因素,以便将健康患者与乳腺癌患者分开。
在所有上述示例中,基于对多个特征进行的测量,对象被分类为若干已知类中的一个,他可以认为这些特征区分不同类的对象。这些变量称为预测变量,类标签称为因变量。注意,在所有上述示例中,因变量是分类的。
为了开发分类问题的模型,对于每个对象,我们需要关于一组规定特征的数据以及对象所属的类标签。数据集按规定的比例分为两组。这些数据集中较大的一组称为训练数据集,另一个称为测试数据集。训练数据集用于模型的开发。由于模型是使用已知类标签的观察开发的,因此这些模型被称为监督学习模型。
在开发模型之后,使用测试数据集评估模型的性能。分类模型的目标是对看不见的观察结果进行错误分类的可能性最小。未在模型开发中使用的观察结果称为看不见的观察结果。
决策树归纳是分类模型构建技术之一。为分类因变量构建的决策树模型称为分类树。在某些问题中,因变量可能是数字。为数字因变量开发的决策树模型称为回归树。