監督學習簡介

在很多情況下,一個人擁有大量資料並且使用它來將一個物件分類到幾個已知類中的一個。考慮以下情況:

銀行業務: 當銀行收到客戶對銀行卡的請求時,銀行必須根據已經享有信用記錄已知卡的客戶的特徵來決定是否發行銀行卡。

醫療: 人們可能有興趣開發一種醫療系統,根據觀察到的症狀和對該患者進行的醫學檢查,診斷患者是否患有特定疾病。

財務: 一家金融諮詢公司希望根據控制價格變動的若干技術特徵來預測股票價格的趨勢,該趨勢可分為向上,向下或無趨勢。

基因表達: 分析基因表達資料的科學家希望確定乳腺癌中最相關的基因和風險因素,以便將健康患者與乳腺癌患者分開。

在所有上述示例中,基於對多個特徵進行的測量,物件被分類為若干已知類中的一個,他可以認為這些特徵區分不同類的物件。這些變數稱為預測變數,類標籤稱為變數。注意,在所有上述示例中,因變數是分類的

為了開發分類問題的模型,對於每個物件,我們需要關於一組規定特徵的資料以及物件所屬的類標籤。資料集按規定的比例分為兩組。這些資料集中較大的一組稱為訓練資料集,另一個稱為測試資料集。訓練資料集用於模型的開發。由於模型是使用已知類標籤的觀察開發的,因此這些模型被稱為監督學習模型。

在開發模型之後,使用測試資料集評估模型的效能。分類模型的目標是對看不見的觀察結果進行錯誤分類的可能性最小。未在模型開發中使用的觀察結果稱為看不見的觀察結果。

決策樹歸納是分類模型構建技術之一。為分類因變數構建的決策樹模型稱為分類樹。在某些問題中,因變數可能是數字。為數字因變數開發的決策樹模型稱為迴歸樹