刪除零或接近零方差的要素
具有接近零方差的特徵是移除的良好候選者。
你可以手動檢測低於自己閾值的數值方差:
data("GermanCredit")
variances<-apply(GermanCredit, 2, var)
variances[which(variances<=0.0025)]
或者,你可以使用插入符號包來查詢接近零的方差。這裡的一個優點是定義接近零方差而不是在方差的數值計算中,而是作為罕見的函式:
“nearZeroVar 診斷具有一個唯一值的預測變數(即零方差預測變數)或具有以下兩個特徵的預測變數:它們相對於樣本數量和最常見值的頻率比率具有非常少的唯一值到第二個最常見的值的頻率很大……“
library(caret)
names(GermanCredit)[nearZeroVar(GermanCredit)]