删除零或接近零方差的要素

具有接近零方差的特征是移除的良好候选者。

你可以手动检测低于自己阈值的数值方差:

data("GermanCredit")
variances<-apply(GermanCredit, 2, var)
variances[which(variances<=0.0025)]

或者,你可以使用插入符号包来查找接近零的方差。这里的一个优点是定义接近零方差而不是在方差的数值计算中,而是作为罕见的函数:

“nearZeroVar 诊断具有一个唯一值的预测变量(即零方差预测变量)或具有以下两个特征的预测变量:它们相对于样本数量和最常见值的频率比率具有非常少的唯一值到第二个最常见的值的频率很大……“

library(caret)
names(GermanCredit)[nearZeroVar(GermanCredit)]