scikit-learn 中的分類

Created: November-22, 2018

1.袋裝決策樹

Bagging 在具有高差異的演算法中表現最佳。一個流行的例子是決策樹，通常是在沒有修剪的情況下構建的。

在下面的示例中，請參閱使用 BaggingClassifier 和分類和迴歸樹演算法（DecisionTreeClassifier）的示例。共創造了 100 棵樹。

# Bagged Decision Trees for Classification
import pandas
from sklearn import cross_validation
from sklearn.ensemble import BaggingClassifier
from sklearn.tree import DecisionTreeClassifier
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/pima-indians-diabetes/pima-indians-diabetes.data"
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = pandas.read_csv(url, names=names)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]
num_folds = 10
num_instances = len(X)
seed = 7
kfold = cross_validation.KFold(n=num_instances, n_folds=num_folds, random_state=seed)
cart = DecisionTreeClassifier()
num_trees = 100
model = BaggingClassifier(base_estimator=cart, n_estimators=num_trees, random_state=seed)
results = cross_validation.cross_val_score(model, X, Y, cv=kfold)
print(results.mean())

執行該示例，我們可以獲得對模型精度的可靠估計。

0.770745044429

2.隨機森林

隨機森林是袋裝決策樹的擴充套件。

訓練資料集的樣本是替換的，但樹的構造方式會減少各個分類器之間的相關性。具體而言，不是貪婪地選擇樹構造中的最佳分裂點，而是僅考慮每個分裂的隨機特徵子集。

你可以使用 RandomForestClassifier 類構建隨機森林模型以進行分類。

下面的示例提供了一個隨機森林的示例，用於對 100 棵樹進行分類，並從隨機選擇的 3 個特徵中選擇分割點。

# Random Forest Classification
import pandas
from sklearn import cross_validation
from sklearn.ensemble import RandomForestClassifier
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/pima-indians-diabetes/pima-indians-diabetes.data"
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = pandas.read_csv(url, names=names)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]
num_folds = 10
num_instances = len(X)
seed = 7
num_trees = 100
max_features = 3
kfold = cross_validation.KFold(n=num_instances, n_folds=num_folds, random_state=seed)
model = RandomForestClassifier(n_estimators=num_trees, max_features=max_features)
results = cross_validation.cross_val_score(model, X, Y, cv=kfold)
print(results.mean())

執行該示例提供了分類準確性的平均估計。

0.770727956254

3. AdaBoost

AdaBoost 可能是第一個成功的增強整合演算法。它通常通過對資料集中的例項進行加權來確定它們分類的難易程度，允許演算法在後續模型的構造中支付或不太關注它們。

你可以使用 AdaBoostClassifier 類構建 AdaBoost 模型以進行分類。

下面的示例演示了使用 AdaBoost 演算法按順序構造 30 個決策樹。

# AdaBoost Classification
import pandas
from sklearn import cross_validation
from sklearn.ensemble import AdaBoostClassifier
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/pima-indians-diabetes/pima-indians-diabetes.data"
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = pandas.read_csv(url, names=names)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]
num_folds = 10
num_instances = len(X)
seed = 7
num_trees = 30
kfold = cross_validation.KFold(n=num_instances, n_folds=num_folds, random_state=seed)
model = AdaBoostClassifier(n_estimators=num_trees, random_state=seed)
results = cross_validation.cross_val_score(model, X, Y, cv=kfold)
print(results.mean())

執行該示例提供了分類準確性的平均估計。

0.76045796309

4.隨機梯度提升

隨機梯度增強（也稱為梯度增強機器）是最複雜的整體技術之一。它也是一種被證明可能是通過集合提高效能的最佳技術的技術。

你可以使用 GradientBoostingClassifier 類構建 Gradient Boosting 模型以進行分類。

下面的示例演示了隨機梯度提升用於分類 100 棵樹。

# Stochastic Gradient Boosting Classification
import pandas
from sklearn import cross_validation
from sklearn.ensemble import GradientBoostingClassifier
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/pima-indians-diabetes/pima-indians-diabetes.data"
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = pandas.read_csv(url, names=names)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]
num_folds = 10
num_instances = len(X)
seed = 7
num_trees = 100
kfold = cross_validation.KFold(n=num_instances, n_folds=num_folds, random_state=seed)
model = GradientBoostingClassifier(n_estimators=num_trees, random_state=seed)
results = cross_validation.cross_val_score(model, X, Y, cv=kfold)
print(results.mean())

執行該示例提供了分類準確性的平均估計。

0.764285714286

資料來源： http ： //machinelearningmastery.com/ensemble-machine-learning-algorithms-python-scikit-learn/