隨機森林(random forest)
-
Random Forest
流程:- bagging(bootstrap aggregation)
- 生成決策樹
- 對每一個輸入進行所有決策樹的過濾
- 使用
mean-信息增益
或Gini生成評分
-
bagging
:bootstrap aggregation,bootstrap表示有放回的取出樣本(jack knife,每次移除一個樣本).而bagging是指使用bootstrap取樣,從m個中取n個樣本,并取出k組,對每一組進行訓練模型,形成f1...fn個模型,對于新的測試數(shù)據(jù),通過這k個模型,最后回歸使用求平均,而分類問題使用類別最多的結果. - 決策樹群:根據(jù)決策樹的算法,建立多個決策樹,如bagging那樣的原理
- 評分:
- 根據(jù)決策樹的信息信息增益評分:通過每一棵決策樹的信息增益結果,取得每棵樹的平均得分作為得分
-
Gini
評分:在Cart
算法中,Gini
評分會對每一個非葉節(jié)點形成評分,最后形成每個特征的評分 - 流程:
- 輸入數(shù)據(jù)集
- bagging選取k組n個樣本集
- 隨機選擇m個特征
- 建立k個決策樹,并得到m個特征的評分(如sk-learn中就是
Gini
評分) - 過濾測試樣本,通過選取數(shù)量最多的為結果
-
genelization error
:泛化誤差,RF
的泛化誤差比較小