Bagging和Boosting的概念與區(qū)別

隨機(jī)森林屬于集成學(xué)習(xí)（Ensemble Learning）中的bagging算法。在集成學(xué)習(xí)中，主要分為bagging算法和boosting算法。我們先看看這兩種方法的特點和區(qū)別墨礁。

Bagging（套袋法）
bagging的算法過程如下：

從原始樣本集中使用Bootstraping方法隨機(jī)抽取n個訓(xùn)練樣本，共進(jìn)行k輪抽取耳峦，得到k個訓(xùn)練集恩静。（k個訓(xùn)練集之間相互獨立，元素可以有重復(fù)）
對于k個訓(xùn)練集，我們訓(xùn)練k個模型（這k個模型可以根據(jù)具體問題而定驶乾，比如決策樹邑飒，knn等）
對于分類問題：由投票表決產(chǎn)生分類結(jié)果；對于回歸問題：由k個模型預(yù)測結(jié)果的均值作為最后預(yù)測結(jié)果疙咸。（所有模型的重要性相同）
Boosting（提升法）
boosting的算法過程如下：

對于訓(xùn)練集中的每個樣本建立權(quán)值wi，表示對每個樣本的關(guān)注度。當(dāng)某個樣本被誤分類的概率很高時，需要加大對該樣本的權(quán)值客峭。
進(jìn)行迭代的過程中等恐，每一步迭代都是一個弱分類器。我們需要用某種策略將其組合流昏，作為最終模型谚鄙。（例如AdaBoost給每個弱分類器一個權(quán)值知市，將其線性組合最為最終分類器互例。誤差越小的弱分類器糊秆，權(quán)值越大）
Bagging，Boosting的主要區(qū)別
樣本選擇上：Bagging采用的是Bootstrap隨機(jī)有放回抽樣；而Boosting每一輪的訓(xùn)練集是不變的，改變的只是每一個樣本的權(quán)重。
樣本權(quán)重：Bagging使用的是均勻取樣矾兜，每個樣本權(quán)重相等；Boosting根據(jù)錯誤率調(diào)整樣本權(quán)重括荡，錯誤率越大的樣本權(quán)重越大邑闲。
預(yù)測函數(shù)：Bagging所有的預(yù)測函數(shù)的權(quán)重相等褪子；Boosting中誤差越小的預(yù)測函數(shù)其權(quán)重越大。
并行計算：Bagging各個預(yù)測函數(shù)可以并行生成；Boosting各個預(yù)測函數(shù)必須按順序迭代生成刻坊。
下面是將決策樹與這些算法框架進(jìn)行結(jié)合所得到的新的算法：

1）Bagging + 決策樹 = 隨機(jī)森林

2）AdaBoost + 決策樹 = 提升樹

3）Gradient Boosting + 決策樹 = GBDT

決策樹
常用的決策樹算法有ID3漏益，C4.5舞终，CART三種夸盟。3種算法的模型構(gòu)建思想都十分類似，只是采用了不同的指標(biāo)煮纵。決策樹模型的構(gòu)建過程大致如下：

ID3，C4.5決策樹的生成
輸入：訓(xùn)練集D震桶，特征集A，閾值eps 輸出：決策樹T

若D中所有樣本屬于同一類Ck蹲姐，則T為單節(jié)點樹宠能，將類Ck作為該結(jié)點的類標(biāo)記，返回T
若A為空集贡珊，即沒有特征作為劃分依據(jù)翩概，則T為單節(jié)點樹，并將D中實例數(shù)最大的類Ck作為該結(jié)點的類標(biāo)記江咳，返回T
否則逢净，計算A中各特征對D的信息增益(ID3)/信息增益比(C4.5)，選擇信息增益最大的特征Ag
若Ag的信息增益（比）小于閾值eps歼指，則置T為單節(jié)點樹爹土，并將D中實例數(shù)最大的類Ck作為該結(jié)點的類標(biāo)記，返回T
否則踩身，依照特征Ag將D劃分為若干非空子集Di胀茵，將Di中實例數(shù)最大的類作為標(biāo)記，構(gòu)建子節(jié)點挟阻，由結(jié)點及其子節(jié)點構(gòu)成樹T琼娘，返回T
對第i個子節(jié)點呵哨，以Di為訓(xùn)練集，以A-{Ag}為特征集轨奄，遞歸地調(diào)用1~5孟害，得到子樹Ti，返回Ti
CART決策樹的生成
這里只簡單介紹下CART與ID3和C4.5的區(qū)別挪拟。

CART樹是二叉樹挨务，而ID3和C4.5可以是多叉樹
CART在生成子樹時，是選擇一個特征一個取值作為切分點玉组，生成兩個子樹
選擇特征和切分點的依據(jù)是基尼指數(shù)谎柄，選擇基尼指數(shù)最小的特征及切分點生成子樹
決策樹的剪枝
決策樹的剪枝主要是為了預(yù)防過擬合，過程就不詳細(xì)介紹了惯雳。

主要思路是從葉節(jié)點向上回溯朝巫，嘗試對某個節(jié)點進(jìn)行剪枝，比較剪枝前后的決策樹的損失函數(shù)值石景。最后我們通過動態(tài)規(guī)劃（樹形dp劈猿，acmer應(yīng)該懂）就可以得到全局最優(yōu)的剪枝方案。

隨機(jī)森林（Random Forests）
隨機(jī)森林是一種重要的基于Bagging的集成學(xué)習(xí)方法潮孽，可以用來做分類揪荣、回歸等問題。

如果用全樣本去訓(xùn)練m棵決策樹顯然是不可取的往史，全樣本訓(xùn)練忽視了局部樣本的規(guī)律仗颈，對于模型的泛化能力是有害的

隨機(jī)森林有許多優(yōu)點：

具有極高的準(zhǔn)確率
隨機(jī)性的引入，使得隨機(jī)森林不容易過擬合
隨機(jī)性的引入椎例，使得隨機(jī)森林有很好的抗噪聲能力
能處理很高維度的數(shù)據(jù)挨决，并且不用做特征選擇
既能處理離散型數(shù)據(jù)，也能處理連續(xù)型數(shù)據(jù)订歪，數(shù)據(jù)集無需規(guī)范化
訓(xùn)練速度快脖祈，可以得到變量重要性排序
容易實現(xiàn)并行化
隨機(jī)森林的缺點：

當(dāng)隨機(jī)森林中的決策樹個數(shù)很多時，訓(xùn)練時需要的空間和時間會較大
隨機(jī)森林模型還有許多不好解釋的地方陌粹，有點算個黑盒模型
與上面介紹的Bagging過程相似撒犀，隨機(jī)森林的構(gòu)建過程大致如下：

從原始訓(xùn)練集中使用Bootstrapping方法隨機(jī)有放回采樣選出m個樣本福压，共進(jìn)行n_tree次采樣掏秩，生成n_tree個訓(xùn)練集
對于n_tree個訓(xùn)練集，我們分別訓(xùn)練n_tree個決策樹模型
對于單個決策樹模型荆姆，假設(shè)訓(xùn)練樣本特征的個數(shù)為n蒙幻，那么每次分裂時根據(jù)信息增益/信息增益比/基尼指數(shù)選擇最好的特征進(jìn)行分裂
每棵樹都一直這樣分裂下去，直到該節(jié)點的所有訓(xùn)練樣例都屬于同一類胆筒。在決策樹的分裂過程中不需要剪枝
將生成的多棵決策樹組成隨機(jī)森林邮破。對于分類問題诈豌，按多棵樹分類器投票決定最終分類結(jié)果；對于回歸問題抒和，由多棵樹預(yù)測值的均值決定最終預(yù)測結(jié)果

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末矫渔，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子摧莽，更是在濱河造成了極大的恐慌庙洼，老刑警劉巖，帶你破解...
沈念sama閱讀 216,372評論 6贊 498
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件镊辕，死亡現(xiàn)場離奇詭異油够，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)征懈，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,368評論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門石咬，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人卖哎，你說我怎么就攤上這事鬼悠。” “怎么了亏娜？”我有些...
開封第一講書人閱讀 162,415評論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵厦章，是天一觀的道長。經(jīng)常有香客問我照藻，道長袜啃，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,157評論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任幸缕，我火速辦了婚禮群发，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘发乔。我一直安慰自己熟妓，他們只是感情好，可當(dāng)我...
茶點故事閱讀 67,171評論 6贊 388
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布栏尚。她就那樣靜靜地躺著起愈，像睡著了一般。火紅的嫁衣襯著肌膚如雪译仗。梳的紋絲不亂的頭發(fā)上抬虽，一...
開封第一講書人閱讀 51,125評論 1贊 297
城市分裂傳說
那天，我揣著相機(jī)與錄音纵菌，去河邊找鬼阐污。笑死，一個胖子當(dāng)著我的面吹牛咱圆，可吹牛的內(nèi)容都是我干的笛辟。我是一名探鬼主播功氨，決...
沈念sama閱讀 40,028評論 3贊 417
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼手幢！你這毒婦竟也來了捷凄？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 38,887評論 0贊 274
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤围来，失蹤者是張志新（化名）和其女友劉穎纵势，沒想到半個月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體管钳，經(jīng)...
沈念sama閱讀 45,310評論 1贊 310
?護(hù)林員之死
正文獨居荒郊野嶺守林人離奇死亡钦铁，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,533評論 2贊 332
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了才漆。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片牛曹。...
茶點故事閱讀 39,690評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖醇滥，靈堂內(nèi)的尸體忽然破棺而出黎比，到底是詐尸還是另有隱情，我是刑警寧澤鸳玩，帶...
沈念sama閱讀 35,411評論 5贊 343
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布阅虫，位于F島的核電站，受9級特大地震影響不跟，放射性物質(zhì)發(fā)生泄漏颓帝。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 41,004評論 3贊 325
男人毒藥：我在死后第九天來索命
文/蒙蒙一窝革、第九天我趴在偏房一處隱蔽的房頂上張望购城。院中可真熱鬧，春花似錦虐译、人聲如沸瘪板。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,659評論 0贊 22
一樁弒父案漆诽，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽侮攀。三九已至，卻和暖如春厢拭，著一層夾襖步出監(jiān)牢的瞬間兰英，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 32,812評論 1贊 268
情欲美人皮
我被黑心中介騙來泰國打工蚪腐，沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留箭昵，地道東北人税朴。一個月前我還...
沈念sama閱讀 47,693評論 2贊 368
代替公主和親
正文我出身青樓回季，卻偏偏與公主長得像家制，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子泡一，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 44,577評論 2贊 353

Bagging和Boosting的概念與區(qū)別

推薦閱讀更多精彩內(nèi)容