Bagging和Boosting的概念與區(qū)別

隨機(jī)森林屬于集成學(xué)習(xí)(Ensemble Learning)中的bagging算法。在集成學(xué)習(xí)中,主要分為bagging算法和boosting算法。我們先看看這兩種方法的特點和區(qū)別墨礁。

Bagging(套袋法)
bagging的算法過程如下:

從原始樣本集中使用Bootstraping方法隨機(jī)抽取n個訓(xùn)練樣本,共進(jìn)行k輪抽取耳峦,得到k個訓(xùn)練集恩静。(k個訓(xùn)練集之間相互獨立,元素可以有重復(fù))
對于k個訓(xùn)練集,我們訓(xùn)練k個模型(這k個模型可以根據(jù)具體問題而定驶乾,比如決策樹邑飒,knn等)
對于分類問題:由投票表決產(chǎn)生分類結(jié)果;對于回歸問題:由k個模型預(yù)測結(jié)果的均值作為最后預(yù)測結(jié)果疙咸。(所有模型的重要性相同)
Boosting(提升法)
boosting的算法過程如下:

對于訓(xùn)練集中的每個樣本建立權(quán)值wi,表示對每個樣本的關(guān)注度。當(dāng)某個樣本被誤分類的概率很高時,需要加大對該樣本的權(quán)值客峭。
進(jìn)行迭代的過程中等恐,每一步迭代都是一個弱分類器。我們需要用某種策略將其組合流昏,作為最終模型谚鄙。(例如AdaBoost給每個弱分類器一個權(quán)值知市,將其線性組合最為最終分類器互例。誤差越小的弱分類器糊秆,權(quán)值越大)
Bagging,Boosting的主要區(qū)別
樣本選擇上:Bagging采用的是Bootstrap隨機(jī)有放回抽樣;而Boosting每一輪的訓(xùn)練集是不變的,改變的只是每一個樣本的權(quán)重。
樣本權(quán)重:Bagging使用的是均勻取樣矾兜,每個樣本權(quán)重相等;Boosting根據(jù)錯誤率調(diào)整樣本權(quán)重括荡,錯誤率越大的樣本權(quán)重越大邑闲。
預(yù)測函數(shù):Bagging所有的預(yù)測函數(shù)的權(quán)重相等褪子;Boosting中誤差越小的預(yù)測函數(shù)其權(quán)重越大。
并行計算:Bagging各個預(yù)測函數(shù)可以并行生成;Boosting各個預(yù)測函數(shù)必須按順序迭代生成刻坊。
下面是將決策樹與這些算法框架進(jìn)行結(jié)合所得到的新的算法:

1)Bagging + 決策樹 = 隨機(jī)森林

2)AdaBoost + 決策樹 = 提升樹

3)Gradient Boosting + 決策樹 = GBDT

決策樹
常用的決策樹算法有ID3漏益,C4.5舞终,CART三種夸盟。3種算法的模型構(gòu)建思想都十分類似,只是采用了不同的指標(biāo)煮纵。決策樹模型的構(gòu)建過程大致如下:

ID3,C4.5決策樹的生成
輸入:訓(xùn)練集D震桶,特征集A,閾值eps 輸出:決策樹T

若D中所有樣本屬于同一類Ck蹲姐,則T為單節(jié)點樹宠能,將類Ck作為該結(jié)點的類標(biāo)記,返回T
若A為空集贡珊,即沒有特征作為劃分依據(jù)翩概,則T為單節(jié)點樹,并將D中實例數(shù)最大的類Ck作為該結(jié)點的類標(biāo)記江咳,返回T
否則逢净,計算A中各特征對D的信息增益(ID3)/信息增益比(C4.5),選擇信息增益最大的特征Ag
若Ag的信息增益(比)小于閾值eps歼指,則置T為單節(jié)點樹爹土,并將D中實例數(shù)最大的類Ck作為該結(jié)點的類標(biāo)記,返回T
否則踩身,依照特征Ag將D劃分為若干非空子集Di胀茵,將Di中實例數(shù)最大的類作為標(biāo)記,構(gòu)建子節(jié)點挟阻,由結(jié)點及其子節(jié)點構(gòu)成樹T琼娘,返回T
對第i個子節(jié)點呵哨,以Di為訓(xùn)練集,以A-{Ag}為特征集轨奄,遞歸地調(diào)用1~5孟害,得到子樹Ti,返回Ti
CART決策樹的生成
這里只簡單介紹下CART與ID3和C4.5的區(qū)別挪拟。

CART樹是二叉樹挨务,而ID3和C4.5可以是多叉樹
CART在生成子樹時,是選擇一個特征一個取值作為切分點玉组,生成兩個子樹
選擇特征和切分點的依據(jù)是基尼指數(shù)谎柄,選擇基尼指數(shù)最小的特征及切分點生成子樹
決策樹的剪枝
決策樹的剪枝主要是為了預(yù)防過擬合,過程就不詳細(xì)介紹了惯雳。

主要思路是從葉節(jié)點向上回溯朝巫,嘗試對某個節(jié)點進(jìn)行剪枝,比較剪枝前后的決策樹的損失函數(shù)值石景。最后我們通過動態(tài)規(guī)劃(樹形dp劈猿,acmer應(yīng)該懂)就可以得到全局最優(yōu)的剪枝方案。

隨機(jī)森林(Random Forests)
隨機(jī)森林是一種重要的基于Bagging的集成學(xué)習(xí)方法潮孽,可以用來做分類揪荣、回歸等問題。

如果用全樣本去訓(xùn)練m棵決策樹顯然是不可取的往史,全樣本訓(xùn)練忽視了局部樣本的規(guī)律仗颈,對于模型的泛化能力是有害的

隨機(jī)森林有許多優(yōu)點:

具有極高的準(zhǔn)確率
隨機(jī)性的引入,使得隨機(jī)森林不容易過擬合
隨機(jī)性的引入椎例,使得隨機(jī)森林有很好的抗噪聲能力
能處理很高維度的數(shù)據(jù)挨决,并且不用做特征選擇
既能處理離散型數(shù)據(jù),也能處理連續(xù)型數(shù)據(jù)订歪,數(shù)據(jù)集無需規(guī)范化
訓(xùn)練速度快脖祈,可以得到變量重要性排序
容易實現(xiàn)并行化
隨機(jī)森林的缺點:

當(dāng)隨機(jī)森林中的決策樹個數(shù)很多時,訓(xùn)練時需要的空間和時間會較大
隨機(jī)森林模型還有許多不好解釋的地方陌粹,有點算個黑盒模型
與上面介紹的Bagging過程相似撒犀,隨機(jī)森林的構(gòu)建過程大致如下:

從原始訓(xùn)練集中使用Bootstrapping方法隨機(jī)有放回采樣選出m個樣本福压,共進(jìn)行n_tree次采樣掏秩,生成n_tree個訓(xùn)練集
對于n_tree個訓(xùn)練集,我們分別訓(xùn)練n_tree個決策樹模型
對于單個決策樹模型荆姆,假設(shè)訓(xùn)練樣本特征的個數(shù)為n蒙幻,那么每次分裂時根據(jù)信息增益/信息增益比/基尼指數(shù)選擇最好的特征進(jìn)行分裂
每棵樹都一直這樣分裂下去,直到該節(jié)點的所有訓(xùn)練樣例都屬于同一類胆筒。在決策樹的分裂過程中不需要剪枝
將生成的多棵決策樹組成隨機(jī)森林邮破。對于分類問題诈豌,按多棵樹分類器投票決定最終分類結(jié)果;對于回歸問題抒和,由多棵樹預(yù)測值的均值決定最終預(yù)測結(jié)果

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末矫渔,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子摧莽,更是在濱河造成了極大的恐慌庙洼,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,372評論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件镊辕,死亡現(xiàn)場離奇詭異油够,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)征懈,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,368評論 3 392
  • 文/潘曉璐 我一進(jìn)店門石咬,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人卖哎,你說我怎么就攤上這事鬼悠。” “怎么了亏娜?”我有些...
    開封第一講書人閱讀 162,415評論 0 353
  • 文/不壞的土叔 我叫張陵厦章,是天一觀的道長。 經(jīng)常有香客問我照藻,道長袜啃,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,157評論 1 292
  • 正文 為了忘掉前任幸缕,我火速辦了婚禮群发,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘发乔。我一直安慰自己熟妓,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 67,171評論 6 388
  • 文/花漫 我一把揭開白布栏尚。 她就那樣靜靜地躺著起愈,像睡著了一般。 火紅的嫁衣襯著肌膚如雪译仗。 梳的紋絲不亂的頭發(fā)上抬虽,一...
    開封第一講書人閱讀 51,125評論 1 297
  • 那天,我揣著相機(jī)與錄音纵菌,去河邊找鬼阐污。 笑死,一個胖子當(dāng)著我的面吹牛咱圆,可吹牛的內(nèi)容都是我干的笛辟。 我是一名探鬼主播功氨,決...
    沈念sama閱讀 40,028評論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼手幢!你這毒婦竟也來了捷凄?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,887評論 0 274
  • 序言:老撾萬榮一對情侶失蹤围来,失蹤者是張志新(化名)和其女友劉穎纵势,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體管钳,經(jīng)...
    沈念sama閱讀 45,310評論 1 310
  • 正文 獨居荒郊野嶺守林人離奇死亡钦铁,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,533評論 2 332
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了才漆。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片牛曹。...
    茶點故事閱讀 39,690評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖醇滥,靈堂內(nèi)的尸體忽然破棺而出黎比,到底是詐尸還是另有隱情,我是刑警寧澤鸳玩,帶...
    沈念sama閱讀 35,411評論 5 343
  • 正文 年R本政府宣布阅虫,位于F島的核電站,受9級特大地震影響不跟,放射性物質(zhì)發(fā)生泄漏颓帝。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,004評論 3 325
  • 文/蒙蒙 一窝革、第九天 我趴在偏房一處隱蔽的房頂上張望购城。 院中可真熱鬧,春花似錦虐译、人聲如沸瘪板。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,659評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽侮攀。三九已至,卻和暖如春厢拭,著一層夾襖步出監(jiān)牢的瞬間兰英,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,812評論 1 268
  • 我被黑心中介騙來泰國打工蚪腐, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留箭昵,地道東北人税朴。 一個月前我還...
    沈念sama閱讀 47,693評論 2 368
  • 正文 我出身青樓回季,卻偏偏與公主長得像家制,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子泡一,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,577評論 2 353

推薦閱讀更多精彩內(nèi)容

  • 剛剛和舍友看了一會新番介紹颤殴,就突然很想過墮落的生活。就是指看那些可能沒什么營養(yǎng)的動漫鼻忠。面向女性的那一類動漫涵但。為什么...
    渡貍醬閱讀 266評論 0 0
  • 01 這月1號丈母娘過來幫我們帶孩子,趁熱打鐵帖蔓,周日愛人休息矮瘟,我順便請了周一的假,收拾行囊下午就出發(fā)去玩了塑娇。 大概...
    媛緣圓閱讀 542評論 0 2
  • 一個人吃飯埋酬,或者兩個人扒拉哨啃。 重要的是飽暖,還是說更看重結(jié)伴写妥。 不是沒有想過成雙拳球,一群人或者兩人看。 一群人就風(fēng)風(fēng)...
    木土有阿杜閱讀 363評論 0 3