總結(jié)Bootstraping、Bagging和Boosting

Bagging和Boosting都是將已有的分類或回歸算法通過一定方式組合起來芋类,形成一個性能更加強大的分類器隆嗅,更準確的說這是一種分類算法的組裝方法。即將弱分類器組裝成強分類器的方法侯繁。

在這之前先了解一下什么是Bootstraping胖喳。

Bootstraping

中文翻譯自助法(Bootstrap Method,Bootstrapping或自助抽樣法)贮竟,自助法是一種從給定訓練集中有放回的均勻抽樣丽焊,也就是說,每當選中一個樣本咕别,它等可能地被再次選中并被再次添加到訓練集中技健。

在統(tǒng)計學中,自助法(Bootstrap Method惰拱,Bootstrapping或自助抽樣法)是一種從給定訓練集中有放回的均勻抽樣雌贱,也就是說,每當選中一個樣本,它等可能地被再次選中并被再次添加到訓練集中欣孤。
摘自 Wikipedia

.632自助法

.632自助法馋没,假設(shè)給定的數(shù)據(jù)集包含d個樣本。該數(shù)據(jù)集有放回地抽樣d次降传,產(chǎn)生d個樣本的訓練集披泪。這樣原數(shù)據(jù)樣本中的某些樣本很可能在該樣本集中出現(xiàn)多次。沒有進入該訓練集的樣本最終形成檢驗集(測試集)搬瑰。 顯然每個樣本被選中的概率是1/d款票,因此未被選中的概率就是(1-1/d),這樣一個樣本在訓練集中沒出現(xiàn)的概率就是d次都未被選中的概率泽论,即(1-1/d)d艾少。當d趨于無窮大時,這一概率就將趨近于e-1=0.368翼悴,所以留在訓練集中的樣本大概就占原來數(shù)據(jù)集的63.2%缚够。

Bagging

Bagging即Bootstrap Aggregating的縮寫,中文可翻譯為自舉匯聚法鹦赎。

bagging每次從原始數(shù)據(jù)集中有放回的隨機抽樣n個樣本形成自助訓練集谍椅,重復S次后得到S個新的訓練集。

對每個自助訓練集應用弱分類器古话,這樣就得到了S個弱分類器雏吭。

最后將預測數(shù)據(jù)放在這S個弱分類器上計算,計算結(jié)果采用投票方式(分類問題)和簡單求平均(回歸問題)即可陪踩。

Bagging算法之Random Forest

理解了Bagging之后杖们,就容易理解隨機森林(Random Forest)了,RF是Bagging算法的改進版本肩狂。

隨機森林由很多決策樹構(gòu)成(常見的決策樹算法有C4.5摘完、ID3和CART),每一棵決策樹之間沒有關(guān)聯(lián)傻谁,RF計算過程中孝治,在每個節(jié)點上隨機選擇一部分樣本特征,然后在這些隨機選擇的樣本特征中审磁,選擇一個最優(yōu)的特征來做決策樹的左右子樹劃分谈飒。這是一種非常有效的降維方法。


Boosting

Boosting和Bagging相比力图,加大了多錯誤樣本的學習步绸。Boosting的訓練方式是串行的,這和Bagging并行的方式不同吃媒,Boosting在初始化時賦予每個樣本的權(quán)重都相同為1/m瓤介。

第一輪訓練完成后吕喘,弱分類器對預測錯誤的樣本給了較大的權(quán)重,那么在第二輪訓練中就會更加重視這些權(quán)重大的樣本刑桑。

這樣迭代訓練n輪后得到n個弱分類器氯质,最后會給這n個弱分類器分配不同的權(quán)重,一般分類誤差小的權(quán)重越大祠斧。

對于最終的結(jié)果會根據(jù)n個帶權(quán)重的分類器通過投票法產(chǎn)生闻察。

Boosting的思想更像中學時候的錯題集,反復去做錯誤的題目 =琢锋。=

參考文獻

[1] 自助法Wikipedia https://zh.wikipedia.org/wiki/%E8%87%AA%E5%8A%A9%E6%B3%95
[2] An Introduction to Boosting and Leveraging http://www.boosting.org/papers/MeiRae03.pdf
[3] Machine Learning in Action [美] Peter Harrington
[4] 總結(jié):Bootstrap(自助法)辕漂,Bagging,Boosting(提升)http://www.reibang.com/p/708dff71df3a

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末吴超,一起剝皮案震驚了整個濱河市钉嘹,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌鲸阻,老刑警劉巖跋涣,帶你破解...
    沈念sama閱讀 206,311評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異鸟悴,居然都是意外死亡陈辱,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,339評論 2 382
  • 文/潘曉璐 我一進店門细诸,熙熙樓的掌柜王于貴愁眉苦臉地迎上來沛贪,“玉大人,你說我怎么就攤上這事揍堰∨羟常” “怎么了嗅义?”我有些...
    開封第一講書人閱讀 152,671評論 0 342
  • 文/不壞的土叔 我叫張陵屏歹,是天一觀的道長。 經(jīng)常有香客問我之碗,道長蝙眶,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,252評論 1 279
  • 正文 為了忘掉前任褪那,我火速辦了婚禮幽纷,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘博敬。我一直安慰自己友浸,他們只是感情好,可當我...
    茶點故事閱讀 64,253評論 5 371
  • 文/花漫 我一把揭開白布偏窝。 她就那樣靜靜地躺著收恢,像睡著了一般武学。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上伦意,一...
    開封第一講書人閱讀 49,031評論 1 285
  • 那天火窒,我揣著相機與錄音,去河邊找鬼驮肉。 笑死熏矿,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的离钝。 我是一名探鬼主播票编,決...
    沈念sama閱讀 38,340評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼卵渴!你這毒婦竟也來了栏妖?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 36,973評論 0 259
  • 序言:老撾萬榮一對情侶失蹤奖恰,失蹤者是張志新(化名)和其女友劉穎吊趾,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體瑟啃,經(jīng)...
    沈念sama閱讀 43,466評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡论泛,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,937評論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了蛹屿。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片屁奏。...
    茶點故事閱讀 38,039評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖错负,靈堂內(nèi)的尸體忽然破棺而出坟瓢,到底是詐尸還是另有隱情,我是刑警寧澤犹撒,帶...
    沈念sama閱讀 33,701評論 4 323
  • 正文 年R本政府宣布折联,位于F島的核電站,受9級特大地震影響识颊,放射性物質(zhì)發(fā)生泄漏诚镰。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,254評論 3 307
  • 文/蒙蒙 一祥款、第九天 我趴在偏房一處隱蔽的房頂上張望清笨。 院中可真熱鬧,春花似錦刃跛、人聲如沸抠艾。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,259評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽检号。三九已至首懈,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間谨敛,已是汗流浹背究履。 一陣腳步聲響...
    開封第一講書人閱讀 31,485評論 1 262
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留脸狸,地道東北人最仑。 一個月前我還...
    沈念sama閱讀 45,497評論 2 354
  • 正文 我出身青樓,卻偏偏與公主長得像炊甲,于是被迫代替她去往敵國和親泥彤。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 42,786評論 2 345

推薦閱讀更多精彩內(nèi)容