AdaBoost元算法

利用AdaBoost（adaptive boosting自適應(yīng)提升）元算法提高分類性能

本節(jié)內(nèi)容：組合相似的分類器來提高分類性能、應(yīng)用AdaBoost算法、處理非均衡分類問題

元算法是對其他算法進(jìn)行組合的一種方式。莫些人認(rèn)為AdaBoost是最好的監(jiān)督學(xué)習(xí)的方法础废，所以該方法是機(jī)器學(xué)習(xí)工具箱中最強(qiáng)力的工具之一。

將不同的分類器組合起來，這種組合結(jié)果則被稱為集成方法（ensemble method）或者元算法（meta-algorithm）。

優(yōu)點(diǎn)：泛化錯誤率低克懊，易編碼忱辅，可以應(yīng)用在大部分分類器上，無參數(shù)調(diào)整谭溉。

缺點(diǎn)：對離群點(diǎn)敏感

適用數(shù)據(jù)類型：數(shù)值型和標(biāo)稱型數(shù)據(jù)

bagging：基于數(shù)據(jù)隨機(jī)重抽樣的分類器構(gòu)建方法

自舉匯聚法（bootstrap aggregating）墙懂，也成bagging方法，是在原始數(shù)據(jù)集選擇S次后得到S個新數(shù)據(jù)集的一種技術(shù)扮念。新數(shù)據(jù)集和原始數(shù)據(jù)集的大小相等损搬。每個數(shù)據(jù)集都是通過在原始數(shù)據(jù)集中隨機(jī)選擇一個樣本進(jìn)行替換而得到的。

在S個數(shù)據(jù)集建好之后柜与，將莫個學(xué)習(xí)算法分別作用于每個數(shù)據(jù)集就得到了S個分類器巧勤。當(dāng)我們對新數(shù)據(jù)進(jìn)行分類時，就可以應(yīng)用這個S個分類器進(jìn)行分類弄匕。與此同時颅悉，選擇分類器投票結(jié)果中最多的類別作為最后的分類結(jié)果。

boosting

是一種與bagging很類似的技術(shù)迁匠。但是在前者當(dāng)中剩瓶，不同的分類器是通過串行訓(xùn)練而獲得的，每個新分類器都根據(jù)已訓(xùn)練出的分類器的性能來進(jìn)行訓(xùn)練城丧。boosting是通過集中關(guān)注被已有分類器錯分的那些數(shù)據(jù)來獲得新的分類器延曙。

由于boosting分類的結(jié)果是基于所有分類器的加權(quán)求和結(jié)果的，因此boosting與bagging不太一樣亡哄。

bagging中的分類器權(quán)重是相等的枝缔，而boosting中的分類器權(quán)重并不相等，每個權(quán)重代表的是其對應(yīng)分類器在上一輪迭代中的成功度蚊惯。

boosting方法有多個版本魂仍，本次只關(guān)注最流行的AdaBoost

AdaBoost其運(yùn)行過程如下：訓(xùn)練數(shù)據(jù)中的每個樣本，并賦予其一個權(quán)重拣挪，這些權(quán)重構(gòu)成了向量D擦酌。一開始，這些權(quán)重都初始化成相等值菠劝。首先在訓(xùn)練數(shù)據(jù)上訓(xùn)練出一個弱分類器并計算該分類器的錯誤率赊舶，然后在同一數(shù)據(jù)集上再次訓(xùn)練弱分類器。在分類器的第二次訓(xùn)練當(dāng)中，將會重新調(diào)整每個樣本的權(quán)重笼平，其中第一次分對的樣本的權(quán)重將會降低园骆，而第一次分錯的樣本的權(quán)重將會提高。為了從所有弱分類器中得到最終的分類結(jié)果寓调，AdaBoost為每個分類器都分配了一個權(quán)重值alpha锌唾，這些alpha值是基于每個弱分類器的錯誤率進(jìn)行計算的。

alpha計算公式

AdaBoost算法流程圖

左邊是數(shù)據(jù)集，其中直方圖的不同寬度表示每個樣例上的不同權(quán)重捏肢。在經(jīng)過一個分類器之后栈顷，加權(quán)的預(yù)測結(jié)果會通過三角形中的alpha值進(jìn)行加權(quán)。每個三角形中輸出的加權(quán)結(jié)果在圓形中求和余黎，從而得到最終的輸出結(jié)果

計算出alpha值之后，對權(quán)重向量D進(jìn)行更新载萌。

在計算出D之后惧财，AdaBoost又開始進(jìn)入下一輪迭代。AdaBoost算法會不斷地重復(fù)訓(xùn)練和調(diào)整權(quán)重的過程扭仁，直到訓(xùn)練錯誤率為0或者弱分類的數(shù)目達(dá)到用戶的指定值為止垮衷。

單層決策樹（decision stump，也稱決策樹樁）是一種簡單的決策樹乖坠。僅基于單個特征來做決策帘靡。這棵樹只有一次分裂過程，因此它實際上就是一個樹樁瓤帚。

最后編輯于：2017.12.11 02:54:30

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末描姚，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子戈次，更是在濱河造成了極大的恐慌轩勘，老刑警劉巖，帶你破解...
沈念sama閱讀 217,907評論 6贊 506
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件怯邪，死亡現(xiàn)場離奇詭異绊寻，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)悬秉，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,987評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門澄步，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人和泌，你說我怎么就攤上這事村缸。” “怎么了武氓？”我有些...
開封第一講書人閱讀 164,298評論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵梯皿，是天一觀的道長仇箱。經(jīng)常有香客問我，道長东羹，這世上最難降的妖魔是什么剂桥？我笑而不...
開封第一講書人閱讀 58,586評論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮属提，結(jié)果婚禮上权逗，老公的妹妹穿的比我還像新娘。我一直安慰自己冤议，他們只是感情好斟薇，可當(dāng)我...
茶點(diǎn)故事閱讀 67,633評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著求类，像睡著了一般。火紅的嫁衣襯著肌膚如雪屹耐。梳的紋絲不亂的頭發(fā)上尸疆，一...
開封第一講書人閱讀 51,488評論 1贊 302
城市分裂傳說
那天，我揣著相機(jī)與錄音惶岭，去河邊找鬼寿弱。笑死，一個胖子當(dāng)著我的面吹牛按灶，可吹牛的內(nèi)容都是我干的症革。我是一名探鬼主播，決...
沈念sama閱讀 40,275評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼鸯旁，長吁一口氣：“原來是場噩夢啊……” “哼噪矛！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起铺罢，我...
開封第一講書人閱讀 39,176評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤艇挨，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后韭赘，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體缩滨，經(jīng)...
沈念sama閱讀 45,619評論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,819評論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年泉瞻，在試婚紗的時候發(fā)現(xiàn)自己被綠了脉漏。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 39,932評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡袖牙，死狀恐怖侧巨，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情鞭达，我是刑警寧澤刃泡，帶...
沈念sama閱讀 35,655評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布巧娱，位于F島的核電站，受9級特大地震影響烘贴，放射性物質(zhì)發(fā)生泄漏禁添。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,265評論 3贊 329
男人毒藥：我在死后第九天來索命
文/蒙蒙一桨踪、第九天我趴在偏房一處隱蔽的房頂上張望老翘。院中可真熱鬧，春花似錦锻离、人聲如沸铺峭。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,871評論 0贊 22
一樁弒父案汽纠，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽卫键。三九已至，卻和暖如春虱朵，著一層夾襖步出監(jiān)牢的瞬間莉炉，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 32,994評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工碴犬，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留絮宁，地道東北人。一個月前我還...
沈念sama閱讀 48,095評論 3贊 370
代替公主和親
正文我出身青樓服协，卻偏偏與公主長得像绍昂，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子偿荷，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,884評論 2贊 354

AdaBoost元算法

bagging：基于數(shù)據(jù)隨機(jī)重抽樣的分類器構(gòu)建方法

boosting

推薦閱讀更多精彩內(nèi)容