AdaBoost元算法

利用AdaBoost(adaptive boosting自適應(yīng)提升)元算法提高分類性能

本節(jié)內(nèi)容:組合相似的分類器來提高分類性能、應(yīng)用AdaBoost算法、處理非均衡分類問題

元算法是對其他算法進(jìn)行組合的一種方式。莫些人認(rèn)為AdaBoost是最好的監(jiān)督學(xué)習(xí)的方法础废,所以該方法是機(jī)器學(xué)習(xí)工具箱中最強(qiáng)力的工具之一。

將不同的分類器組合起來,這種組合結(jié)果則被稱為集成方法(ensemble method)或者元算法(meta-algorithm)。

優(yōu)點(diǎn):泛化錯誤率低克懊,易編碼忱辅,可以應(yīng)用在大部分分類器上,無參數(shù)調(diào)整谭溉。

缺點(diǎn):對離群點(diǎn)敏感

適用數(shù)據(jù)類型:數(shù)值型和標(biāo)稱型數(shù)據(jù)

bagging:基于數(shù)據(jù)隨機(jī)重抽樣的分類器構(gòu)建方法

自舉匯聚法(bootstrap aggregating)墙懂,也成bagging方法,是在原始數(shù)據(jù)集選擇S次后得到S個新數(shù)據(jù)集的一種技術(shù)扮念。新數(shù)據(jù)集和原始數(shù)據(jù)集的大小相等损搬。每個數(shù)據(jù)集都是通過在原始數(shù)據(jù)集中隨機(jī)選擇一個樣本進(jìn)行替換而得到的。

在S個數(shù)據(jù)集建好之后柜与,將莫個學(xué)習(xí)算法分別作用于每個數(shù)據(jù)集就得到了S個分類器巧勤。當(dāng)我們對新數(shù)據(jù)進(jìn)行分類時,就可以應(yīng)用這個S個分類器進(jìn)行分類弄匕。與此同時颅悉,選擇分類器投票結(jié)果中最多的類別作為最后的分類結(jié)果。

boosting

是一種與bagging很類似的技術(shù)迁匠。但是在前者當(dāng)中剩瓶,不同的分類器是通過串行訓(xùn)練而獲得的,每個新分類器都根據(jù)已訓(xùn)練出的分類器的性能來進(jìn)行訓(xùn)練城丧。boosting是通過集中關(guān)注被已有分類器錯分的那些數(shù)據(jù)來獲得新的分類器延曙。

由于boosting分類的結(jié)果是基于所有分類器的加權(quán)求和結(jié)果的,因此boosting與bagging不太一樣亡哄。

bagging中的分類器權(quán)重是相等的枝缔,而boosting中的分類器權(quán)重并不相等,每個權(quán)重代表的是其對應(yīng)分類器在上一輪迭代中的成功度蚊惯。

boosting方法有多個版本魂仍,本次只關(guān)注最流行的AdaBoost

AdaBoost其運(yùn)行過程如下:訓(xùn)練數(shù)據(jù)中的每個樣本,并賦予其一個權(quán)重拣挪,這些權(quán)重構(gòu)成了向量D擦酌。一開始,這些權(quán)重都初始化成相等值菠劝。首先在訓(xùn)練數(shù)據(jù)上訓(xùn)練出一個弱分類器并計算該分類器的錯誤率赊舶,然后在同一數(shù)據(jù)集上再次訓(xùn)練弱分類器。在分類器的第二次訓(xùn)練當(dāng)中,將會重新調(diào)整每個樣本的權(quán)重笼平,其中第一次分對的樣本的權(quán)重將會降低园骆,而第一次分錯的樣本的權(quán)重將會提高。為了從所有弱分類器中得到最終的分類結(jié)果寓调,AdaBoost為每個分類器都分配了一個權(quán)重值alpha锌唾,這些alpha值是基于每個弱分類器的錯誤率進(jìn)行計算的。

alpha計算公式
AdaBoost算法流程圖

左邊是數(shù)據(jù)集,其中直方圖的不同寬度表示每個樣例上的不同權(quán)重捏肢。在經(jīng)過一個分類器之后栈顷,加權(quán)的預(yù)測結(jié)果會通過三角形中的alpha值進(jìn)行加權(quán)。每個三角形中輸出的加權(quán)結(jié)果在圓形中求和余黎,從而得到最終的輸出結(jié)果

計算出alpha值之后,對權(quán)重向量D進(jìn)行更新载萌。

在計算出D之后惧财,AdaBoost又開始進(jìn)入下一輪迭代。AdaBoost算法會不斷地重復(fù)訓(xùn)練和調(diào)整權(quán)重的過程扭仁,直到訓(xùn)練錯誤率為0或者弱分類的數(shù)目達(dá)到用戶的指定值為止垮衷。

單層決策樹(decision stump,也稱決策樹樁)是一種簡單的決策樹乖坠。僅基于單個特征來做決策帘靡。這棵樹只有一次分裂過程,因此它實際上就是一個樹樁瓤帚。


最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末描姚,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子戈次,更是在濱河造成了極大的恐慌轩勘,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,907評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件怯邪,死亡現(xiàn)場離奇詭異绊寻,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)悬秉,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,987評論 3 395
  • 文/潘曉璐 我一進(jìn)店門澄步,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人和泌,你說我怎么就攤上這事村缸。” “怎么了武氓?”我有些...
    開封第一講書人閱讀 164,298評論 0 354
  • 文/不壞的土叔 我叫張陵梯皿,是天一觀的道長仇箱。 經(jīng)常有香客問我,道長东羹,這世上最難降的妖魔是什么剂桥? 我笑而不...
    開封第一講書人閱讀 58,586評論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮属提,結(jié)果婚禮上权逗,老公的妹妹穿的比我還像新娘。我一直安慰自己冤议,他們只是感情好斟薇,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,633評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著求类,像睡著了一般。 火紅的嫁衣襯著肌膚如雪屹耐。 梳的紋絲不亂的頭發(fā)上尸疆,一...
    開封第一講書人閱讀 51,488評論 1 302
  • 那天,我揣著相機(jī)與錄音惶岭,去河邊找鬼寿弱。 笑死,一個胖子當(dāng)著我的面吹牛按灶,可吹牛的內(nèi)容都是我干的症革。 我是一名探鬼主播,決...
    沈念sama閱讀 40,275評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼鸯旁,長吁一口氣:“原來是場噩夢啊……” “哼噪矛!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起铺罢,我...
    開封第一講書人閱讀 39,176評論 0 276
  • 序言:老撾萬榮一對情侶失蹤艇挨,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后韭赘,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體缩滨,經(jīng)...
    沈念sama閱讀 45,619評論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,819評論 3 336
  • 正文 我和宋清朗相戀三年泉瞻,在試婚紗的時候發(fā)現(xiàn)自己被綠了脉漏。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,932評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡袖牙,死狀恐怖侧巨,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情鞭达,我是刑警寧澤刃泡,帶...
    沈念sama閱讀 35,655評論 5 346
  • 正文 年R本政府宣布巧娱,位于F島的核電站,受9級特大地震影響烘贴,放射性物質(zhì)發(fā)生泄漏禁添。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,265評論 3 329
  • 文/蒙蒙 一桨踪、第九天 我趴在偏房一處隱蔽的房頂上張望老翘。 院中可真熱鬧,春花似錦锻离、人聲如沸铺峭。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,871評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽卫键。三九已至,卻和暖如春虱朵,著一層夾襖步出監(jiān)牢的瞬間莉炉,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,994評論 1 269
  • 我被黑心中介騙來泰國打工碴犬, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留絮宁,地道東北人。 一個月前我還...
    沈念sama閱讀 48,095評論 3 370
  • 正文 我出身青樓服协,卻偏偏與公主長得像绍昂,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子偿荷,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,884評論 2 354

推薦閱讀更多精彩內(nèi)容