集成學習

1.1個體與集成

集成學習(ensemble learning)通過構(gòu)建并結(jié)合多個學習器來完成學習任務(wù)转唉,有時也被稱為多分類器系統(tǒng)(multi-classifier system)/(committee-based learning)等膛腐。

下圖顯示出集成學習的一般結(jié)構(gòu):先產(chǎn)生一組“個體學習器”(individual learner),再用某種策略將它們結(jié)合起來十气,個體學習器通常由一個現(xiàn)有的學習算法從訓練數(shù)據(jù)中產(chǎn)生殊橙,如果集成中只包含同種類型的個體學習器,例如“決策樹集成”中全是決策樹冲杀,“神經(jīng)網(wǎng)絡(luò)集成”中全是神經(jīng)網(wǎng)絡(luò)制圈,這樣的集成是“同質(zhì)”。同質(zhì)集成中的個體學習器亦稱“基學習器”(base learner)侯养,相應的學習算法稱為“基學習算法”敦跌。集成學習也可包含不同類型的個體學習器,例如同時包含決策樹和神經(jīng)網(wǎng)絡(luò)逛揩,這樣的集成是“異質(zhì)”的(heterogenous).異質(zhì)集成中的個體學習器由不同的個體學習器組成柠傍,這時不再有基學習算法;相應的辩稽,這個個體學習器稱為“組件學習器”(component learner)或直接稱為個體學習器惧笛。


集成學習通過將多個學習器進行結(jié)合,常獲得比單一學習器顯著優(yōu)異的泛化性能逞泄。這對“弱學習器”(weak learner)尤為明顯患整,因此集成學習的很多理論研究都是針對弱學習器進行的,而基學習器有時也被直接稱為弱學習器喷众。但需注意的是各谚,雖然從理論上來說使用弱學習器足以獲得好的性能,但在實踐中出于種種考慮侮腹,例如希望使用較少的學習器嘲碧,或是重用關(guān)于常見學習器的一些經(jīng)驗等稻励,人們往往會使用比較強的學習器父阻。

按照一般經(jīng)驗可知愈涩,如果把好壞不等的東西混在一起,那么通常會比最好的壞一些加矛,最壞的好一些履婉,那么集成學習是如何把多個學習器結(jié)合起來的?

考慮一個簡單的例子:在二分類任務(wù)中斟览,假定三個分類器在三個測試樣本上的表現(xiàn)如下圖所示毁腿,其中打√表示分類正確,打×表示分類錯誤苛茂,集成學習的結(jié)果通過投票法(voting)產(chǎn)生已烤,即“少數(shù)服從多數(shù)”。在圖a中妓羊,每個分類器的精度都只有66.6%胯究,但集成學習的正確率達到了100%;圖b中躁绸,三個分類器沒有區(qū)別裕循,集成之后性能沒有提高;圖c中净刮,每個學習器的精度都只有33.3%剥哑,結(jié)果更糟。這個簡單的例子可以看出淹父,要獲得好的集成株婴,個體學習器應該好而不同,即個體學習器要有一定的“準確性”弹灭,即學習器不能太壞督暂,并且要有“多樣性”(diversity),即學習器間具有差異。


我們來做一個簡單的分析穷吮,考慮二分類問題y\in {-1,1}和真實函數(shù)f逻翁,假定基分類器的錯誤率為\epsilon ,即對每個基分類器h_{i}


假設(shè)集成通過簡單投票法結(jié)合T個分類器捡鱼,若有超過半數(shù)的基分類器正確八回,則集成分類正確:


假設(shè)基分類器的錯誤率相互獨立,則由Hoeffding不等式可知驾诈,集成的錯誤


上式顯示出缠诅,隨著集成中個體分類器數(shù)據(jù)T的增大,集成的錯誤率將指數(shù)級下降乍迄,最終趨于零管引。

需要注意到的是,上面的分析有一個關(guān)鍵假設(shè)闯两,基學習器的誤差相互獨立褥伴。在現(xiàn)實任務(wù)中谅将,個體學習器是為解決同一個問題訓練出來的,它們顯然不可能相互獨立重慢!事實上饥臂,個體學習器的“準確性”和“多樣性”本身就存在沖突。一般的似踱,準確性很高之后隅熙,要增加多樣性就需要犧牲準確性。如何產(chǎn)生并結(jié)合“好而不同”的個體學習器核芽,恰是集成學習研究的核心囚戚。

根據(jù)個體學習器的生成方式,目前集成學習方法大致可以分為兩大類轧简,即個體學習器間存在強依賴關(guān)系弯淘、必須串行生成的序列化方法,以及個體學習器間不存在強依賴關(guān)系吉懊、可同時生成的并行化方法庐橙;前者的代表是Boosting,后者的代表是Bagging和隨機森林借嗽。

1.2 Boosting

Boosting是一族可將弱學習器提升為強學習器的算法态鳖,這族算法的工作機制類似:先從初始訓練集訓練出一個基學習器,再根據(jù)基學習器的表現(xiàn)對訓練樣本分布進行調(diào)整恶导,使得先前基學習器做錯的訓練樣本在后續(xù)受到更多的關(guān)注浆竭,然后基于調(diào)整后的樣本分布來訓練下一個基學習器;如此重復進行惨寿,直到基學習器數(shù)目達到事先指定的值T邦泄,最終將T個學習器進行加權(quán)結(jié)合。

Boostin族算法最著名的代表是AdaBoos裂垦,其描述如下圖所示顺囊,其中y_{i} \in {-1,1},f是真實函數(shù)蕉拢。

圖8.3

Boosting算法要求基學習器能對特定的數(shù)據(jù)分布進行學習特碳,這可通過“重賦權(quán)法”(re-weighting)實施,即在訓練過程中根據(jù)樣本分布為每個訓練樣本重新賦予一個權(quán)重晕换。對無法接受帶權(quán)樣本的基學習方法午乓,則可通過“重采樣”(re-sampling)來處理,即在每一輪學習中闸准,即在每一輪學習中益愈,根據(jù)樣本分布對訓練集進行重新采樣,再用重采樣而得到的樣本集對基學習器進行訓練夷家。一般而言蒸其,這兩種做法沒有顯著的優(yōu)劣差別或辖。需注意的是,Boosting算法在訓練的每一輪都要檢查當前生成的基學習器是否滿足基本條件(基學習器是否比隨機猜測好),一旦條件不滿足枣接,當前學習器被拋棄,且學習過程終止缺谴。在此種情況下但惶,初始設(shè)置的學習輪數(shù)T也遠未達到,可能導致最終集成中只包含很少的基學習器而導致性能不佳湿蛔。若采用“重采樣法”膀曾,則可獲得“重啟動”機會以避免訓練過程過早停止,即在拋棄不滿足條件的當前基學習器之后阳啥,可根據(jù)當前分布重新對訓練樣本進行采樣添谊,再根據(jù)采樣結(jié)果重新訓練出基學習器,從而使得學習過程可以持續(xù)到預設(shè)的T輪完成察迟。

從偏差-方差分解的角度來看斩狱,Boosting主要關(guān)注降低偏差,因此Boosting能基于泛化性能相當弱的學習器構(gòu)建出很強的集成扎瓶。我們以決策蘇樁為基學習器所踊,不同規(guī)模(size)的集成機器基學習器所對應的分類邊界如下圖所示。

1.3 Bagging

欲得到泛化性能強的集成概荷,集成中的個體學習器應該盡可能相互獨立秕岛;雖然“獨立”在現(xiàn)實任務(wù)中無法做到,但可以設(shè)法使基學習基學習器盡可能具有較大差異误证。給定一個訓練數(shù)據(jù)集继薛,一種可能的做法是對訓練樣本進行采樣,產(chǎn)生出若干個不同的子集愈捅,再從每個數(shù)據(jù)子集中訓練出一個基學習器遏考。這樣,由于訓練數(shù)據(jù)不同蓝谨,我們獲得的基學習器可望獲得較大的差異诈皿。然而,為了獲得好的集成像棘,我們同時想要個體學習器不要太差稽亏。如果采樣出的每個子集都完全不同,則每個基學習器只用到了一部分訓練數(shù)據(jù)缕题,甚至不足以進行有效學習截歉。這顯然無法確保產(chǎn)生比較好的基學習器。為解決這一問題烟零,我們可考慮使用相互有交疊的采樣子集瘪松。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末咸作,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子宵睦,更是在濱河造成了極大的恐慌记罚,老刑警劉巖,帶你破解...
    沈念sama閱讀 223,002評論 6 519
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件壳嚎,死亡現(xiàn)場離奇詭異桐智,居然都是意外死亡,警方通過查閱死者的電腦和手機烟馅,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,357評論 3 400
  • 文/潘曉璐 我一進店門说庭,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人郑趁,你說我怎么就攤上這事刊驴。” “怎么了寡润?”我有些...
    開封第一講書人閱讀 169,787評論 0 365
  • 文/不壞的土叔 我叫張陵捆憎,是天一觀的道長。 經(jīng)常有香客問我梭纹,道長攻礼,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 60,237評論 1 300
  • 正文 為了忘掉前任栗柒,我火速辦了婚禮礁扮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘瞬沦。我一直安慰自己太伊,他們只是感情好,可當我...
    茶點故事閱讀 69,237評論 6 398
  • 文/花漫 我一把揭開白布逛钻。 她就那樣靜靜地躺著僚焦,像睡著了一般。 火紅的嫁衣襯著肌膚如雪曙痘。 梳的紋絲不亂的頭發(fā)上芳悲,一...
    開封第一講書人閱讀 52,821評論 1 314
  • 那天,我揣著相機與錄音边坤,去河邊找鬼名扛。 笑死,一個胖子當著我的面吹牛茧痒,可吹牛的內(nèi)容都是我干的肮韧。 我是一名探鬼主播,決...
    沈念sama閱讀 41,236評論 3 424
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼弄企!你這毒婦竟也來了超燃?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 40,196評論 0 277
  • 序言:老撾萬榮一對情侶失蹤拘领,失蹤者是張志新(化名)和其女友劉穎意乓,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體约素,經(jīng)...
    沈念sama閱讀 46,716評論 1 320
  • 正文 獨居荒郊野嶺守林人離奇死亡届良,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,794評論 3 343
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了业汰。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,928評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡菩颖,死狀恐怖样漆,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情晦闰,我是刑警寧澤放祟,帶...
    沈念sama閱讀 36,583評論 5 351
  • 正文 年R本政府宣布,位于F島的核電站呻右,受9級特大地震影響跪妥,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜声滥,卻給世界環(huán)境...
    茶點故事閱讀 42,264評論 3 336
  • 文/蒙蒙 一眉撵、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧落塑,春花似錦纽疟、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,755評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至龙考,卻和暖如春蟆肆,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背晦款。 一陣腳步聲響...
    開封第一講書人閱讀 33,869評論 1 274
  • 我被黑心中介騙來泰國打工炎功, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人缓溅。 一個月前我還...
    沈念sama閱讀 49,378評論 3 379
  • 正文 我出身青樓亡问,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子州藕,可洞房花燭夜當晚...
    茶點故事閱讀 45,937評論 2 361

推薦閱讀更多精彩內(nèi)容