總覽

集成學(xué)習(xí)(ensemble learning)本身不是一個單獨的機器學(xué)習(xí)算法静檬,而是通過構(gòu)建并結(jié)合多個機器學(xué)習(xí)器來完成學(xué)習(xí)任務(wù)。也就是我們常說的“博采眾長”尉姨。集成學(xué)習(xí)可以用于分類問題集成庵朝,回歸問題集成,特征選取集成又厉,異常點檢測集成等等九府,可以說所有的機器學(xué)習(xí)領(lǐng)域都可以看到集成學(xué)習(xí)的身影
集成學(xué)習(xí)有兩個主要的問題需要解決,第一是如何得到若干個個體學(xué)習(xí)器覆致,第二是如何選擇一種結(jié)合策略侄旬,將這些個體學(xué)習(xí)器集合成一個強學(xué)習(xí)器

個體學(xué)習(xí)器

上面說到, 集成學(xué)習(xí)第一是要得到若干個 個體學(xué)習(xí)器, 那么通常的做法, 有2種選擇:

  1. 所有的個體學(xué)習(xí)器都是同類的,或者說是同質(zhì)的, 比如都是某種決策樹
  2. 異質(zhì)的個體學(xué)習(xí)器. 比如采用多種不同的學(xué)習(xí)器, 對他們進行組合
    目前, 同質(zhì)學(xué)習(xí)器是最廣泛的, 這里面同質(zhì)學(xué)習(xí)器使用最多的就是CART, 比如: Random Forest,GBDT, LightGBM等

對于第二個問題: 如何結(jié)合這些個體學(xué)習(xí)器

  1. 串行生成. 這類集成方法適應(yīng)于個體學(xué)習(xí)器之間存在較強的關(guān)聯(lián), 代表的就是boosting系列的算法, 如:GBDT
  2. 并行生成, 這類集成方法適應(yīng)于個體學(xué)習(xí)器之間存在較弱的依賴, 代表的就是bagging系列算法, 如: Random Forest

Boosting系列

Boosting原理

Boosting算法的工作機制是從訓(xùn)練集用初始權(quán)重學(xué)習(xí)出一個弱分類器1, 根據(jù)弱分類器的學(xué)習(xí)誤差, 更新對應(yīng)樣本的權(quán)重, 學(xué)習(xí)得到第二個弱分類器2,樣本權(quán)重隨著上一個弱分類器的情況而定, 分類錯誤的, 對應(yīng)樣本權(quán)重就高. 最終, 通過最后的集成策略, 對樣本進行整合

Bagging系列

bagging方式可以并行計算, 他的弱學(xué)習(xí)器之間沒有依賴關(guān)系, 下一個學(xué)習(xí)器不需要通過上一個學(xué)習(xí)器的表現(xiàn)來制定相應(yīng)的策略


bagging

從上圖可以看出,bagging的個體弱學(xué)習(xí)器的訓(xùn)練集是通過隨機采樣得到的煌妈。通過T次的隨機采樣儡羔,我們就可以得到T個采樣集,對于這T個采樣集璧诵,我們可以分別獨立的訓(xùn)練出T個弱學(xué)習(xí)器笔链,再對這T個弱學(xué)習(xí)器通過集合策略來得到最終的強學(xué)習(xí)器,對于這里的隨機采樣有必要做進一步的介紹,這里一般采用的是自助采樣法(Bootstap sampling),即對于m個樣本的原始訓(xùn)練集腮猖,我們每次先隨機采集一個樣本放入采樣集鉴扫,接著把該樣本放回,也就是說下次采樣時該樣本仍有可能被采集到澈缺,這樣采集m次坪创,最終可以得到m個樣本的采樣集,由于是隨機采樣姐赡,這樣每次的采樣集是和原始訓(xùn)練集不同的莱预,和其他采樣集也是不同的,這樣得到多個不同的弱學(xué)習(xí)器

學(xué)習(xí)器的結(jié)合策略

回歸問題

對于回歸問題, 結(jié)合的策略通常有以下幾種

  • 平均法: 每個弱學(xué)習(xí)器得到的結(jié)果求平均
  • 加權(quán)平均

分類問題

  • 投票法
  • 加權(quán)投票法

Stacking

最后一種是 學(xué)習(xí)法: 代表的類型是stacking, 當使用stacking的結(jié)合策略時项滑, 我們不是對弱學(xué)習(xí)器的結(jié)果做簡單的邏輯處理依沮,而是再加上一層學(xué)習(xí)器,也就是說,我們將訓(xùn)練集弱學(xué)習(xí)器的學(xué)習(xí)結(jié)果作為輸入危喉,將訓(xùn)練集的輸出作為輸出宋渔,重新訓(xùn)練一個學(xué)習(xí)器來得到最終結(jié)果。在這種情況下辜限,我們將弱學(xué)習(xí)器稱為初級學(xué)習(xí)器皇拣,將用于結(jié)合的學(xué)習(xí)器稱為次級學(xué)習(xí)器。對于測試集薄嫡,我們首先用初級學(xué)習(xí)器預(yù)測一次氧急,得到次級學(xué)習(xí)器的輸入樣本,再用次級學(xué)習(xí)器預(yù)測一次毫深,得到最終的預(yù)測結(jié)果

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末吩坝,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子哑蔫,更是在濱河造成了極大的恐慌钉寝,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,968評論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件鸳址,死亡現(xiàn)場離奇詭異瘩蚪,居然都是意外死亡泉懦,警方通過查閱死者的電腦和手機稿黍,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,601評論 2 382
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來崩哩,“玉大人巡球,你說我怎么就攤上這事〉肃冢” “怎么了酣栈?”我有些...
    開封第一講書人閱讀 153,220評論 0 344
  • 文/不壞的土叔 我叫張陵,是天一觀的道長汹押。 經(jīng)常有香客問我矿筝,道長,這世上最難降的妖魔是什么棚贾? 我笑而不...
    開封第一講書人閱讀 55,416評論 1 279
  • 正文 為了忘掉前任窖维,我火速辦了婚禮,結(jié)果婚禮上妙痹,老公的妹妹穿的比我還像新娘铸史。我一直安慰自己,他們只是感情好怯伊,可當我...
    茶點故事閱讀 64,425評論 5 374
  • 文/花漫 我一把揭開白布琳轿。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪崭篡。 梳的紋絲不亂的頭發(fā)上挪哄,一...
    開封第一講書人閱讀 49,144評論 1 285
  • 那天,我揣著相機與錄音媚送,去河邊找鬼中燥。 笑死,一個胖子當著我的面吹牛塘偎,可吹牛的內(nèi)容都是我干的疗涉。 我是一名探鬼主播,決...
    沈念sama閱讀 38,432評論 3 401
  • 文/蒼蘭香墨 我猛地睜開眼吟秩,長吁一口氣:“原來是場噩夢啊……” “哼咱扣!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起涵防,我...
    開封第一講書人閱讀 37,088評論 0 261
  • 序言:老撾萬榮一對情侶失蹤闹伪,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后壮池,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體偏瓤,經(jīng)...
    沈念sama閱讀 43,586評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,028評論 2 325
  • 正文 我和宋清朗相戀三年椰憋,在試婚紗的時候發(fā)現(xiàn)自己被綠了厅克。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,137評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡橙依,死狀恐怖证舟,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情窗骑,我是刑警寧澤女责,帶...
    沈念sama閱讀 33,783評論 4 324
  • 正文 年R本政府宣布,位于F島的核電站创译,受9級特大地震影響抵知,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜软族,卻給世界環(huán)境...
    茶點故事閱讀 39,343評論 3 307
  • 文/蒙蒙 一刷喜、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧互订,春花似錦吱肌、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,333評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽纺蛆。三九已至,卻和暖如春规揪,著一層夾襖步出監(jiān)牢的瞬間桥氏,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,559評論 1 262
  • 我被黑心中介騙來泰國打工猛铅, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留字支,地道東北人。 一個月前我還...
    沈念sama閱讀 45,595評論 2 355
  • 正文 我出身青樓奸忽,卻偏偏與公主長得像堕伪,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子栗菜,可洞房花燭夜當晚...
    茶點故事閱讀 42,901評論 2 345

推薦閱讀更多精彩內(nèi)容