模型融合

簡單加權(quán)融合

對于一個給定的網(wǎng)絡(luò)結(jié)構(gòu)舵抹,每一種不同的權(quán)重組合將得到不同的模型。因為所有模型結(jié)構(gòu)都有無限多種權(quán)重組合劣砍,所以將有無限多種組合方法惧蛹。
訓(xùn)練神經(jīng)網(wǎng)絡(luò)的目標是找到一個特別的解決方案(權(quán)重空間中的點),從而使訓(xùn)練集和測試集上的損失函數(shù)的值達到很小刑枝。

回歸

對于回歸問題香嗓,一個簡單直接的思路是取平均。稍稍改進的方法是進行加權(quán)平均装畅。
這兩種方法看似簡單靠娱,其實后面的高級算法也可以說是基于此而產(chǎn)生的,Bagging或者Boosting都是一種把許多弱分類器這樣融合成強分類器的思想洁灵。

  • 算術(shù)平均融合(Arithmetic mean)
  • 幾何平均融合(Geometric mean)

分類

  • 投票(Voting)
    分為軟投票和硬投票兩種饱岸,其原理采用少數(shù)服從多數(shù)的思想掺出。
    • 硬投票:
      對多個模型直接進行投票,不區(qū)分模型結(jié)果的相對重要度苫费,最終投票數(shù)最多的類為最終被預(yù)測的類汤锨。
    • 軟投票:
      增加了設(shè)置權(quán)重的功能,可以為不同模型設(shè)置不同權(quán)重百框,進而區(qū)別模型不同的重要度闲礼。

綜合

  • 排序融合(Rank averaging)
  • log融合

stacking/blending

構(gòu)建多層模型,并利用預(yù)測結(jié)果再擬合預(yù)測

stacking

當用初始訓(xùn)練數(shù)據(jù)學習出若干個基學習器后铐维,將這幾個學習器的預(yù)測結(jié)果作為新的訓(xùn)練集柬泽,來學習一個新的學習器。


將個體學習器結(jié)合在一起的時候使用的方法叫做結(jié)合策略嫁蛇。對于分類問題锨并,我們可以使用投票法來選擇輸出最多的類。對于回歸問題睬棚,我們可以將分類器輸出的結(jié)果求平均值第煮。
在stacking方法中,我們把個體學習器叫做初級學習器抑党,用于結(jié)合的學習器叫做次級學習器或元學習器(meta-learner)包警,次級學習器用于訓(xùn)練的數(shù)據(jù)叫做次級訓(xùn)練集底靠。次級訓(xùn)練集是在訓(xùn)練集上用初級學習器得到的害晦。
算法示意圖

blending

其實和Stacking是一種類似的多層模型融合的形式

  • 主要思路
    把原始的訓(xùn)練集先分成兩部分,比如70%的數(shù)據(jù)作為新的訓(xùn)練集,剩下30%的數(shù)據(jù)作為測試集。
    1.第一層赠幕,在這70%的數(shù)據(jù)上訓(xùn)練多個模型俄精,然后去預(yù)測那30%數(shù)據(jù)的label,同時也預(yù)測test集的label榕堰。
    2.第二層竖慧,直接用這30%數(shù)據(jù)在第一層預(yù)測的結(jié)果做為新特征繼續(xù)訓(xùn)練嫌套,然后用test集第一層預(yù)測的label做特征,用第二層訓(xùn)練的模型做進一步預(yù)測圾旨。
  • 優(yōu)點
    1.比stacking簡單(因為不用進行k次的交叉驗證來獲得stacker feature)
    2.避開了一個信息泄露問題:generlizers和stacker使用了不一樣的數(shù)據(jù)集
  • 缺點
    1.使用了很少的數(shù)據(jù)(第二階段的blender只使用training set10%的量)
    2.blender可能會過擬合
    3.stacking使用多次的交叉驗證會比較穩(wěn)健

boosting/bagging

多樹的提升方法

boosting

Bagging算法可以并行處理踱讨,而Boosting的思想是一種迭代的方法,每一次訓(xùn)練的時候都更加關(guān)心分類錯誤的樣例砍的,給這些分類錯誤的樣例增加更大的權(quán)重痹筛,下一次迭代的目標就是能夠更容易辨別出上一輪分類錯誤的樣例。最終將這些弱分類器進行加權(quán)相加廓鞠。

bagging

Bagging就是采用有放回的方式進行抽樣帚稠,用抽樣的樣本建立子模型,對子模型進行訓(xùn)練,這個過程重復(fù)多次床佳,最后進行融合滋早。大概分為這樣兩步:
1.重復(fù)K次
有放回地重復(fù)抽樣建模
訓(xùn)練子模型
2.模型融合

Bagging算法不用我們自己實現(xiàn),隨機森林就是基于Bagging算法的一個典型例子砌们,采用的基分類器是決策樹馆衔。

總結(jié)

模型融合涉及多個層面:

  • 結(jié)果層面的融合
    最常見的融合方法,可行的融合方法很多怨绣,比如根據(jù)結(jié)果得分進行加權(quán)融合角溃,做Log,exp處理等篮撑。在做結(jié)果融合的時候减细,有一個很重要的條件是模型結(jié)果的得分要比較近似,然后結(jié)果的差異要比較大赢笨,這樣的結(jié)果融合往往有比較好的效果提升未蝌。
  • 特征層面的融合
    準確說可以叫分割,很多時候如果我們用同種模型訓(xùn)練茧妒,可以把特征進行切分給不同的模型萧吠,然后在后面進行模型或者結(jié)果融合有時也能產(chǎn)生比較好的效果。
  • 模型層面的融合
    模型層面的融合可能就涉及模型的堆疊和設(shè)計桐筏,比如加Staking層纸型,部分模型的結(jié)果作為特征輸入等。這些就需要多實驗和思考了梅忌,最好不同模型類型要有一定的差異狰腌,用同種模型不同的參數(shù)的收益一般是比較小的。
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末牧氮,一起剝皮案震驚了整個濱河市琼腔,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌踱葛,老刑警劉巖丹莲,帶你破解...
    沈念sama閱讀 219,539評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件光坝,死亡現(xiàn)場離奇詭異,居然都是意外死亡甥材,警方通過查閱死者的電腦和手機盯另,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,594評論 3 396
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來擂达,“玉大人土铺,你說我怎么就攤上這事“鬻蓿” “怎么了悲敷?”我有些...
    開封第一講書人閱讀 165,871評論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長俭令。 經(jīng)常有香客問我后德,道長,這世上最難降的妖魔是什么抄腔? 我笑而不...
    開封第一講書人閱讀 58,963評論 1 295
  • 正文 為了忘掉前任瓢湃,我火速辦了婚禮,結(jié)果婚禮上赫蛇,老公的妹妹穿的比我還像新娘绵患。我一直安慰自己,他們只是感情好悟耘,可當我...
    茶點故事閱讀 67,984評論 6 393
  • 文/花漫 我一把揭開白布落蝙。 她就那樣靜靜地躺著,像睡著了一般暂幼。 火紅的嫁衣襯著肌膚如雪筏勒。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,763評論 1 307
  • 那天旺嬉,我揣著相機與錄音管行,去河邊找鬼。 笑死邪媳,一個胖子當著我的面吹牛捐顷,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播悲酷,決...
    沈念sama閱讀 40,468評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼套菜,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了设易?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,357評論 0 276
  • 序言:老撾萬榮一對情侶失蹤蛹头,失蹤者是張志新(化名)和其女友劉穎顿肺,沒想到半個月后戏溺,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,850評論 1 317
  • 正文 獨居荒郊野嶺守林人離奇死亡屠尊,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,002評論 3 338
  • 正文 我和宋清朗相戀三年旷祸,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片讼昆。...
    茶點故事閱讀 40,144評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡托享,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出浸赫,到底是詐尸還是另有隱情闰围,我是刑警寧澤,帶...
    沈念sama閱讀 35,823評論 5 346
  • 正文 年R本政府宣布既峡,位于F島的核電站羡榴,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏运敢。R本人自食惡果不足惜办斑,卻給世界環(huán)境...
    茶點故事閱讀 41,483評論 3 331
  • 文/蒙蒙 一食磕、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦腺毫、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,026評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至愿汰,卻和暖如春困后,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背衬廷。 一陣腳步聲響...
    開封第一講書人閱讀 33,150評論 1 272
  • 我被黑心中介騙來泰國打工摇予, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人吗跋。 一個月前我還...
    沈念sama閱讀 48,415評論 3 373
  • 正文 我出身青樓侧戴,卻偏偏與公主長得像,于是被迫代替她去往敵國和親跌宛。 傳聞我的和親對象是個殘疾皇子酗宋,可洞房花燭夜當晚...
    茶點故事閱讀 45,092評論 2 355

推薦閱讀更多精彩內(nèi)容

  • 一般來說,通過融合多個不同的模型疆拘,可能提升機器學習的性能蜕猫,這一方法在各種機器學習比賽中廣泛應(yīng)用,比如在kaggle...
    塵囂看客閱讀 19,516評論 3 19
  • 1.Voting 投票法針對分類模型哎迄,多個模型的分類結(jié)果進行投票回右,少數(shù)服從多數(shù)隆圆。除了公平投票外,還可以給投...
    ZAK_ML閱讀 2,267評論 0 1
  • 同DataWhale一起組隊學習:https://tianchi.aliyun.com/notebook-ai/d...
    612twilight閱讀 1,025評論 0 2
  • 內(nèi)容介紹模型融合是比賽后期一個重要的環(huán)節(jié)翔烁,大體來說有如下的類型方式渺氧。 簡單加權(quán)融合: 回歸(分類概率):算術(shù)平均融...
    100MHz閱讀 184評論 0 0
  • 大暑將至,午飯過后不小憩一會兒蹬屹,整個下午人都沒有精神侣背。 下午要做的事情還有很多。想要完成的事情也還很多慨默,所以不得不...
    南橋布九閱讀 158評論 0 0