集成學(xué)習(五)Stacking

1. 導(dǎo)言

Stacking集成算法可以理解為一個兩層的集成义矛,第一層含有多個基礎(chǔ)分類器,把預(yù)測的結(jié)果(元特征)提供給第二層,而第二層的分類器通常是邏輯回歸贮配,他把一層分類器的結(jié)果當作特征擬合輸出預(yù)測結(jié)果力九。Blending是簡化版的Stacking耍铜。

2. Blending集成學(xué)習算法

  • (1)將數(shù)據(jù)劃分為訓(xùn)練集和測試集(test_set),其中訓(xùn)練集需要再次劃分為訓(xùn)練集(train_set)和驗證集(val_set)跌前;
  • (2)創(chuàng)建第一層的多個模型棕兼,這些模型可以使同質(zhì)的也可以是異質(zhì)的
  • (3)使用train_set訓(xùn)練步驟2中的多個模型,然后用訓(xùn)練好的模型預(yù)測val_set和test_set得到val_predict, test_predict1;
  • (4)創(chuàng)建第二層的模型抵乓,使用val_predict作為訓(xùn)練集訓(xùn)練第二層的模型
  • (5) 使用第二層訓(xùn)練好的模型對第二層測試集test_predict1進行預(yù)測伴挚,該結(jié)果為整個測試集的結(jié)果。


    image.png

Blending缺點:只使用了一部分數(shù)據(jù)集作為留出集進行驗證灾炭,也就是只能用上數(shù)據(jù)中的一部分茎芋。

3. Stacking集成學(xué)習算法

前文提到,Blending在集成的過程中只會用到驗證集的數(shù)據(jù)蜈出,對數(shù)據(jù)實際上是一個很大的浪費田弥。在Blending中,我們產(chǎn)生驗證集的方式是使用分割的方式铡原,產(chǎn)生一組訓(xùn)練集和一組驗證集偷厦,那么可以用交叉驗證的方式來處理嗎?


image.png
  • 首先將所有數(shù)據(jù)集生成測試集和訓(xùn)練集(假如訓(xùn)練集為10000行燕刻,測試集為2500行)只泼,那么上層會進行5折交叉校驗,使用訓(xùn)練集中的8000條作為訓(xùn)練集卵洗,剩余2000行作為驗證集(橙色)请唱。
  • 每次驗證相當于使用了藍色的8000條數(shù)據(jù)訓(xùn)練出一個模型,使用模型對驗證集進行驗證得到2000條數(shù)據(jù)忌怎,并對測試集進行預(yù)測籍滴,得到2500條數(shù)據(jù),這樣經(jīng)過5次交叉檢驗榴啸,可以得到中間的橙色的52000條驗證集的結(jié)果(相當于每條數(shù)據(jù)的預(yù)測結(jié)果)孽惰,52500條測試集的預(yù)測結(jié)果。
  • 接下來會將驗證集的52000條預(yù)測結(jié)果拼成10000行長的矩陣鸥印,標記為A_1勋功,而對于52500行的測試集的預(yù)測結(jié)果進行加權(quán)平均坦报,得到一個2500一列的矩陣,標記為B_1
  • 上面得到一個基模型在數(shù)據(jù)集上的預(yù)測結(jié)果A_1B_1狂鞋,這樣當我們對3個基模型進行集成的話片择,相當于得到了A_1A_2骚揍、A_3字管、B_1B_2信不、B_3六個矩陣
  • 之后我們將A_1嘲叔、A_2A_3并列在一起成10000行3列的矩陣作為training data抽活,B_1硫戈、B_3B_3下硕、合并在一起成2500行3列的矩陣作為testing data丁逝,讓下層學(xué)習器基于這樣的數(shù)據(jù)進行再訓(xùn)練。
  • 再訓(xùn)練是基于每個基礎(chǔ)模型的預(yù)測結(jié)果作為特征(三個特征)梭姓,次學(xué)習器會學(xué)習訓(xùn)練如果往這樣的及學(xué)習的預(yù)測結(jié)果上賦予權(quán)重w霜幼,來使得最后的預(yù)測最為準確
    image.png

4. Blending與Stacking的對比

Blending的優(yōu)點:

  1. 比stacking簡單(因為不用進行k次的交叉驗證來獲得stacker feature)
  2. 避開了一個信息泄露的問題:generalizrs和stacker使用了不一樣的數(shù)據(jù)集
  3. 在團隊建模過程中,不需要給隊友分享自己的隨機種子
    缺點在于:
  4. 使用了很少的數(shù)據(jù)(是劃分hold-out作為測試集糊昙,并非cv)
  5. blender可能會過擬合(其實大概率是第一點導(dǎo)致的)
    3.stacking使用多次的cv會比較穩(wěn)健辛掠。
    refer

圖解Blending&Stacking_學(xué)如不及,猶恐失之-CSDN博客_blending
模型融合之stacking&blending - 知乎 (zhihu.com)
Stacking方法詳解 - Christina_筆記 - 博客園 (cnblogs.com)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末谢谦,一起剝皮案震驚了整個濱河市释牺,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌回挽,老刑警劉巖没咙,帶你破解...
    沈念sama閱讀 217,657評論 6 505
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異千劈,居然都是意外死亡祭刚,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,889評論 3 394
  • 文/潘曉璐 我一進店門墙牌,熙熙樓的掌柜王于貴愁眉苦臉地迎上來涡驮,“玉大人,你說我怎么就攤上這事喜滨∽酵保” “怎么了?”我有些...
    開封第一講書人閱讀 164,057評論 0 354
  • 文/不壞的土叔 我叫張陵虽风,是天一觀的道長棒口。 經(jīng)常有香客問我寄月,道長,這世上最難降的妖魔是什么无牵? 我笑而不...
    開封第一講書人閱讀 58,509評論 1 293
  • 正文 為了忘掉前任漾肮,我火速辦了婚禮,結(jié)果婚禮上茎毁,老公的妹妹穿的比我還像新娘克懊。我一直安慰自己,他們只是感情好七蜘,可當我...
    茶點故事閱讀 67,562評論 6 392
  • 文/花漫 我一把揭開白布保檐。 她就那樣靜靜地躺著,像睡著了一般崔梗。 火紅的嫁衣襯著肌膚如雪夜只。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,443評論 1 302
  • 那天蒜魄,我揣著相機與錄音扔亥,去河邊找鬼。 笑死谈为,一個胖子當著我的面吹牛旅挤,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播伞鲫,決...
    沈念sama閱讀 40,251評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼粘茄,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了秕脓?” 一聲冷哼從身側(cè)響起柒瓣,我...
    開封第一講書人閱讀 39,129評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎吠架,沒想到半個月后芙贫,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,561評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡傍药,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,779評論 3 335
  • 正文 我和宋清朗相戀三年磺平,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片拐辽。...
    茶點故事閱讀 39,902評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡拣挪,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出俱诸,到底是詐尸還是另有隱情菠劝,我是刑警寧澤,帶...
    沈念sama閱讀 35,621評論 5 345
  • 正文 年R本政府宣布乙埃,位于F島的核電站闸英,受9級特大地震影響锯岖,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜甫何,卻給世界環(huán)境...
    茶點故事閱讀 41,220評論 3 328
  • 文/蒙蒙 一出吹、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧辙喂,春花似錦捶牢、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,838評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至炬太,卻和暖如春灸蟆,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背亲族。 一陣腳步聲響...
    開封第一講書人閱讀 32,971評論 1 269
  • 我被黑心中介騙來泰國打工炒考, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人霎迫。 一個月前我還...
    沈念sama閱讀 48,025評論 2 370
  • 正文 我出身青樓斋枢,卻偏偏與公主長得像,于是被迫代替她去往敵國和親知给。 傳聞我的和親對象是個殘疾皇子瓤帚,可洞房花燭夜當晚...
    茶點故事閱讀 44,843評論 2 354

推薦閱讀更多精彩內(nèi)容