[監(jiān)督式]Ensemble learning

Ensemble learning(集成學(xué)習(xí))

二進(jìn)制通訊時(shí)使用vote避免丟失
  • 做法
    假設(shè)我們有多個(gè)模型(假設(shè)3個(gè)),每個(gè)模型準(zhǔn)確率都大於50%(假設(shè)80%)乍桂,而每個(gè)模型之間都會(huì)存在差異侈咕,那麼我們混合模型,分類問題使用每個(gè)模型投票(vote)多數(shù)作為預(yù)測結(jié)果播歼、而回歸問題使用平均(avg)作為預(yù)測結(jié)果,如此一來我們的模型不會(huì)比原來最低準(zhǔn)確率的模型的差掰读,但有可能讓模型準(zhǔn)確率更高秘狞。

Bagging(bootstrap aggregating)

  • 做法
    我們有一個(gè)樣本池有N個(gè)樣本,我們從樣本池中取N'次蹈集,每一次的取出的樣本都會(huì)放回樣本池中(表示會(huì)抽到重複的樣本)烁试,然後我們做C次得到C組樣本,我們分別以4個(gè)相同或不同的模型進(jìn)行訓(xùn)練拢肆,然後預(yù)測時(shí)使用投票或平均作為預(yù)測結(jié)果减响,通常會(huì)比只使用一個(gè)模型時(shí)效果還要來的好,模型比較robust郭怪。

  • 使用時(shí)機(jī)
    在模型容易o(hù)verfitting的時(shí)候支示,使用Bagging。
    因?yàn)槲覀儼褦?shù)據(jù)分成多個(gè)子集鄙才,分別從各個(gè)子集訓(xùn)練後使用投票或平均作為預(yù)測結(jié)果颂鸿,所以結(jié)果會(huì)比較平滑,比較不會(huì)overfitting攒庵,因?yàn)樵肼暱赡軙?huì)在投票或平均被忽視掉嘴纺。

Boosting

  • 使用時(shí)機(jī)
    在模型underfitting的時(shí)候,使用Boosting浓冒。

AdaBoost

AdaBoost方法對於噪聲數(shù)據(jù)和異常數(shù)據(jù)很敏感栽渴。
AdaBoost方法的自適應(yīng)在於:前一個(gè)model分錯(cuò)的樣本讓判斷錯(cuò)誤的train data提高權(quán)重,被用來訓(xùn)練下一個(gè)model稳懒,我們在loss function上乘上一組weight闲擦,錯(cuò)誤的資料有更高的weight,使得錯(cuò)誤的資料有更高的loss。

\varepsilon代表錯(cuò)誤率
Z代表樣本數(shù)(例如: u_1^1=0.4 , u_1^2=1,Z=1.4 表示共有1.4筆樣本 )

我們第一個(gè)(model( f_1 ))錯(cuò)誤率小於0.5墅冷,我們要找一個(gè)u_2使得model( f_1 )錯(cuò)誤率等於0.5贮缕,我們使用model( f_2 )來訓(xùn)練這組新weight的資料(資料本身沒改變我們只是在loss function乘上一個(gè)每一筆資料對應(yīng)的weight),然後model( f_2 )的錯(cuò)誤率會(huì)小於0.5俺榆,就這樣可以重複的做下去,直到你想訓(xùn)練的model數(shù)量装哆。


怎麼找u_2呢?
假設(shè)我們某一筆資料model( f_1 )預(yù)測錯(cuò)誤罐脊,我們將u_1乘上d_1,如果資料model( f_1 )預(yù)測正確蜕琴,我們將u_1除以d_1萍桌,而d_1可以經(jīng)過推倒求出,詳細(xì)推導(dǎo)可以參考李宏毅老師的課程凌简。


我們訓(xùn)練完成多個(gè)模型要預(yù)測時(shí)上炎,我們要讓訓(xùn)練完錯(cuò)誤率較低的模型他佔(zhàn)比較大的weight,所以預(yù)測時(shí)我們將每個(gè)模型的預(yù)測結(jié)果乘上然後相加雏搂,取預(yù)測結(jié)果最高的類別藕施、或平均。

Stacking

stacking概念有點(diǎn)類似transfer(遷移學(xué)習(xí))凸郑,我們手上有訓(xùn)練了幾個(gè)不同的模型裳食,然後我們使用這些模型的輸出作為另一個(gè)新模型的輸入進(jìn)行訓(xùn)練,新模型從現(xiàn)有模型的基礎(chǔ)上再學(xué)習(xí)如何運(yùn)用不同模型的輸出差異來增加準(zhǔn)確率芙沥。

參考:
1诲祸、23而昨、4

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末救氯,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子歌憨,更是在濱河造成了極大的恐慌着憨,老刑警劉巖,帶你破解...
    沈念sama閱讀 212,884評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件务嫡,死亡現(xiàn)場離奇詭異享扔,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)植袍,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,755評論 3 385
  • 文/潘曉璐 我一進(jìn)店門惧眠,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人于个,你說我怎么就攤上這事氛魁。” “怎么了?”我有些...
    開封第一講書人閱讀 158,369評論 0 348
  • 文/不壞的土叔 我叫張陵秀存,是天一觀的道長捶码。 經(jīng)常有香客問我,道長或链,這世上最難降的妖魔是什么惫恼? 我笑而不...
    開封第一講書人閱讀 56,799評論 1 285
  • 正文 為了忘掉前任,我火速辦了婚禮澳盐,結(jié)果婚禮上祈纯,老公的妹妹穿的比我還像新娘。我一直安慰自己叼耙,他們只是感情好腕窥,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,910評論 6 386
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著筛婉,像睡著了一般簇爆。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上爽撒,一...
    開封第一講書人閱讀 50,096評論 1 291
  • 那天入蛆,我揣著相機(jī)與錄音,去河邊找鬼硕勿。 笑死安寺,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的首尼。 我是一名探鬼主播挑庶,決...
    沈念sama閱讀 39,159評論 3 411
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼软能!你這毒婦竟也來了迎捺?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,917評論 0 268
  • 序言:老撾萬榮一對情侶失蹤查排,失蹤者是張志新(化名)和其女友劉穎凳枝,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體跋核,經(jīng)...
    沈念sama閱讀 44,360評論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡岖瑰,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,673評論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了砂代。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片蹋订。...
    茶點(diǎn)故事閱讀 38,814評論 1 341
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖刻伊,靈堂內(nèi)的尸體忽然破棺而出露戒,到底是詐尸還是另有隱情椒功,我是刑警寧澤,帶...
    沈念sama閱讀 34,509評論 4 334
  • 正文 年R本政府宣布智什,位于F島的核電站动漾,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏荠锭。R本人自食惡果不足惜旱眯,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 40,156評論 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望证九。 院中可真熱鬧删豺,春花似錦、人聲如沸甫贯。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,882評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽叫搁。三九已至,卻和暖如春供炎,著一層夾襖步出監(jiān)牢的瞬間渴逻,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,123評論 1 267
  • 我被黑心中介騙來泰國打工音诫, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留惨奕,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,641評論 2 362
  • 正文 我出身青樓竭钝,卻偏偏與公主長得像梨撞,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子香罐,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,728評論 2 351