集成學(xué)習(xí)與模型融合

https://www.hrwhisper.me/machine-learning-model-ensemble-and-bagging/


image.png

如果硬要把集成學(xué)習(xí)進(jìn)一步分類笨觅,可以分為兩類枚钓,一種是把強(qiáng)分類器進(jìn)行強(qiáng)強(qiáng)聯(lián)合,使得融合后的模型效果更強(qiáng)们何,稱為模型融合。另一種是將弱分類器通過(guò)學(xué)習(xí)算法集成起來(lái)變?yōu)楹軓?qiáng)的分類器馁龟,稱為機(jī)器學(xué)習(xí)元算法蹋盆。

這里我們把用來(lái)進(jìn)行融合的學(xué)習(xí)器稱為個(gè)體學(xué)習(xí)器。

模型融合的代表有:投票法(Voting)后德、線性混合(Linear Blending)部宿、Stacking。

而機(jī)器學(xué)習(xí)元算法又可以根據(jù)個(gè)體學(xué)習(xí)器之間是否存在依賴關(guān)系分為兩類瓢湃,稱為Bagging和Boosting:

  • Bagging: 個(gè)體學(xué)習(xí)器不存在依賴關(guān)系理张,可同時(shí)對(duì)樣本隨機(jī)采樣 并行化生成個(gè)體學(xué)習(xí)器。代表作為隨機(jī)森林(Random Forest)
  • Boosting: 個(gè)體學(xué)習(xí)器存在依賴關(guān)系,基于前面模型的訓(xùn)練結(jié)果誤差生成新的模型绵患,必須串行化生成雾叭。代表的算法有:Adaboost、GBDT落蝙、XGBoost

不過(guò)也有說(shuō)法是:
(1)用于減少方差\sigma的bagging(樣本存在重疊導(dǎo)致分布的差異即方差縮兄)
(2)用于減少偏差u的boosting(每一次迭代都根據(jù)上一次迭代的預(yù)測(cè)結(jié)果對(duì)樣本進(jìn)行加權(quán)作煌,所以隨著迭代不斷進(jìn)行,誤差會(huì)越來(lái)越小赚瘦,所以模型的 bias 會(huì)不斷降低粟誓。)
(3)用于提升預(yù)測(cè)結(jié)果的stacking


模型融合:

上面提到,模型融合是把強(qiáng)分類器進(jìn)行強(qiáng)強(qiáng)聯(lián)合起意,變得更強(qiáng)鹰服。

在進(jìn)行模型融合的時(shí)候,也不是說(shuō)隨意的融合就能達(dá)到好的效果揽咕。進(jìn)行融合時(shí)悲酷,所需的集成個(gè)體(就是用來(lái)集成的模型)應(yīng)該好而不同。好指的是個(gè)體學(xué)習(xí)器的性能要好亲善,不同指的是個(gè)體模型的類別不同设易。

這里舉個(gè)西瓜書(shū)的例子,在介紹例子之前蛹头,首先提前介紹簡(jiǎn)單投票法顿肺,以分類問(wèn)題為例,就是每個(gè)分類器對(duì)樣例進(jìn)行投票渣蜗,哪個(gè)類別得到的票數(shù)最多的就是融合后模型的結(jié)果屠尊。

image.png

在上面的例子中,采用的就是簡(jiǎn)單的投票法耕拷。中間的圖b各個(gè)模型輸出都一樣讼昆,因此沒(méi)有什么效果。第三個(gè)圖c每個(gè)分類器的精度只有33%骚烧,融合后反而更糟浸赫。也就是說(shuō),想要模型融合有效果赃绊,個(gè)體學(xué)習(xí)器要有一定的準(zhǔn)確率既峡,并且要有多樣性,學(xué)習(xí)器之間具有差異凭戴,即”好而不同“涧狮。

如何做到好而不同呢?

可以由下面幾個(gè)方面:

  • 針對(duì)輸入數(shù)據(jù):使用采樣的方法得到不同的樣本(比如bagging方法采用自助法進(jìn)行抽樣)

  • 針對(duì)特征:對(duì)特征進(jìn)行抽樣

  • 針對(duì)算法本身:

  1. 個(gè)體學(xué)習(xí)器ht來(lái)自不同的模型集合(LR/SVM)
  2. 個(gè)體學(xué)習(xí)器ht來(lái)自于同一個(gè)模型集合的不同超參數(shù)么夫,例如學(xué)習(xí)率η不同
  3. 算法本身具有隨機(jī)性者冤,例如用不同的隨機(jī)種子來(lái)得到不同的模型
  • 針對(duì)輸出:對(duì)輸出表示進(jìn)行操縱以增強(qiáng)多樣性
  1. 如將多分類轉(zhuǎn)化為多個(gè)二分類任務(wù)來(lái)訓(xùn)練單模型
  2. 將分類輸出轉(zhuǎn)化為回歸輸出等

進(jìn)行模型融合為什么比較好呢?

學(xué)習(xí)器的結(jié)合可能會(huì)從三個(gè)方面帶來(lái)好處:

首先,從統(tǒng)計(jì)的方面來(lái)看档痪,由于學(xué)習(xí)任務(wù)的假設(shè)空間往往很大涉枫,可能有多個(gè)假設(shè)在訓(xùn)練集上達(dá)到相同的性能,此時(shí)若使用單學(xué)習(xí)器腐螟,可能因誤選而導(dǎo)致泛化性能不佳愿汰,結(jié)合多個(gè)學(xué)習(xí)器則會(huì)減少這一風(fēng)險(xiǎn)惋鹅;

第二啤咽,從計(jì)算的方面來(lái)看赤套,學(xué)習(xí)算法往往會(huì)陷入局部極小搀擂,有的局部極小點(diǎn)所對(duì)應(yīng)的泛化性能可能很糟糕,而通過(guò)多次運(yùn)行之后進(jìn)行結(jié)合吗跋,可降低陷入糟糕局部極小點(diǎn)的風(fēng)險(xiǎn)侧戴;

第三,從表示的方面來(lái)看跌宛,某些學(xué)習(xí)任務(wù)的真實(shí)假設(shè)可能不在當(dāng)前學(xué)習(xí)算法所考慮的假設(shè)空間中酗宋,此時(shí)若使用單學(xué)習(xí)器則肯定無(wú)效,而通過(guò)結(jié)合多個(gè)學(xué)習(xí)器疆拘,由于相應(yīng)的假設(shè)空間有所擴(kuò)大蜕猫,有可能學(xué)得更好的近似。

image.png

投票和平均 Voting and Average

分類

對(duì)于分類任務(wù)來(lái)說(shuō)哎迄,可以使用投票的方法:

簡(jiǎn)單投票法(一人一票):H(x)=arg \max_{x} \sum_{i=1}^{T}h_i^j(x)

  • 即各個(gè)分類器輸出其預(yù)測(cè)的類別h_i^j(x)回右,取對(duì)應(yīng)類別最高票作為結(jié)果。若有多個(gè)類別都是最高票芬失,那么隨機(jī)選取一個(gè)楣黍。a_i \ge 0匾灶,h_i^j(x)=\{0,1\}或者h_i^j(x)=[0,1]

加權(quán)投票法(投一票相當(dāng)于人家兩票):H(x)=arg\max_{x} \sum_{i=1}^{T}a_ih_i^j(x)

  • 和上面的簡(jiǎn)單投票法類似棱烂,不過(guò)多了個(gè)權(quán)重a_i

  • 使用類概率進(jìn)行結(jié)合往往比直接基于類標(biāo)記的效果好,即使分類器估計(jì)出的概率值一般都不太準(zhǔn)確阶女。


回歸

簡(jiǎn)單平均(所有估計(jì)值求平均):H(x)=\frac{1}{T}\sum_{i=1}^{T}h_i(x)
加權(quán)平均:H(x)=\frac{1}{T}\sum_{i=1}^{T}a_ih_i(x),a_i\ge0,\sum_{i=1}^{T}a_i=1

對(duì)于回歸任務(wù)來(lái)說(shuō)颊糜,采用的為平均法。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末秃踩,一起剝皮案震驚了整個(gè)濱河市衬鱼,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌憔杨,老刑警劉巖鸟赫,帶你破解...
    沈念sama閱讀 218,386評(píng)論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異消别,居然都是意外死亡抛蚤,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,142評(píng)論 3 394
  • 文/潘曉璐 我一進(jìn)店門寻狂,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)岁经,“玉大人,你說(shuō)我怎么就攤上這事蛇券∽喝溃” “怎么了樊拓?”我有些...
    開(kāi)封第一講書(shū)人閱讀 164,704評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)塘慕。 經(jīng)常有香客問(wèn)我筋夏,道長(zhǎng),這世上最難降的妖魔是什么图呢? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,702評(píng)論 1 294
  • 正文 為了忘掉前任叁丧,我火速辦了婚禮,結(jié)果婚禮上岳瞭,老公的妹妹穿的比我還像新娘拥娄。我一直安慰自己,他們只是感情好瞳筏,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,716評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布稚瘾。 她就那樣靜靜地躺著,像睡著了一般姚炕。 火紅的嫁衣襯著肌膚如雪摊欠。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 51,573評(píng)論 1 305
  • 那天柱宦,我揣著相機(jī)與錄音些椒,去河邊找鬼。 笑死掸刊,一個(gè)胖子當(dāng)著我的面吹牛免糕,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播忧侧,決...
    沈念sama閱讀 40,314評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼石窑,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了蚓炬?” 一聲冷哼從身側(cè)響起松逊,我...
    開(kāi)封第一講書(shū)人閱讀 39,230評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎肯夏,沒(méi)想到半個(gè)月后经宏,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,680評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡驯击,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,873評(píng)論 3 336
  • 正文 我和宋清朗相戀三年烁兰,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片余耽。...
    茶點(diǎn)故事閱讀 39,991評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡缚柏,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出碟贾,到底是詐尸還是另有隱情币喧,我是刑警寧澤轨域,帶...
    沈念sama閱讀 35,706評(píng)論 5 346
  • 正文 年R本政府宣布,位于F島的核電站杀餐,受9級(jí)特大地震影響干发,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜史翘,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,329評(píng)論 3 330
  • 文/蒙蒙 一枉长、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧琼讽,春花似錦必峰、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,910評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至问欠,卻和暖如春肝匆,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背顺献。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,038評(píng)論 1 270
  • 我被黑心中介騙來(lái)泰國(guó)打工旗国, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人注整。 一個(gè)月前我還...
    沈念sama閱讀 48,158評(píng)論 3 370
  • 正文 我出身青樓能曾,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親设捐。 傳聞我的和親對(duì)象是個(gè)殘疾皇子借浊,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,941評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容