這一篇, 我們希望提升模型的性能挤茄, 除了更多的數(shù)據(jù)如叼,更好的EDA等,集成學(xué)習(xí)可以從模型的角度提升模型的學(xué)習(xí)性能穷劈,?即將基模型組合成一個(gè)大模型笼恰。 在介紹集成學(xué)習(xí)前, 我們先介紹一下Bagging和Boosting的概念囚衔。
Bagging:
給定包含m個(gè)樣本的數(shù)據(jù)集挖腰。每輪從樣本中使用Bootstrap sampling(自助采樣)的方法抽取m個(gè)訓(xùn)練樣本(在訓(xùn)練集中,有些樣本可能被多次抽取到练湿,而有些樣本可能一次都沒(méi)有被抽中, 即)猴仑。可以進(jìn)行T輪采樣肥哎,從而可以學(xué)習(xí)到T個(gè)基模型辽俗。然后再將T個(gè)基模型進(jìn)行結(jié)合。
對(duì)分類問(wèn)題:將上步得到的T個(gè)模型采用投票的方式得到分類結(jié)果篡诽;對(duì)回歸問(wèn)題崖飘,計(jì)算上述模型的均值作為最后的結(jié)果。(所有模型的重要性相同)
Boosting:
先從初始訓(xùn)練集訓(xùn)練出一個(gè)基模型杈女,接下來(lái)的基模型朱浴,會(huì)根據(jù)之前的模型的學(xué)習(xí)效果, 相應(yīng)的修改樣本分布达椰,對(duì)先前模型學(xué)習(xí)錯(cuò)誤的樣本賦予更大的權(quán)重翰蠢。
接下來(lái),想講一下為什么bagging和boosting可以提升模型的性能啰劲。
可以看出梁沧,bagging中每個(gè)模型基于隨機(jī)采樣的樣本,模型相關(guān)性比較小蝇裤, 而boosting廷支,每個(gè)模型之間的相關(guān)性很強(qiáng)频鉴,因?yàn)槊恳粋€(gè)基模型,都和之前的基模型的學(xué)習(xí)結(jié)果相關(guān)恋拍。
我們?cè)倩氐椒讲钆c偏差的角度:
bagging主要解決的是方差問(wèn)題垛孔, 隨著基模型的數(shù)量提升,融合模型的方差越來(lái)越小施敢,偏差不會(huì)有太大的提升似炎,因此基模型不能太弱了,不然融合模型的偏差會(huì)比較大悯姊。
boosting主要解決的是偏差的問(wèn)題羡藐,隨著基模型數(shù)量提升,偏差越來(lái)越小悯许,但對(duì)方差影響較小仆嗦。因此基模型不能太強(qiáng),不然會(huì)有方差較大的問(wèn)題先壕,即過(guò)擬合瘩扼。
接下來(lái)簡(jiǎn)單介紹一下Bagging中的典型算法, Random Forest(隨機(jī)森林)
隨機(jī)森林以決策樹(shù)為基模型垃僚,構(gòu)建在Bagging基礎(chǔ)上集绰。RF不僅在樣本上進(jìn)行了隨機(jī)采樣, 在屬性上也進(jìn)行了隨機(jī)采樣谆棺,每個(gè)節(jié)點(diǎn)都從所有特征中選擇k個(gè)特征栽燕,在這k個(gè)特征中尋找合適的切分特征與切分點(diǎn),從而進(jìn)一步降低過(guò)擬合改淑。一般情況下碍岔,?, d是所有特征的個(gè)數(shù)。因此RF中朵夏,基模型的相關(guān)性進(jìn)一步降低了蔼啦,更好的提升了泛化能力。