Kaggle提升模型性能的超強(qiáng)殺招Stacking——機(jī)器學(xué)習(xí)模型融合

之前的文章中談到了機(jī)器學(xué)習(xí)項(xiàng)目中俏险，要想使得使得機(jī)器學(xué)習(xí)模型進(jìn)一步提升，我們必須使用到模型融合的技巧整吆，今天我們就來談?wù)勀Ｐ腿诤现斜容^常見的一種方法——stacking疹鳄。翻譯成中文叫做模型堆疊，接下來我們就來了解下篓冲，此法到底如何將模型做堆疊從而提升模型效果的李破。

stacking具體流程

我們就對(duì)著下圖（兩層的stacking）來詳細(xì)描述一下如何做模型stacking：

首先將數(shù)據(jù)分為5份，
在stacking的第一層定義5個(gè)基模型[model_1 ,model_2,model_3,model_4,model_5]壹将，其中每個(gè)模型選擇做一下5折的交叉驗(yàn)證的預(yù)測嗤攻，這樣就相當(dāng)于每個(gè)模型將所有數(shù)據(jù)預(yù)測了一遍，舉個(gè)例子诽俯，最終每一個(gè)訓(xùn)練數(shù)據(jù)會(huì)被轉(zhuǎn)換為[1,1,1,1,0]形狀妇菱，維度為5的向量。
將第一層5個(gè)基模型的輸出預(yù)測向量[1,1,1,1,0]，作為第二層模型model_6的特征做訓(xùn)練闯团，
做test時(shí)辛臊，直接將test的數(shù)據(jù)喂給之前第一層訓(xùn)練好的5個(gè)基模型，5個(gè)模型預(yù)測出的至平均后作為第二層模型的輸入偷俭。

大家可以簡單的將stacking的第一層模型理解成一個(gè)超強(qiáng)的特征轉(zhuǎn)換層浪讳。

stacking

Stacking注意事項(xiàng)

做Stacking模型融合時(shí)需要注意以下個(gè)點(diǎn)，我們拿2層stacking模型融合來舉例子：

第一層的基模型最好是強(qiáng)模型涌萤，而第二層的基模型可以放一個(gè)簡單的分類器淹遵，防止過擬合。
第一層基模型的個(gè)數(shù)不能太小负溪，因?yàn)橐粚幽Ｐ蛡€(gè)數(shù)等于第二層分類器的特征維度透揣。大家可以把勉強(qiáng)將其想象成神經(jīng)網(wǎng)絡(luò)的第一層神經(jīng)元的個(gè)數(shù)，當(dāng)然這個(gè)值也不是越多越好川抡。
第一層的基模型必須準(zhǔn)而不同"辐真，如果有一個(gè)性能很差的模型出現(xiàn)在第一層，將會(huì)嚴(yán)重影響整個(gè)模型融合的效果（筆者在實(shí)驗(yàn)過程中就遇到這樣的坑）崖堤。

通過上述的描述侍咱，大家沒有發(fā)現(xiàn)其實(shí)2層的stacking 其實(shí)和兩層的神經(jīng)網(wǎng)絡(luò)有些相像，只不過stacking將神經(jīng)網(wǎng)絡(luò)第一層的神經(jīng)元換成了強(qiáng)大的機(jī)器學(xué)習(xí)模型密幔。

實(shí)驗(yàn)部分

數(shù)據(jù)準(zhǔn)備

from sklearn.datasets import make_classification
from sklearn.model_selection import StratifiedKFold
from sklearn.model_selection import train_test_split
from sklearn.ensemble import GradientBoostingClassifier as GBDT
from sklearn.ensemble import ExtraTreesClassifier as ET
from sklearn.ensemble import RandomForestClassifier as RF
from sklearn.ensemble import AdaBoostClassifier as ADA
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_auc_score
import numpy as np
x,y = make_classification(n_samples=6000)
X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.5)

定義第一層模型

由于Stacking的第一層最后選擇比較強(qiáng)的模型楔脯，所以這里筆者選了四個(gè)本身就是集成模型的強(qiáng)模型，GBDT胯甩，RandomForest昧廷，ExtraTrees，和 Adaboost偎箫。

### 第一層模型
clfs = [ GBDT(n_estimators=100),
       RF(n_estimators=100),
       ET(n_estimators=100),
       ADA(n_estimators=100)
]
X_train_stack  = np.zeros((X_train.shape[0], len(clfs)))
X_test_stack = np.zeros((X_test.shape[0], len(clfs)))

數(shù)據(jù)輸入第一層模型木柬，輸出即將喂給第二層模型特征

6折交叉驗(yàn)證，同時(shí)通過第一層的強(qiáng)模型訓(xùn)練預(yù)測生成喂給第二層的特征數(shù)據(jù)淹办。

### 6折stacking
n_folds = 6
skf = StratifiedKFold(n_splits=n_folds, shuffle=True, random_state=1)
for i,clf in enumerate(clfs):
#     print("分類器：{}".format(clf))
    X_stack_test_n = np.zeros((X_test.shape[0], n_folds))
    for j,(train_index,test_index) in enumerate(skf.split(X_train,y_train)):
                tr_x = X_train[train_index]
                tr_y = y_train[train_index]
                clf.fit(tr_x, tr_y)
                #生成stacking訓(xùn)練數(shù)據(jù)集
                X_train_stack [test_index, i] = clf.predict_proba(X_train[test_index])[:,1]
                X_stack_test_n[:,j] = clf.predict_proba(X_test)[:,1]
    #生成stacking測試數(shù)據(jù)集
    X_test_stack[:,i] = X_stack_test_n.mean(axis=1)

用第一層模型的輸出特征眉枕，訓(xùn)練第二層模型

為了防止過擬合，第二層選擇了一個(gè)簡單的Logistics回歸模型怜森。輸出Stacking模型的auc得分齐遵。

###第二層模型LR
clf_second = LogisticRegression(solver="lbfgs")
clf_second.fit(X_train_stack,y_train)
pred = clf_second.predict_proba(X_test_stack)[:,1]
roc_auc_score(y_test,pred)#0.9946

同時(shí)筆者對(duì)比了第一層四個(gè)基模型的得分情況。

GBDT分類器性能

###GBDT分類器
clf_1 = clfs[0]
clf_1.fit(X_train,y_train)
pred_1 = clf_1.predict_proba(X_test)[:,1]
roc_auc_score(y_test,pred_1)#0.9922

隨機(jī)森林分類器性能

###隨機(jī)森林分類器
clf_2 = clfs[1]
clf_2.fit(X_train,y_train)
pred_2 = clf_2.predict_proba(X_test)[:,1]
roc_auc_score(y_test,pred_2)#0.9944

ExtraTrees分類器性能

###ExtraTrees分類器
clf_3 = clfs[2]
clf_3.fit(X_train,y_train)
pred_3 = clf_3.predict_proba(X_test)[:,1]
roc_auc_score(y_test,pred_3)#0.9930

AdaBoost分類器性能

###AdaBoost分類器
clf_4 = clfs[3]
clf_4.fit(X_train,y_train)
pred_4 = clf_4.predict_proba(X_test)[:,1]
roc_auc_score(y_test,pred_4)#0.9875

最終結(jié)果如下圖所示：其中Stacking集成模型得分最高為0.9946,而且筆者做了多次實(shí)驗(yàn)塔插，性能也比較穩(wěn)定。

實(shí)驗(yàn)結(jié)果

結(jié)語

確實(shí)Stacking集成模型后拓哟，模型的性能有了提升想许，同時(shí)筆者說說實(shí)驗(yàn)過程中遇的坑，之前的筆者在Stacking第一層放了一個(gè)Logistic回歸模型，其本身的性能就不好流纹，最終導(dǎo)致Stacking的效果反而變差糜烹，所以一定要記住，Stacking前面層的模型性能一定要強(qiáng)漱凝，還是類比神經(jīng)網(wǎng)絡(luò)疮蹦，特征提取網(wǎng)絡(luò)（NLP領(lǐng)域的：Tansformer，圖像領(lǐng)域的：Resnet）一定要強(qiáng)茸炒，這樣才能產(chǎn)生好的效果愕乎。做完整個(gè)實(shí)驗(yàn)，筆者感悟到：Stacking貌似做的還是特征轉(zhuǎn)換壁公，或者叫表示學(xué)習(xí)感论。

最后編輯于：2019.02.20 17:23:46

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市紊册，隨后出現(xiàn)的幾起案子比肄，更是在濱河造成了極大的恐慌，老刑警劉巖囊陡，帶你破解...
沈念sama閱讀 216,544評(píng)論 6贊 501
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件芳绩，死亡現(xiàn)場離奇詭異，居然都是意外死亡撞反，警方通過查閱死者的電腦和手機(jī)妥色，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,430評(píng)論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來痢畜，“玉大人垛膝，你說我怎么就攤上這事《∠。” “怎么了吼拥？”我有些...
開封第一講書人閱讀 162,764評(píng)論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長线衫。經(jīng)常有香客問我凿可，道長，這世上最難降的妖魔是什么授账？我笑而不...
開封第一講書人閱讀 58,193評(píng)論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任枯跑，我火速辦了婚禮，結(jié)果婚禮上白热，老公的妹妹穿的比我還像新娘敛助。我一直安慰自己，他們只是感情好屋确，可當(dāng)我...
茶點(diǎn)故事閱讀 67,216評(píng)論 6贊 388
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布纳击。她就那樣靜靜地躺著续扔，像睡著了一般。火紅的嫁衣襯著肌膚如雪焕数。梳的紋絲不亂的頭發(fā)上纱昧，一...
開封第一講書人閱讀 51,182評(píng)論 1贊 299
城市分裂傳說
那天，我揣著相機(jī)與錄音堡赔，去河邊找鬼识脆。笑死，一個(gè)胖子當(dāng)著我的面吹牛善已，可吹牛的內(nèi)容都是我干的灼捂。我是一名探鬼主播，決...
沈念sama閱讀 40,063評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼雕拼，長吁一口氣：“原來是場噩夢(mèng)啊……” “哼纵东！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起啥寇，我...
開封第一講書人閱讀 38,917評(píng)論 0贊 274
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤偎球，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后辑甜，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體衰絮，經(jīng)...
沈念sama閱讀 45,329評(píng)論 1贊 310
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,543評(píng)論 2贊 332
?白月光啟示錄
正文我和宋清朗相戀三年磷醋，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了猫牡。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 39,722評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡邓线，死狀恐怖淌友，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情骇陈，我是刑警寧澤震庭，帶...
沈念sama閱讀 35,425評(píng)論 5贊 343
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站你雌，受9級(jí)特大地震影響器联，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜婿崭，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,019評(píng)論 3贊 326
男人毒藥：我在死后第九天來索命
文/蒙蒙一拨拓、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧氓栈，春花似錦渣磷、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,671評(píng)論 0贊 22
一樁弒父案醋界，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽祟身。三九已至，卻和暖如春物独，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背氯葬。一陣腳步聲響...
開封第一講書人閱讀 32,825評(píng)論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工挡篓，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人帚称。一個(gè)月前我還...
沈念sama閱讀 47,729評(píng)論 2贊 368
代替公主和親
正文我出身青樓官研，卻偏偏與公主長得像，于是被迫代替她去往敵國和親闯睹。傳聞我的和親對(duì)象是個(gè)殘疾皇子戏羽，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,614評(píng)論 2贊 353