Kaggle提升模型性能的超強(qiáng)殺招Stacking——機(jī)器學(xué)習(xí)模型融合

之前的文章中談到了機(jī)器學(xué)習(xí)項(xiàng)目中俏险,要想使得使得機(jī)器學(xué)習(xí)模型進(jìn)一步提升,我們必須使用到模型融合的技巧整吆,今天我們就來談?wù)勀P腿诤现斜容^常見的一種方法——stacking疹鳄。翻譯成中文叫做模型堆疊,接下來我們就來了解下篓冲,此法到底如何將模型做堆疊從而提升模型效果的李破。

stacking具體流程

我們就對(duì)著下圖(兩層的stacking)來詳細(xì)描述一下如何做模型stacking:

  • 首先將數(shù)據(jù)分為5份,
  • 在stacking的第一層定義5個(gè)基模型[model_1 ,model_2,model_3,model_4,model_5]壹将,其中每個(gè)模型選擇做一下5折的交叉驗(yàn)證的預(yù)測嗤攻,這樣就相當(dāng)于每個(gè)模型將所有數(shù)據(jù)預(yù)測了一遍,舉個(gè)例子诽俯,最終每一個(gè)訓(xùn)練數(shù)據(jù)會(huì)被轉(zhuǎn)換為[1,1,1,1,0]形狀妇菱,維度為5的向量。
  • 將第一層5個(gè)基模型的輸出預(yù)測向量[1,1,1,1,0],作為第二層模型model_6的特征做訓(xùn)練闯团,
  • 做test時(shí)辛臊,直接將test的數(shù)據(jù)喂給之前第一層訓(xùn)練好的5個(gè)基模型,5個(gè)模型預(yù)測出的至平均后作為第二層模型的輸入偷俭。

大家可以簡單的將stacking的第一層模型理解成一個(gè)超強(qiáng)的特征轉(zhuǎn)換層浪讳。

stacking

Stacking注意事項(xiàng)

做Stacking模型融合時(shí)需要注意以下個(gè)點(diǎn),我們拿2層stacking模型融合來舉例子:

  • 第一層的基模型最好是強(qiáng)模型涌萤,而第二層的基模型可以放一個(gè)簡單的分類器淹遵,防止過擬合。
  • 第一層基模型的個(gè)數(shù)不能太小负溪,因?yàn)橐粚幽P蛡€(gè)數(shù)等于第二層分類器的特征維度透揣。大家可以把勉強(qiáng)將其想象成神經(jīng)網(wǎng)絡(luò)的第一層神經(jīng)元的個(gè)數(shù),當(dāng)然這個(gè)值也不是越多越好川抡。
  • 第一層的基模型必須準(zhǔn)而不同"辐真,如果有一個(gè)性能很差的模型出現(xiàn)在第一層,將會(huì)嚴(yán)重影響整個(gè)模型融合的效果(筆者在實(shí)驗(yàn)過程中就遇到這樣的坑)崖堤。

通過上述的描述侍咱,大家沒有發(fā)現(xiàn)其實(shí)2層的stacking 其實(shí)和兩層的神經(jīng)網(wǎng)絡(luò)有些相像,只不過stacking將神經(jīng)網(wǎng)絡(luò)第一層的神經(jīng)元換成了強(qiáng)大的機(jī)器學(xué)習(xí)模型密幔。

實(shí)驗(yàn)部分

數(shù)據(jù)準(zhǔn)備

from sklearn.datasets import make_classification
from sklearn.model_selection import StratifiedKFold
from sklearn.model_selection import train_test_split
from sklearn.ensemble import GradientBoostingClassifier as GBDT
from sklearn.ensemble import ExtraTreesClassifier as ET
from sklearn.ensemble import RandomForestClassifier as RF
from sklearn.ensemble import AdaBoostClassifier as ADA
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_auc_score
import numpy as np
x,y = make_classification(n_samples=6000)
X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.5)

定義第一層模型

由于Stacking的第一層最后選擇比較強(qiáng)的模型楔脯,所以這里筆者選了四個(gè)本身就是集成模型的強(qiáng)模型,GBDT胯甩,RandomForest昧廷,ExtraTrees,和 Adaboost偎箫。

### 第一層模型
clfs = [ GBDT(n_estimators=100),
       RF(n_estimators=100),
       ET(n_estimators=100),
       ADA(n_estimators=100)
]
X_train_stack  = np.zeros((X_train.shape[0], len(clfs)))
X_test_stack = np.zeros((X_test.shape[0], len(clfs))) 

數(shù)據(jù)輸入第一層模型木柬,輸出即將喂給第二層模型特征

6折交叉驗(yàn)證,同時(shí)通過第一層的強(qiáng)模型訓(xùn)練預(yù)測生成喂給第二層的特征數(shù)據(jù)淹办。

### 6折stacking
n_folds = 6
skf = StratifiedKFold(n_splits=n_folds, shuffle=True, random_state=1)
for i,clf in enumerate(clfs):
#     print("分類器:{}".format(clf))
    X_stack_test_n = np.zeros((X_test.shape[0], n_folds))
    for j,(train_index,test_index) in enumerate(skf.split(X_train,y_train)):
                tr_x = X_train[train_index]
                tr_y = y_train[train_index]
                clf.fit(tr_x, tr_y)
                #生成stacking訓(xùn)練數(shù)據(jù)集
                X_train_stack [test_index, i] = clf.predict_proba(X_train[test_index])[:,1]
                X_stack_test_n[:,j] = clf.predict_proba(X_test)[:,1]
    #生成stacking測試數(shù)據(jù)集
    X_test_stack[:,i] = X_stack_test_n.mean(axis=1) 

用第一層模型的輸出特征眉枕,訓(xùn)練第二層模型

為了防止過擬合,第二層選擇了一個(gè)簡單的Logistics回歸模型怜森。輸出Stacking模型的auc得分齐遵。

###第二層模型LR
clf_second = LogisticRegression(solver="lbfgs")
clf_second.fit(X_train_stack,y_train)
pred = clf_second.predict_proba(X_test_stack)[:,1]
roc_auc_score(y_test,pred)#0.9946

同時(shí)筆者對(duì)比了第一層四個(gè)基模型的得分情況。

GBDT分類器性能

###GBDT分類器
clf_1 = clfs[0]
clf_1.fit(X_train,y_train)
pred_1 = clf_1.predict_proba(X_test)[:,1]
roc_auc_score(y_test,pred_1)#0.9922

隨機(jī)森林分類器性能

###隨機(jī)森林分類器
clf_2 = clfs[1]
clf_2.fit(X_train,y_train)
pred_2 = clf_2.predict_proba(X_test)[:,1]
roc_auc_score(y_test,pred_2)#0.9944

ExtraTrees分類器性能

###ExtraTrees分類器
clf_3 = clfs[2]
clf_3.fit(X_train,y_train)
pred_3 = clf_3.predict_proba(X_test)[:,1]
roc_auc_score(y_test,pred_3)#0.9930

AdaBoost分類器性能

###AdaBoost分類器
clf_4 = clfs[3]
clf_4.fit(X_train,y_train)
pred_4 = clf_4.predict_proba(X_test)[:,1]
roc_auc_score(y_test,pred_4)#0.9875

最終結(jié)果如下圖所示:其中Stacking集成模型得分最高為0.9946,而且筆者做了多次實(shí)驗(yàn)塔插,性能也比較穩(wěn)定。


實(shí)驗(yàn)結(jié)果

結(jié)語

確實(shí)Stacking集成模型后拓哟,模型的性能有了提升想许,同時(shí)筆者說說實(shí)驗(yàn)過程中遇的坑,之前的筆者在Stacking第一層放了一個(gè)Logistic回歸模型,其本身的性能就不好流纹,最終導(dǎo)致Stacking的效果反而變差糜烹,所以一定要記住,Stacking前面層的模型性能一定要強(qiáng)漱凝,還是類比神經(jīng)網(wǎng)絡(luò)疮蹦,特征提取網(wǎng)絡(luò)(NLP領(lǐng)域的:Tansformer,圖像領(lǐng)域的:Resnet)一定要強(qiáng)茸炒,這樣才能產(chǎn)生好的效果愕乎。做完整個(gè)實(shí)驗(yàn),筆者感悟到:Stacking貌似做的還是特征轉(zhuǎn)換壁公,或者叫表示學(xué)習(xí)感论。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市紊册,隨后出現(xiàn)的幾起案子比肄,更是在濱河造成了極大的恐慌,老刑警劉巖囊陡,帶你破解...
    沈念sama閱讀 216,544評(píng)論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件芳绩,死亡現(xiàn)場離奇詭異,居然都是意外死亡撞反,警方通過查閱死者的電腦和手機(jī)妥色,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,430評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來痢畜,“玉大人垛膝,你說我怎么就攤上這事《∠。” “怎么了吼拥?”我有些...
    開封第一講書人閱讀 162,764評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長线衫。 經(jīng)常有香客問我凿可,道長,這世上最難降的妖魔是什么授账? 我笑而不...
    開封第一講書人閱讀 58,193評(píng)論 1 292
  • 正文 為了忘掉前任枯跑,我火速辦了婚禮,結(jié)果婚禮上白热,老公的妹妹穿的比我還像新娘敛助。我一直安慰自己,他們只是感情好屋确,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,216評(píng)論 6 388
  • 文/花漫 我一把揭開白布纳击。 她就那樣靜靜地躺著续扔,像睡著了一般。 火紅的嫁衣襯著肌膚如雪焕数。 梳的紋絲不亂的頭發(fā)上纱昧,一...
    開封第一講書人閱讀 51,182評(píng)論 1 299
  • 那天,我揣著相機(jī)與錄音堡赔,去河邊找鬼识脆。 笑死,一個(gè)胖子當(dāng)著我的面吹牛善已,可吹牛的內(nèi)容都是我干的灼捂。 我是一名探鬼主播,決...
    沈念sama閱讀 40,063評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼雕拼,長吁一口氣:“原來是場噩夢(mèng)啊……” “哼纵东!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起啥寇,我...
    開封第一講書人閱讀 38,917評(píng)論 0 274
  • 序言:老撾萬榮一對(duì)情侶失蹤偎球,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后辑甜,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體衰絮,經(jīng)...
    沈念sama閱讀 45,329評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,543評(píng)論 2 332
  • 正文 我和宋清朗相戀三年磷醋,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了猫牡。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,722評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡邓线,死狀恐怖淌友,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情骇陈,我是刑警寧澤震庭,帶...
    沈念sama閱讀 35,425評(píng)論 5 343
  • 正文 年R本政府宣布,位于F島的核電站你雌,受9級(jí)特大地震影響器联,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜婿崭,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,019評(píng)論 3 326
  • 文/蒙蒙 一拨拓、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧氓栈,春花似錦渣磷、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,671評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽祟身。三九已至,卻和暖如春物独,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背氯葬。 一陣腳步聲響...
    開封第一講書人閱讀 32,825評(píng)論 1 269
  • 我被黑心中介騙來泰國打工挡篓, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人帚称。 一個(gè)月前我還...
    沈念sama閱讀 47,729評(píng)論 2 368
  • 正文 我出身青樓官研,卻偏偏與公主長得像,于是被迫代替她去往敵國和親闯睹。 傳聞我的和親對(duì)象是個(gè)殘疾皇子戏羽,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,614評(píng)論 2 353

推薦閱讀更多精彩內(nèi)容

  • [TOC] About Trs 只是閱讀過程中對(duì)其中一些進(jìn)行注腳而已,更確切的內(nèi)容還是英文原文來的清晰楼吃,有些翻譯反...
    mrlevo520閱讀 1,196評(píng)論 0 0
  • 之前有寫過兩篇關(guān)于Titanic比賽的簡書始花,這幾天上kaggle-Titanic的kernels在MostVost...
    andyham閱讀 787評(píng)論 0 2
  • 流程 觀察數(shù)據(jù),我們要對(duì)數(shù)據(jù)有所了解孩锡,可以參考簡書 特征工程以及數(shù)據(jù)清洗 介紹模型 跑模型 修改第二層模型 總結(jié) ...
    DouMarK閱讀 10,045評(píng)論 3 7
  • 1酷宵、什么是集成學(xué)習(xí) 根據(jù)維基百科的說法:在統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)中,集成學(xué)習(xí)方法使用多種學(xué)習(xí)算法來獲得比單獨(dú)使用任何單獨(dú)...
    單調(diào)不減閱讀 1,379評(píng)論 1 0
  • 2017.8.21 星期一 今天第一次享受我們兩個(gè)人在一起的上午時(shí)光躬窜,結(jié)束了繪本活動(dòng)浇垦,我們兩個(gè)都有些不習(xí)慣,沒有了...
    蝸牛小于閱讀 201評(píng)論 0 0