搭建金融信貸風(fēng)控中的機(jī)器學(xué)習(xí)模型-(9)集成模型

? ? ? ? 在包括違約預(yù)測在內(nèi)的諸多場景中庸诱,越來越多的建模人員應(yīng)用集成模型取得了不錯(cuò)的成效闷堡。典型的集成方式包括bagging,boosting和stacking镀梭。

1.集成模型

把多種單一模型組合取來共同解決一個(gè)問題
必要性

  • 能夠?yàn)轱L(fēng)控模型提供更為廣闊的發(fā)展空間
  • 能夠?yàn)轱L(fēng)險(xiǎn)評(píng)估的準(zhǔn)確性虹茶、穩(wěn)健性最優(yōu)選擇問題給出答案
  • 提高風(fēng)控模型的效率
    image.png

    理想情況下組合模型誤差分析
    考慮二分類問題y\in {-1,1}和真實(shí)函數(shù)f逝薪,假定元模型的錯(cuò)誤率為\epsilon,每個(gè)元模型h_i都有P(h_i(x)\neq f(x))=\epsilon写烤,如果使用簡單投票法翼闽,即超過半數(shù)的元模型的投票結(jié)果作為最后的結(jié)果,則有:H(x)=sign(\sum_{i=1}^Th_i(x))
    ,在\epsilon獨(dú)立的前提下洲炊,有P(H(x)\neq f(x))=\sum_{k=0}^{|T/2|}\binom{T}{k}(1-\epsilon)^k\epsilon^{T-K}\leq exp(-\frac{1}{2}T(1-2\epsilon)^2)
    從上式看出:
    1.元模型的誤差越大感局,集成模型的誤差越小暂衡;
    2.當(dāng)元模型的誤差小于0.5時(shí)询微,集成模型的元模型個(gè)數(shù)越多,集成模型效果越好狂巢。
    元模型的選擇:
    根據(jù)元模型之間的種類關(guān)系可以把集成模型劃分為異態(tài)集成和同態(tài)集成撑毛;只用不同種類的分類、回歸算法建立單一模型并進(jìn)行集成唧领,成為異態(tài)集成藻雌;使用同一算法建立單一模型并集成,稱為同態(tài)集成斩个。
    單一模型需要滿足以下基本要求:
  • 單一模型之間的數(shù)據(jù)或者假設(shè)要求基本相同
  • 單一模型的分類錯(cuò)誤率要低于0.5
  • 單一模型要保證相互獨(dú)立
  • 單一模型的復(fù)雜度要適度
  • 單一模型的數(shù)量要適度

2.Bagging

Bagging的代表是隨機(jī)森林模型胯杭,這種集成方式的步驟是:

隨機(jī)森林構(gòu)建步驟

? ? ? ? 在Bagging集成中,需要從原訓(xùn)練集中有放回地抽取數(shù)據(jù)形成新的訓(xùn)練集受啥,在此基礎(chǔ)上構(gòu)造元模型做个。假設(shè)原訓(xùn)練集有M個(gè)樣本,則每次需要從中有放回地抽取M次滚局。由于每次抽樣是隨機(jī)的居暖,因此每條數(shù)據(jù)被抽取到的概率為,每次沒有被抽取到的概率為藤肢,M次都沒有被抽取到的概率為太闺,由于,沒有被抽取到的數(shù)據(jù)組成的子集稱為袋外數(shù)據(jù)(out of bag,OOB)嘁圈,可以用作驗(yàn)證集跟束。此外莺奸,利用Bagging的方式集成模型,中間不同元模型的構(gòu)建可以并行完成冀宴。

3.Boosting

? ? ? ? Boosting是另一種常見的集成方式灭贷,其基本思想是,根據(jù)當(dāng)前得到的模型的錯(cuò)誤率(或者其他與損失相關(guān)的量略贮,例如損失函數(shù))對(duì)樣本進(jìn)行調(diào)整甚疟,再構(gòu)建下一個(gè)模型,最終將所有模型的結(jié)果進(jìn)行加權(quán)逃延。由此可見览妖,與Bagging不同的是,Boosting中訓(xùn)練元模型是串行生成的揽祥。之前介紹的GBDT和XGBoost模型就是其中一類讽膏,此外根據(jù)代表性的Adaboost模型,其表達(dá)式為:
F_M(x;P)=\sum_{i=1}^n\beta_ih_i(x;\alpha_i)拄丰,其中h_i(x;\alpha_i)為若干個(gè)元模型,\beta_i為元模型權(quán)重,\alpha_i為元模型的參數(shù)府树,P為所有參數(shù)集合。
基本思路

Adaboost基本思路

Adaboost訓(xùn)練步驟

權(quán)重求解1

權(quán)重求解2

4.Stacking

? ? ? ?
image.png

image.png
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末料按,一起剝皮案震驚了整個(gè)濱河市奄侠,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌载矿,老刑警劉巖垄潮,帶你破解...
    沈念sama閱讀 219,366評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異闷盔,居然都是意外死亡弯洗,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,521評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門逢勾,熙熙樓的掌柜王于貴愁眉苦臉地迎上來涂召,“玉大人,你說我怎么就攤上這事敏沉。” “怎么了炎码?”我有些...
    開封第一講書人閱讀 165,689評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵盟迟,是天一觀的道長。 經(jīng)常有香客問我潦闲,道長攒菠,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,925評(píng)論 1 295
  • 正文 為了忘掉前任歉闰,我火速辦了婚禮辖众,結(jié)果婚禮上卓起,老公的妹妹穿的比我還像新娘。我一直安慰自己凹炸,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,942評(píng)論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著彭羹,像睡著了一般工扎。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上变骡,一...
    開封第一講書人閱讀 51,727評(píng)論 1 305
  • 那天离赫,我揣著相機(jī)與錄音,去河邊找鬼塌碌。 笑死渊胸,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的台妆。 我是一名探鬼主播翎猛,決...
    沈念sama閱讀 40,447評(píng)論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢(mèng)啊……” “哼频丘!你這毒婦竟也來了办成?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,349評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤搂漠,失蹤者是張志新(化名)和其女友劉穎迂卢,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體桐汤,經(jīng)...
    沈念sama閱讀 45,820評(píng)論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡而克,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,990評(píng)論 3 337
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了怔毛。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片员萍。...
    茶點(diǎn)故事閱讀 40,127評(píng)論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖拣度,靈堂內(nèi)的尸體忽然破棺而出碎绎,到底是詐尸還是另有隱情,我是刑警寧澤抗果,帶...
    沈念sama閱讀 35,812評(píng)論 5 346
  • 正文 年R本政府宣布筋帖,位于F島的核電站,受9級(jí)特大地震影響冤馏,放射性物質(zhì)發(fā)生泄漏日麸。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,471評(píng)論 3 331
  • 文/蒙蒙 一逮光、第九天 我趴在偏房一處隱蔽的房頂上張望代箭。 院中可真熱鬧墩划,春花似錦、人聲如沸嗡综。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,017評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽蛤高。三九已至蚣旱,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間戴陡,已是汗流浹背塞绿。 一陣腳步聲響...
    開封第一講書人閱讀 33,142評(píng)論 1 272
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留恤批,地道東北人异吻。 一個(gè)月前我還...
    沈念sama閱讀 48,388評(píng)論 3 373
  • 正文 我出身青樓,卻偏偏與公主長得像喜庞,于是被迫代替她去往敵國和親诀浪。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,066評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容