本分析基于GBDT系的算法和個(gè)人信用模型
1. 樣本不均衡(標(biāo)簽不均衡)
1.1 問題描述
假設(shè)x∈Rn综慎,y∈{0,1}涣仿。所謂樣本,就是在特征空間Rn中分布著一堆0和1寥粹。所謂樣本不均衡变过,就是整體上來說0或1其中一類占了絕大多數(shù)埃元,比如98%。
假設(shè)特征有效媚狰,正負(fù)樣本在特征空間里的分布是有差別的岛杀,比如有的空間區(qū)域正負(fù)樣本比例是1:10,而有的區(qū)域正負(fù)樣本比例是1:1000000崭孤,即特征對(duì)于樣本預(yù)測仍然有效类嗤,而模型嘗試學(xué)習(xí)的就是這個(gè)映射關(guān)系。
樣本不均衡沒有特別直接的問題辨宠,但一般會(huì)導(dǎo)致1. 模型預(yù)測值集中在其中一端(如大部分樣本是負(fù)樣本遗锣,則模型預(yù)測值總集中在0附近)2. 樹類模型進(jìn)行空間劃分的時(shí)候,更容易觸達(dá)超參限定條件
1.2 解決方案及分析
解決方案一:帶權(quán)損失函數(shù)嗤形。正樣本太少精偿,則相應(yīng)的把正樣本的帶來的損失加倍,使模型學(xué)習(xí)過程中更加重視正樣本赋兵,從而達(dá)到把預(yù)測值拉開的目的笔咽。
解決方案二:平衡采樣。把樣本喂入模型進(jìn)行學(xué)習(xí)時(shí)霹期,不按原始的正負(fù)樣本比例叶组,而是按設(shè)定比例如1:1采集batch。
兩種方案本質(zhì)上都已經(jīng)扭曲了真實(shí)分布历造。人為調(diào)整了正負(fù)樣本的真實(shí)比例甩十,是一種整體性的“標(biāo)簽入模”吭产。具體來說侣监,人為提高模型學(xué)習(xí)過程中的正樣本比例,會(huì)導(dǎo)致學(xué)到的模型做預(yù)測時(shí)垮刹,整體往1靠攏达吞。
這種扭曲導(dǎo)致的結(jié)果是,模型預(yù)測值已經(jīng)無法回歸到真實(shí)的概率值荒典,因此訓(xùn)完模型時(shí)需要進(jìn)一步做odds映射。
但這種扭曲不會(huì)影響模型的排序功能吞鸭。舉例來說:在正負(fù)樣本1:10的特征空間區(qū)域寺董,真實(shí)概率值是約0.1,由于人為拉高了正樣本占比刻剥,模型的預(yù)測值可能是0.9遮咖。而在正負(fù)樣本1:10000的區(qū)域,真實(shí)概率值是0.0001造虏,而模型預(yù)測值可能是0.2御吞。0.9已經(jīng)偏離了0.1麦箍,0.2也已經(jīng)偏離了0.0001,但0.9仍然是大于0.2的陶珠。這就是所謂的排序功能不受影響挟裂。
因此,假設(shè)我們對(duì)模型的期望是做有效排序揍诽,平衡采樣沒什么問題诀蓉。
2. 特征不均衡
2.1 特征不均衡
舉例:螞蟻借唄、微粒貸等產(chǎn)品暑脆,希望獲知用戶面對(duì)不同的利率的轉(zhuǎn)化程度渠啤。針對(duì)一個(gè)用戶,我們有他的一系列信息(用戶個(gè)人特征)添吗,我們希望有一個(gè)模型沥曹,能夠預(yù)測這個(gè)用戶在5%~25%的利率下來借款的概率分別是多少,把這個(gè)概率稱為“用戶轉(zhuǎn)化概率”碟联。
目前平臺(tái)已經(jīng)有很多歷史用戶妓美,這些用戶面臨著平臺(tái)給他提供的各種各樣的利率(平臺(tái)提供的權(quán)益類特征),他們最終也選擇了借款或者不借款(標(biāo)簽)玄帕。這就構(gòu)成了整個(gè)樣本集部脚。
但由于之前的產(chǎn)品比較固定等原因,90%以上的樣本的利率特征都是15裤纹,而只有10%的樣本利率特征是5委刘、10、20鹰椒、25等锡移。
從樣本分布的角度看,在特征空間里漆际,樣本大面積集中到利率值為15的區(qū)域淆珊,其他區(qū)域則非常少。即:在特征空間里奸汇,樣本濃度非常不均衡施符。
2.2 帶來的問題
在特征不均衡(特征空間內(nèi)樣本濃度不均衡)的原始樣本集下進(jìn)行學(xué)習(xí),會(huì)導(dǎo)致以下兩個(gè)問題:
1. 削弱了該特征的作用:繼續(xù)上個(gè)栗子擂找,利率對(duì)于用戶轉(zhuǎn)化率的影響非常大戳吝,從模型角度看即利率特征是進(jìn)行轉(zhuǎn)化率預(yù)測的強(qiáng)特征。但模型在學(xué)習(xí)該映射關(guān)系時(shí)贯涎,每次取到的batch听哭,利率特征值集中在15上面。模型基于該特征進(jìn)行節(jié)點(diǎn)劃分時(shí),會(huì)由于樣本數(shù)過少而過早終止陆盘,從而帶來較大的偏差普筹。若強(qiáng)行使用減少正則等方式,又會(huì)大概率導(dǎo)致其它特征的過擬合隘马。
2. 無法有效學(xué)習(xí)特征組合:由于濃度不均衡太防,模型學(xué)習(xí)會(huì)集中在利率15的特征空間區(qū)域。其它區(qū)域樣本過少導(dǎo)致batch里沒有或缺少其它利率值與其余特征的組合祟霍。因此模型無法對(duì)這類組合進(jìn)行有效學(xué)習(xí)杏头。
以上兩個(gè)問題導(dǎo)致模型結(jié)果變差。
2.3 解決方案 - 人為調(diào)整濃度
當(dāng)標(biāo)簽不均衡時(shí)沸呐,人為提高正樣本采樣比例醇王,本質(zhì)上屬于在整個(gè)特征空間,按照原始分布規(guī)律崭添,增加正樣本數(shù)量寓娩,其導(dǎo)致模型喪失回歸能力,但不影響排序功能。
當(dāng)特征不均衡(樣本濃度不均衡)時(shí),一個(gè)類似的想法:我們直接人為去除濃度過高的區(qū)域里的一部分樣本就可以了材义。繼續(xù)上栗:既然有90%的樣本利率特征為15劫灶,我們直接隨機(jī)干掉其中的80%逻住,只用剩下的20%的樣本進(jìn)行訓(xùn)練。
有什么影響嗎?由于該剔除是隨機(jī)的,那么該區(qū)域內(nèi)的正負(fù)樣本比例分布不會(huì)發(fā)生變化阱穗,則整個(gè)特征空間里的正負(fù)樣本比值的分布不會(huì)發(fā)生變化(絕對(duì)分布已被改動(dòng)),而我們要模型學(xué)習(xí)的預(yù)測概率與這個(gè)正負(fù)樣本比值本身也是一一對(duì)應(yīng)的使鹅。因此揪阶,貌似沒什么影響,理論上連回歸能力都不受影響患朱。美滋滋~
真是這樣嗎鲁僚?
2.4 進(jìn)一步分析
模型學(xué)習(xí)的過程就是對(duì)特征進(jìn)行一系列的節(jié)點(diǎn)劃分(類似于分箱),假設(shè)模型把利率特征的10和15分到了一個(gè)節(jié)點(diǎn)裁厅。本來兩個(gè)取值下樣本數(shù)比例是1:10冰沙,由于我們?nèi)藶檎{(diào)整了樣本濃度,樣本數(shù)比例變成了1:1执虹。假設(shè)利率=10的區(qū)域正負(fù)樣本比例是0.9倦淀,利率=15的區(qū)域正負(fù)樣本比例是0.6,在調(diào)整濃度之前声畏,由于大部分樣本屬于利率=15的區(qū)域,會(huì)把該節(jié)點(diǎn)的正負(fù)樣本比例拉到0.6附近,也就是把該節(jié)點(diǎn)的預(yù)測值回歸到0.6附近插龄,比如0.65什么的愿棋。但調(diào)整濃度時(shí)兩個(gè)區(qū)域的樣本數(shù)比例為1:1后,節(jié)點(diǎn)的預(yù)測值就會(huì)回歸到0.6和0.9的均值附近均牢,也就是0.75糠雨。基于以上分析徘跪,調(diào)整濃度后似乎會(huì)導(dǎo)致模型學(xué)到了完全不同的東西甘邀。
以上分析有什么問題嗎?有:在模型進(jìn)行了有效學(xué)習(xí)的前提下垮庐,前面加粗的這兩個(gè)假設(shè)不可能同時(shí)成立松邪。如果兩個(gè)區(qū)域的正負(fù)樣本比例相差很大,模型不可能把這兩個(gè)區(qū)域劃到同一個(gè)節(jié)點(diǎn)哨查。而如果劃到了同一個(gè)節(jié)點(diǎn)逗抑,意味著兩個(gè)區(qū)域的正負(fù)樣本比例一樣或者至少非常接近,這時(shí)候調(diào)整任何一個(gè)區(qū)域的樣本濃度寒亥,都不會(huì)影響該節(jié)點(diǎn)的最終回歸值邮府。
基于以上分析,調(diào)整樣本濃度是可行且科學(xué)的溉奕,有利于提高模型效果褂傀。
3. 樣本缺失
3.1 問題描述
基于基本的業(yè)務(wù)知識(shí),對(duì)于任何一個(gè)人加勤,有以下兩點(diǎn)描述
① 我們?yōu)樗峁┑睦试降停ㄌ卣髦唬┫杀伲麃斫桢X的概率(轉(zhuǎn)化率)越高。因此一個(gè)有效的模型對(duì)一個(gè)人做轉(zhuǎn)化率預(yù)測時(shí)胸竞,這個(gè)轉(zhuǎn)化率一定是和利率值負(fù)相關(guān)的欺嗤。
② 這個(gè)人信用越好(信用類特征在特征空間內(nèi)特定區(qū)域),則同一個(gè)利率下轉(zhuǎn)化率越低卫枝。因?yàn)闀?huì)有多個(gè)平臺(tái)為他提供同樣甚至更低的利率煎饼。
我們的特征空間若干個(gè)個(gè)人特征(如信用特征)維度,還有一個(gè)利率特征維度校赤。但我們有這些特征各種組合下的樣本嗎吆玖?并沒有。因?yàn)樵谶^往的業(yè)務(wù)中马篮,低利率(以10為例)不會(huì)開放給所有的人沾乘,而是只開放給了信用好的人(通過另一個(gè)信用評(píng)估模型或策略篩選出來的)。因此我們?nèi)鄙佟?b>信用特征較差而利率較低”這樣的樣本浑测。
這既不是在全特征空間內(nèi)樣本標(biāo)簽不均衡的問題翅阵,也不是在特定特征下樣本濃度不均衡的問題歪玲,而是在特定特征下,另一個(gè)(些)特征分布不均衡的問題掷匠。
3.1.1 一個(gè)具體的業(yè)務(wù)場景問題
我們希望轉(zhuǎn)化率模型對(duì)于一個(gè)具體的人做預(yù)測時(shí)滥崩,預(yù)測值能與利率負(fù)相關(guān)。
對(duì)于對(duì)于任何一個(gè)人來說讹语,其信用越好則轉(zhuǎn)化率越低钙皮,利率越低則轉(zhuǎn)化率越高。那么我們已有的這部分信用好且利率低的樣本顽决,其整體上的轉(zhuǎn)化比例是怎樣的呢短条?難以確定,這取決于信用策略濾掉了多大比例的信用偏差的用戶才菠。
若15茸时、20、25等較高利率開放給了大部分用戶(好壞都有)鸠儿,則這些利率下屹蚊,模型會(huì)有效學(xué)習(xí)到個(gè)人信用特征與轉(zhuǎn)化率的映射關(guān)系。
若利率為10只開放給了信用在頂端的極少數(shù)用戶进每,則樣本集中利率為10的子集里汹粤,其轉(zhuǎn)化比例很低。會(huì)導(dǎo)致:① 該利率和較差信用特征對(duì)應(yīng)的特征空間區(qū)域內(nèi)沒有(足夠)樣本田晚,因此模型學(xué)習(xí)不到該利率下不同的信用特征與轉(zhuǎn)化率的映射關(guān)系嘱兼;② 模型會(huì)直接學(xué)到“利率很低時(shí),轉(zhuǎn)化率也很低”這種錯(cuò)誤知識(shí)贤徒。
因?yàn)槟P蛯?duì)利率為10這個(gè)區(qū)域?qū)W到的知識(shí)是完全錯(cuò)誤的芹壕,也就無法保證進(jìn)行預(yù)測時(shí),其預(yù)測的轉(zhuǎn)化率與提供的利率特征是負(fù)相關(guān)的接奈。
最終問題可以描述為:如何避免由于樣本缺失導(dǎo)致的錯(cuò)誤學(xué)習(xí)踢涌,進(jìn)而保證轉(zhuǎn)化率-利率的單調(diào)負(fù)相關(guān)關(guān)系呢?
3.2 解決方法討論
利率為10只開放給了信用極好的少量用戶序宦,導(dǎo)致這個(gè)區(qū)域內(nèi)正負(fù)樣本比例(轉(zhuǎn)化比例)很低睁壁,那么我們能不能人為復(fù)制一批這個(gè)區(qū)域內(nèi)的正樣本,強(qiáng)行拉高其正負(fù)樣本比例呢互捌?
如果這樣操作潘明,模型會(huì)學(xué)習(xí)到利率為10時(shí)轉(zhuǎn)化率很高。但問題是秕噪,這個(gè)轉(zhuǎn)化率已經(jīng)完全是我們?nèi)藶樵O(shè)定的了(取決于前面的正負(fù)樣本比例)钳降。
我們可以在整個(gè)特征空間內(nèi)調(diào)整正負(fù)樣本比例供模型學(xué)習(xí),保證模型的排序能力腌巾;也可以基于某個(gè)特征在特定的空間區(qū)域隨機(jī)去除或復(fù)制部分樣本以調(diào)整濃度(對(duì)正負(fù)樣本等概率操作)遂填。但不能在特定的特征空間區(qū)域铲觉,有偏的添加或刪除某一類樣本(正或負(fù))。因?yàn)檫@已經(jīng)改變了樣本集本身所攜帶的真實(shí)規(guī)律城菊,屬于人為設(shè)定一個(gè)規(guī)律再讓模型去學(xué)習(xí)备燃,偏離了數(shù)據(jù)挖掘的本質(zhì)。
回到最初的問題:如何保證轉(zhuǎn)化率-利率的負(fù)相關(guān)關(guān)系呢凌唬?一個(gè)可能的解決方案是:直接把利率為10的這部分樣本剔除。模型擁有不同信用特征下不同利率(15,20,25,30)的樣本漏麦。在相同的信用特征下客税,模型會(huì)學(xué)習(xí)到轉(zhuǎn)化率與利率的映射關(guān)系∷赫辏基于外延擬合更耻,在進(jìn)行樣本預(yù)測時(shí),若喂入利率特征為10捏膨,模型會(huì)給出更高的轉(zhuǎn)化率預(yù)測秧均。(GBDT本身對(duì)特征空間的劃分是離散的,因此大概率會(huì)給出的結(jié)果與15是一樣的号涯,但沒什么更好的辦法了)