0-5 樣本不均衡晓褪、特征不均衡、樣本缺失三個(gè)問題

本分析基于GBDT系的算法和個(gè)人信用模型

1. 樣本不均衡(標(biāo)簽不均衡)

1.1 問題描述

假設(shè)x∈Rn综慎,y∈{0,1}涣仿。所謂樣本,就是在特征空間Rn中分布著一堆0和1寥粹。所謂樣本不均衡变过,就是整體上來說0或1其中一類占了絕大多數(shù)埃元,比如98%。

假設(shè)特征有效媚狰,正負(fù)樣本在特征空間里的分布是有差別的岛杀,比如有的空間區(qū)域正負(fù)樣本比例是1:10,而有的區(qū)域正負(fù)樣本比例是1:1000000崭孤,即特征對(duì)于樣本預(yù)測仍然有效类嗤,而模型嘗試學(xué)習(xí)的就是這個(gè)映射關(guān)系。

樣本不均衡沒有特別直接的問題辨宠,但一般會(huì)導(dǎo)致1. 模型預(yù)測值集中在其中一端(如大部分樣本是負(fù)樣本遗锣,則模型預(yù)測值總集中在0附近)2. 樹類模型進(jìn)行空間劃分的時(shí)候,更容易觸達(dá)超參限定條件

1.2 解決方案及分析

解決方案一:帶權(quán)損失函數(shù)嗤形。正樣本太少精偿,則相應(yīng)的把正樣本的帶來的損失加倍,使模型學(xué)習(xí)過程中更加重視正樣本赋兵,從而達(dá)到把預(yù)測值拉開的目的笔咽。

解決方案二:平衡采樣。把樣本喂入模型進(jìn)行學(xué)習(xí)時(shí)霹期,不按原始的正負(fù)樣本比例叶组,而是按設(shè)定比例如1:1采集batch。

兩種方案本質(zhì)上都已經(jīng)扭曲了真實(shí)分布历造。人為調(diào)整了正負(fù)樣本的真實(shí)比例甩十,是一種整體性的“標(biāo)簽入模”吭产。具體來說侣监,人為提高模型學(xué)習(xí)過程中的正樣本比例,會(huì)導(dǎo)致學(xué)到的模型做預(yù)測時(shí)垮刹,整體往1靠攏达吞。

這種扭曲導(dǎo)致的結(jié)果是,模型預(yù)測值已經(jīng)無法回歸到真實(shí)的概率值荒典,因此訓(xùn)完模型時(shí)需要進(jìn)一步做odds映射。

但這種扭曲不會(huì)影響模型的排序功能吞鸭。舉例來說:在正負(fù)樣本1:10的特征空間區(qū)域寺董,真實(shí)概率值是約0.1,由于人為拉高了正樣本占比刻剥,模型的預(yù)測值可能是0.9遮咖。而在正負(fù)樣本1:10000的區(qū)域,真實(shí)概率值是0.0001造虏,而模型預(yù)測值可能是0.2御吞。0.9已經(jīng)偏離了0.1麦箍,0.2也已經(jīng)偏離了0.0001,但0.9仍然是大于0.2的陶珠。這就是所謂的排序功能不受影響挟裂。

因此,假設(shè)我們對(duì)模型的期望是做有效排序揍诽,平衡采樣沒什么問題诀蓉。

2. 特征不均衡

2.1 特征不均衡

舉例:螞蟻借唄、微粒貸等產(chǎn)品暑脆,希望獲知用戶面對(duì)不同的利率的轉(zhuǎn)化程度渠啤。針對(duì)一個(gè)用戶,我們有他的一系列信息(用戶個(gè)人特征)添吗,我們希望有一個(gè)模型沥曹,能夠預(yù)測這個(gè)用戶在5%~25%的利率下來借款的概率分別是多少,把這個(gè)概率稱為“用戶轉(zhuǎn)化概率”碟联。

目前平臺(tái)已經(jīng)有很多歷史用戶妓美,這些用戶面臨著平臺(tái)給他提供的各種各樣的利率(平臺(tái)提供的權(quán)益類特征),他們最終也選擇了借款或者不借款(標(biāo)簽)玄帕。這就構(gòu)成了整個(gè)樣本集部脚。

但由于之前的產(chǎn)品比較固定等原因,90%以上的樣本的利率特征都是15裤纹,而只有10%的樣本利率特征是5委刘、10、20鹰椒、25等锡移。

從樣本分布的角度看,在特征空間里漆际,樣本大面積集中到利率值為15的區(qū)域淆珊,其他區(qū)域則非常少。即:在特征空間里奸汇,樣本濃度非常不均衡施符。

2.2 帶來的問題

在特征不均衡(特征空間內(nèi)樣本濃度不均衡)的原始樣本集下進(jìn)行學(xué)習(xí),會(huì)導(dǎo)致以下兩個(gè)問題:

1. 削弱了該特征的作用:繼續(xù)上個(gè)栗子擂找,利率對(duì)于用戶轉(zhuǎn)化率的影響非常大戳吝,從模型角度看即利率特征是進(jìn)行轉(zhuǎn)化率預(yù)測的強(qiáng)特征。但模型在學(xué)習(xí)該映射關(guān)系時(shí)贯涎,每次取到的batch听哭,利率特征值集中在15上面。模型基于該特征進(jìn)行節(jié)點(diǎn)劃分時(shí),會(huì)由于樣本數(shù)過少而過早終止陆盘,從而帶來較大的偏差普筹。若強(qiáng)行使用減少正則等方式,又會(huì)大概率導(dǎo)致其它特征的過擬合隘马。

2. 無法有效學(xué)習(xí)特征組合:由于濃度不均衡太防,模型學(xué)習(xí)會(huì)集中在利率15的特征空間區(qū)域。其它區(qū)域樣本過少導(dǎo)致batch里沒有或缺少其它利率值與其余特征的組合祟霍。因此模型無法對(duì)這類組合進(jìn)行有效學(xué)習(xí)杏头。

以上兩個(gè)問題導(dǎo)致模型結(jié)果變差。

2.3 解決方案 - 人為調(diào)整濃度

當(dāng)標(biāo)簽不均衡時(shí)沸呐,人為提高正樣本采樣比例醇王,本質(zhì)上屬于在整個(gè)特征空間,按照原始分布規(guī)律崭添,增加正樣本數(shù)量寓娩,其導(dǎo)致模型喪失回歸能力,但不影響排序功能。

當(dāng)特征不均衡(樣本濃度不均衡)時(shí),一個(gè)類似的想法:我們直接人為去除濃度過高的區(qū)域里的一部分樣本就可以了材义。繼續(xù)上栗:既然有90%的樣本利率特征為15劫灶,我們直接隨機(jī)干掉其中的80%逻住,只用剩下的20%的樣本進(jìn)行訓(xùn)練。

有什么影響嗎?由于該剔除是隨機(jī)的,那么該區(qū)域內(nèi)的正負(fù)樣本比例分布不會(huì)發(fā)生變化阱穗,則整個(gè)特征空間里的正負(fù)樣本比值的分布不會(huì)發(fā)生變化(絕對(duì)分布已被改動(dòng)),而我們要模型學(xué)習(xí)的預(yù)測概率與這個(gè)正負(fù)樣本比值本身也是一一對(duì)應(yīng)的使鹅。因此揪阶,貌似沒什么影響,理論上連回歸能力都不受影響患朱。美滋滋~

真是這樣嗎鲁僚?

2.4 進(jìn)一步分析

模型學(xué)習(xí)的過程就是對(duì)特征進(jìn)行一系列的節(jié)點(diǎn)劃分(類似于分箱),假設(shè)模型把利率特征的10和15分到了一個(gè)節(jié)點(diǎn)裁厅。本來兩個(gè)取值下樣本數(shù)比例是1:10冰沙,由于我們?nèi)藶檎{(diào)整了樣本濃度,樣本數(shù)比例變成了1:1执虹。假設(shè)利率=10的區(qū)域正負(fù)樣本比例是0.9倦淀,利率=15的區(qū)域正負(fù)樣本比例是0.6,在調(diào)整濃度之前声畏,由于大部分樣本屬于利率=15的區(qū)域,會(huì)把該節(jié)點(diǎn)的正負(fù)樣本比例拉到0.6附近,也就是把該節(jié)點(diǎn)的預(yù)測值回歸到0.6附近插龄,比如0.65什么的愿棋。但調(diào)整濃度時(shí)兩個(gè)區(qū)域的樣本數(shù)比例為1:1后,節(jié)點(diǎn)的預(yù)測值就會(huì)回歸到0.6和0.9的均值附近均牢,也就是0.75糠雨。基于以上分析徘跪,調(diào)整濃度后似乎會(huì)導(dǎo)致模型學(xué)到了完全不同的東西甘邀。

以上分析有什么問題嗎?有:在模型進(jìn)行了有效學(xué)習(xí)的前提下垮庐,前面加粗的這兩個(gè)假設(shè)不可能同時(shí)成立松邪。如果兩個(gè)區(qū)域的正負(fù)樣本比例相差很大,模型不可能把這兩個(gè)區(qū)域劃到同一個(gè)節(jié)點(diǎn)哨查。而如果劃到了同一個(gè)節(jié)點(diǎn)逗抑,意味著兩個(gè)區(qū)域的正負(fù)樣本比例一樣或者至少非常接近,這時(shí)候調(diào)整任何一個(gè)區(qū)域的樣本濃度寒亥,都不會(huì)影響該節(jié)點(diǎn)的最終回歸值邮府。

基于以上分析,調(diào)整樣本濃度是可行且科學(xué)的溉奕,有利于提高模型效果褂傀。

3. 樣本缺失

3.1 問題描述

基于基本的業(yè)務(wù)知識(shí),對(duì)于任何一個(gè)人加勤,有以下兩點(diǎn)描述

① 我們?yōu)樗峁┑睦试降停ㄌ卣髦唬┫杀伲麃斫桢X的概率(轉(zhuǎn)化率)越高。因此一個(gè)有效的模型對(duì)一個(gè)人做轉(zhuǎn)化率預(yù)測時(shí)胸竞,這個(gè)轉(zhuǎn)化率一定是和利率值負(fù)相關(guān)的欺嗤。

② 這個(gè)人信用越好(信用類特征在特征空間內(nèi)特定區(qū)域),則同一個(gè)利率下轉(zhuǎn)化率越低卫枝。因?yàn)闀?huì)有多個(gè)平臺(tái)為他提供同樣甚至更低的利率煎饼。

我們的特征空間若干個(gè)個(gè)人特征(如信用特征)維度,還有一個(gè)利率特征維度校赤。但我們有這些特征各種組合下的樣本嗎吆玖?并沒有。因?yàn)樵谶^往的業(yè)務(wù)中马篮,低利率(以10為例)不會(huì)開放給所有的人沾乘,而是只開放給了信用好的人(通過另一個(gè)信用評(píng)估模型或策略篩選出來的)。因此我們?nèi)鄙佟?b>信用特征較差而利率較低”這樣的樣本浑测。

這既不是在全特征空間內(nèi)樣本標(biāo)簽不均衡的問題翅阵,也不是在特定特征下樣本濃度不均衡的問題歪玲,而是在特定特征下,另一個(gè)(些)特征分布不均衡的問題掷匠。

3.1.1 一個(gè)具體的業(yè)務(wù)場景問題

我們希望轉(zhuǎn)化率模型對(duì)于一個(gè)具體的人做預(yù)測時(shí)滥崩,預(yù)測值能與利率負(fù)相關(guān)。

對(duì)于對(duì)于任何一個(gè)人來說讹语,其信用越好則轉(zhuǎn)化率越低钙皮,利率越低則轉(zhuǎn)化率越高。那么我們已有的這部分信用好且利率低的樣本顽决,其整體上的轉(zhuǎn)化比例是怎樣的呢短条?難以確定,這取決于信用策略濾掉了多大比例的信用偏差的用戶才菠。

若15茸时、20、25等較高利率開放給了大部分用戶(好壞都有)鸠儿,則這些利率下屹蚊,模型會(huì)有效學(xué)習(xí)到個(gè)人信用特征與轉(zhuǎn)化率的映射關(guān)系。

若利率為10只開放給了信用在頂端的極少數(shù)用戶进每,則樣本集中利率為10的子集里汹粤,其轉(zhuǎn)化比例很低。會(huì)導(dǎo)致:① 該利率和較差信用特征對(duì)應(yīng)的特征空間區(qū)域內(nèi)沒有(足夠)樣本田晚,因此模型學(xué)習(xí)不到該利率下不同的信用特征與轉(zhuǎn)化率的映射關(guān)系嘱兼;② 模型會(huì)直接學(xué)到“利率很低時(shí),轉(zhuǎn)化率也很低”這種錯(cuò)誤知識(shí)贤徒。

因?yàn)槟P蛯?duì)利率為10這個(gè)區(qū)域?qū)W到的知識(shí)是完全錯(cuò)誤的芹壕,也就無法保證進(jìn)行預(yù)測時(shí),其預(yù)測的轉(zhuǎn)化率與提供的利率特征是負(fù)相關(guān)的接奈。

最終問題可以描述為:如何避免由于樣本缺失導(dǎo)致的錯(cuò)誤學(xué)習(xí)踢涌,進(jìn)而保證轉(zhuǎn)化率-利率的單調(diào)負(fù)相關(guān)關(guān)系呢?

3.2 解決方法討論

利率為10只開放給了信用極好的少量用戶序宦,導(dǎo)致這個(gè)區(qū)域內(nèi)正負(fù)樣本比例(轉(zhuǎn)化比例)很低睁壁,那么我們能不能人為復(fù)制一批這個(gè)區(qū)域內(nèi)的正樣本,強(qiáng)行拉高其正負(fù)樣本比例呢互捌?

如果這樣操作潘明,模型會(huì)學(xué)習(xí)到利率為10時(shí)轉(zhuǎn)化率很高。但問題是秕噪,這個(gè)轉(zhuǎn)化率已經(jīng)完全是我們?nèi)藶樵O(shè)定的了(取決于前面的正負(fù)樣本比例)钳降。

我們可以在整個(gè)特征空間內(nèi)調(diào)整正負(fù)樣本比例供模型學(xué)習(xí),保證模型的排序能力腌巾;也可以基于某個(gè)特征在特定的空間區(qū)域隨機(jī)去除或復(fù)制部分樣本以調(diào)整濃度(對(duì)正負(fù)樣本等概率操作)遂填。但不能在特定的特征空間區(qū)域铲觉,有偏的添加或刪除某一類樣本(正或負(fù))。因?yàn)檫@已經(jīng)改變了樣本集本身所攜帶的真實(shí)規(guī)律城菊,屬于人為設(shè)定一個(gè)規(guī)律再讓模型去學(xué)習(xí)备燃,偏離了數(shù)據(jù)挖掘的本質(zhì)。

回到最初的問題:如何保證轉(zhuǎn)化率-利率的負(fù)相關(guān)關(guān)系呢凌唬?一個(gè)可能的解決方案是:直接把利率為10的這部分樣本剔除。模型擁有不同信用特征下不同利率(15,20,25,30)的樣本漏麦。在相同的信用特征下客税,模型會(huì)學(xué)習(xí)到轉(zhuǎn)化率與利率的映射關(guān)系∷赫辏基于外延擬合更耻,在進(jìn)行樣本預(yù)測時(shí),若喂入利率特征為10捏膨,模型會(huì)給出更高的轉(zhuǎn)化率預(yù)測秧均。(GBDT本身對(duì)特征空間的劃分是離散的,因此大概率會(huì)給出的結(jié)果與15是一樣的号涯,但沒什么更好的辦法了)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末目胡,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子链快,更是在濱河造成了極大的恐慌誉己,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,839評(píng)論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件域蜗,死亡現(xiàn)場離奇詭異巨双,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)霉祸,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,543評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門筑累,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人丝蹭,你說我怎么就攤上這事慢宗。” “怎么了半夷?”我有些...
    開封第一講書人閱讀 153,116評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵婆廊,是天一觀的道長。 經(jīng)常有香客問我巫橄,道長淘邻,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,371評(píng)論 1 279
  • 正文 為了忘掉前任湘换,我火速辦了婚禮宾舅,結(jié)果婚禮上统阿,老公的妹妹穿的比我還像新娘。我一直安慰自己筹我,他們只是感情好扶平,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,384評(píng)論 5 374
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著蔬蕊,像睡著了一般结澄。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上岸夯,一...
    開封第一講書人閱讀 49,111評(píng)論 1 285
  • 那天麻献,我揣著相機(jī)與錄音,去河邊找鬼猜扮。 笑死勉吻,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的旅赢。 我是一名探鬼主播齿桃,決...
    沈念sama閱讀 38,416評(píng)論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢(mèng)啊……” “哼煮盼!你這毒婦竟也來了短纵?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,053評(píng)論 0 259
  • 序言:老撾萬榮一對(duì)情侶失蹤孕似,失蹤者是張志新(化名)和其女友劉穎踩娘,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體喉祭,經(jīng)...
    沈念sama閱讀 43,558評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡养渴,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,007評(píng)論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了泛烙。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片理卑。...
    茶點(diǎn)故事閱讀 38,117評(píng)論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖蔽氨,靈堂內(nèi)的尸體忽然破棺而出藐唠,到底是詐尸還是另有隱情,我是刑警寧澤鹉究,帶...
    沈念sama閱讀 33,756評(píng)論 4 324
  • 正文 年R本政府宣布宇立,位于F島的核電站,受9級(jí)特大地震影響自赔,放射性物質(zhì)發(fā)生泄漏妈嘹。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,324評(píng)論 3 307
  • 文/蒙蒙 一绍妨、第九天 我趴在偏房一處隱蔽的房頂上張望润脸。 院中可真熱鬧柬脸,春花似錦、人聲如沸毙驯。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,315評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽爆价。三九已至垦巴,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間允坚,已是汗流浹背魂那。 一陣腳步聲響...
    開封第一講書人閱讀 31,539評(píng)論 1 262
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留稠项,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,578評(píng)論 2 355
  • 正文 我出身青樓鲜结,卻偏偏與公主長得像展运,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子精刷,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,877評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容