0-5 樣本不均衡晓褪、特征不均衡、樣本缺失三個(gè)問題

本分析基于GBDT系的算法和個(gè)人信用模型

1. 樣本不均衡（標(biāo)簽不均衡）

1.1 問題描述

假設(shè)x∈Rn综慎，y∈{0,1}涣仿。所謂樣本，就是在特征空間Rn中分布著一堆0和1寥粹。所謂樣本不均衡变过，就是整體上來說0或1其中一類占了絕大多數(shù)埃元，比如98%。

假設(shè)特征有效媚狰，正負(fù)樣本在特征空間里的分布是有差別的岛杀，比如有的空間區(qū)域正負(fù)樣本比例是1:10，而有的區(qū)域正負(fù)樣本比例是1:1000000崭孤，即特征對(duì)于樣本預(yù)測仍然有效类嗤，而模型嘗試學(xué)習(xí)的就是這個(gè)映射關(guān)系。

樣本不均衡沒有特別直接的問題辨宠，但一般會(huì)導(dǎo)致1. 模型預(yù)測值集中在其中一端（如大部分樣本是負(fù)樣本遗锣，則模型預(yù)測值總集中在0附近）2. 樹類模型進(jìn)行空間劃分的時(shí)候，更容易觸達(dá)超參限定條件

1.2 解決方案及分析

解決方案一：帶權(quán)損失函數(shù)嗤形。正樣本太少精偿，則相應(yīng)的把正樣本的帶來的損失加倍，使模型學(xué)習(xí)過程中更加重視正樣本赋兵，從而達(dá)到把預(yù)測值拉開的目的笔咽。

解決方案二：平衡采樣。把樣本喂入模型進(jìn)行學(xué)習(xí)時(shí)霹期，不按原始的正負(fù)樣本比例叶组，而是按設(shè)定比例如1:1采集batch。

兩種方案本質(zhì)上都已經(jīng)扭曲了真實(shí)分布历造。人為調(diào)整了正負(fù)樣本的真實(shí)比例甩十，是一種整體性的“標(biāo)簽入模”吭产。具體來說侣监，人為提高模型學(xué)習(xí)過程中的正樣本比例，會(huì)導(dǎo)致學(xué)到的模型做預(yù)測時(shí)垮刹，整體往1靠攏达吞。

這種扭曲導(dǎo)致的結(jié)果是，模型預(yù)測值已經(jīng)無法回歸到真實(shí)的概率值荒典，因此訓(xùn)完模型時(shí)需要進(jìn)一步做odds映射。

但這種扭曲不會(huì)影響模型的排序功能吞鸭。舉例來說：在正負(fù)樣本1:10的特征空間區(qū)域寺董，真實(shí)概率值是約0.1，由于人為拉高了正樣本占比刻剥，模型的預(yù)測值可能是0.9遮咖。而在正負(fù)樣本1:10000的區(qū)域，真實(shí)概率值是0.0001造虏，而模型預(yù)測值可能是0.2御吞。0.9已經(jīng)偏離了0.1麦箍，0.2也已經(jīng)偏離了0.0001，但0.9仍然是大于0.2的陶珠。這就是所謂的排序功能不受影響挟裂。

因此，假設(shè)我們對(duì)模型的期望是做有效排序揍诽，平衡采樣沒什么問題诀蓉。

2. 特征不均衡

2.1 特征不均衡

舉例：螞蟻借唄、微粒貸等產(chǎn)品暑脆，希望獲知用戶面對(duì)不同的利率的轉(zhuǎn)化程度渠啤。針對(duì)一個(gè)用戶，我們有他的一系列信息（用戶個(gè)人特征）添吗，我們希望有一個(gè)模型沥曹，能夠預(yù)測這個(gè)用戶在5%~25%的利率下來借款的概率分別是多少，把這個(gè)概率稱為“用戶轉(zhuǎn)化概率”碟联。

目前平臺(tái)已經(jīng)有很多歷史用戶妓美，這些用戶面臨著平臺(tái)給他提供的各種各樣的利率（平臺(tái)提供的權(quán)益類特征），他們最終也選擇了借款或者不借款（標(biāo)簽）玄帕。這就構(gòu)成了整個(gè)樣本集部脚。

但由于之前的產(chǎn)品比較固定等原因，90%以上的樣本的利率特征都是15裤纹，而只有10%的樣本利率特征是5委刘、10、20鹰椒、25等锡移。

從樣本分布的角度看，在特征空間里漆际，樣本大面積集中到利率值為15的區(qū)域淆珊，其他區(qū)域則非常少。即：在特征空間里奸汇，樣本濃度非常不均衡施符。

2.2 帶來的問題

在特征不均衡（特征空間內(nèi)樣本濃度不均衡）的原始樣本集下進(jìn)行學(xué)習(xí)，會(huì)導(dǎo)致以下兩個(gè)問題：

1. 削弱了該特征的作用：繼續(xù)上個(gè)栗子擂找，利率對(duì)于用戶轉(zhuǎn)化率的影響非常大戳吝，從模型角度看即利率特征是進(jìn)行轉(zhuǎn)化率預(yù)測的強(qiáng)特征。但模型在學(xué)習(xí)該映射關(guān)系時(shí)贯涎，每次取到的batch听哭，利率特征值集中在15上面。模型基于該特征進(jìn)行節(jié)點(diǎn)劃分時(shí)，會(huì)由于樣本數(shù)過少而過早終止陆盘，從而帶來較大的偏差普筹。若強(qiáng)行使用減少正則等方式，又會(huì)大概率導(dǎo)致其它特征的過擬合隘马。

2. 無法有效學(xué)習(xí)特征組合：由于濃度不均衡太防，模型學(xué)習(xí)會(huì)集中在利率15的特征空間區(qū)域。其它區(qū)域樣本過少導(dǎo)致batch里沒有或缺少其它利率值與其余特征的組合祟霍。因此模型無法對(duì)這類組合進(jìn)行有效學(xué)習(xí)杏头。

以上兩個(gè)問題導(dǎo)致模型結(jié)果變差。

2.3 解決方案 - 人為調(diào)整濃度

當(dāng)標(biāo)簽不均衡時(shí)沸呐，人為提高正樣本采樣比例醇王，本質(zhì)上屬于在整個(gè)特征空間，按照原始分布規(guī)律崭添，增加正樣本數(shù)量寓娩，其導(dǎo)致模型喪失回歸能力，但不影響排序功能。

當(dāng)特征不均衡（樣本濃度不均衡）時(shí)，一個(gè)類似的想法：我們直接人為去除濃度過高的區(qū)域里的一部分樣本就可以了材义。繼續(xù)上栗：既然有90%的樣本利率特征為15劫灶，我們直接隨機(jī)干掉其中的80%逻住，只用剩下的20%的樣本進(jìn)行訓(xùn)練。

有什么影響嗎？由于該剔除是隨機(jī)的，那么該區(qū)域內(nèi)的正負(fù)樣本比例分布不會(huì)發(fā)生變化阱穗，則整個(gè)特征空間里的正負(fù)樣本比值的分布不會(huì)發(fā)生變化（絕對(duì)分布已被改動(dòng)），而我們要模型學(xué)習(xí)的預(yù)測概率與這個(gè)正負(fù)樣本比值本身也是一一對(duì)應(yīng)的使鹅。因此揪阶，貌似沒什么影響，理論上連回歸能力都不受影響患朱。美滋滋~

真是這樣嗎鲁僚？

2.4 進(jìn)一步分析

模型學(xué)習(xí)的過程就是對(duì)特征進(jìn)行一系列的節(jié)點(diǎn)劃分（類似于分箱），假設(shè)模型把利率特征的10和15分到了一個(gè)節(jié)點(diǎn)裁厅。本來兩個(gè)取值下樣本數(shù)比例是1:10冰沙，由于我們?nèi)藶檎{(diào)整了樣本濃度，樣本數(shù)比例變成了1:1执虹。假設(shè)利率=10的區(qū)域正負(fù)樣本比例是0.9倦淀，利率=15的區(qū)域正負(fù)樣本比例是0.6，在調(diào)整濃度之前声畏，由于大部分樣本屬于利率=15的區(qū)域，會(huì)把該節(jié)點(diǎn)的正負(fù)樣本比例拉到0.6附近，也就是把該節(jié)點(diǎn)的預(yù)測值回歸到0.6附近插龄，比如0.65什么的愿棋。但調(diào)整濃度時(shí)兩個(gè)區(qū)域的樣本數(shù)比例為1:1后，節(jié)點(diǎn)的預(yù)測值就會(huì)回歸到0.6和0.9的均值附近均牢，也就是0.75糠雨。基于以上分析徘跪，調(diào)整濃度后似乎會(huì)導(dǎo)致模型學(xué)到了完全不同的東西甘邀。

以上分析有什么問題嗎？有：在模型進(jìn)行了有效學(xué)習(xí)的前提下垮庐，前面加粗的這兩個(gè)假設(shè)不可能同時(shí)成立松邪。如果兩個(gè)區(qū)域的正負(fù)樣本比例相差很大，模型不可能把這兩個(gè)區(qū)域劃到同一個(gè)節(jié)點(diǎn)哨查。而如果劃到了同一個(gè)節(jié)點(diǎn)逗抑，意味著兩個(gè)區(qū)域的正負(fù)樣本比例一樣或者至少非常接近，這時(shí)候調(diào)整任何一個(gè)區(qū)域的樣本濃度寒亥，都不會(huì)影響該節(jié)點(diǎn)的最終回歸值邮府。

基于以上分析，調(diào)整樣本濃度是可行且科學(xué)的溉奕，有利于提高模型效果褂傀。

3. 樣本缺失

3.1 問題描述

基于基本的業(yè)務(wù)知識(shí)，對(duì)于任何一個(gè)人加勤，有以下兩點(diǎn)描述

① 我們?yōu)樗峁┑睦试降停ㄌ卣髦唬┫杀伲麃斫桢X的概率（轉(zhuǎn)化率）越高。因此一個(gè)有效的模型對(duì)一個(gè)人做轉(zhuǎn)化率預(yù)測時(shí)胸竞，這個(gè)轉(zhuǎn)化率一定是和利率值負(fù)相關(guān)的欺嗤。

② 這個(gè)人信用越好（信用類特征在特征空間內(nèi)特定區(qū)域），則同一個(gè)利率下轉(zhuǎn)化率越低卫枝。因?yàn)闀?huì)有多個(gè)平臺(tái)為他提供同樣甚至更低的利率煎饼。

我們的特征空間若干個(gè)個(gè)人特征（如信用特征）維度，還有一個(gè)利率特征維度校赤。但我們有這些特征各種組合下的樣本嗎吆玖？并沒有。因?yàn)樵谶^往的業(yè)務(wù)中马篮，低利率（以10為例）不會(huì)開放給所有的人沾乘，而是只開放給了信用好的人（通過另一個(gè)信用評(píng)估模型或策略篩選出來的）。因此我們?nèi)鄙佟?b>信用特征較差而利率較低”這樣的樣本浑测。

這既不是在全特征空間內(nèi)樣本標(biāo)簽不均衡的問題翅阵，也不是在特定特征下樣本濃度不均衡的問題歪玲，而是在特定特征下，另一個(gè)（些）特征分布不均衡的問題掷匠。

3.1.1 一個(gè)具體的業(yè)務(wù)場景問題

我們希望轉(zhuǎn)化率模型對(duì)于一個(gè)具體的人做預(yù)測時(shí)滥崩，預(yù)測值能與利率負(fù)相關(guān)。

對(duì)于對(duì)于任何一個(gè)人來說讹语，其信用越好則轉(zhuǎn)化率越低钙皮，利率越低則轉(zhuǎn)化率越高。那么我們已有的這部分信用好且利率低的樣本顽决，其整體上的轉(zhuǎn)化比例是怎樣的呢短条？難以確定，這取決于信用策略濾掉了多大比例的信用偏差的用戶才菠。

若15茸时、20、25等較高利率開放給了大部分用戶（好壞都有）鸠儿，則這些利率下屹蚊，模型會(huì)有效學(xué)習(xí)到個(gè)人信用特征與轉(zhuǎn)化率的映射關(guān)系。

若利率為10只開放給了信用在頂端的極少數(shù)用戶进每，則樣本集中利率為10的子集里汹粤，其轉(zhuǎn)化比例很低。會(huì)導(dǎo)致：① 該利率和較差信用特征對(duì)應(yīng)的特征空間區(qū)域內(nèi)沒有（足夠）樣本田晚，因此模型學(xué)習(xí)不到該利率下不同的信用特征與轉(zhuǎn)化率的映射關(guān)系嘱兼；② 模型會(huì)直接學(xué)到“利率很低時(shí)，轉(zhuǎn)化率也很低”這種錯(cuò)誤知識(shí)贤徒。

因?yàn)槟Ｐ蛯?duì)利率為10這個(gè)區(qū)域?qū)W到的知識(shí)是完全錯(cuò)誤的芹壕，也就無法保證進(jìn)行預(yù)測時(shí)，其預(yù)測的轉(zhuǎn)化率與提供的利率特征是負(fù)相關(guān)的接奈。

最終問題可以描述為：如何避免由于樣本缺失導(dǎo)致的錯(cuò)誤學(xué)習(xí)踢涌，進(jìn)而保證轉(zhuǎn)化率-利率的單調(diào)負(fù)相關(guān)關(guān)系呢？

3.2 解決方法討論

利率為10只開放給了信用極好的少量用戶序宦，導(dǎo)致這個(gè)區(qū)域內(nèi)正負(fù)樣本比例（轉(zhuǎn)化比例）很低睁壁，那么我們能不能人為復(fù)制一批這個(gè)區(qū)域內(nèi)的正樣本，強(qiáng)行拉高其正負(fù)樣本比例呢互捌？

如果這樣操作潘明，模型會(huì)學(xué)習(xí)到利率為10時(shí)轉(zhuǎn)化率很高。但問題是秕噪，這個(gè)轉(zhuǎn)化率已經(jīng)完全是我們?nèi)藶樵O(shè)定的了（取決于前面的正負(fù)樣本比例）钳降。

我們可以在整個(gè)特征空間內(nèi)調(diào)整正負(fù)樣本比例供模型學(xué)習(xí)，保證模型的排序能力腌巾；也可以基于某個(gè)特征在特定的空間區(qū)域隨機(jī)去除或復(fù)制部分樣本以調(diào)整濃度（對(duì)正負(fù)樣本等概率操作）遂填。但不能在特定的特征空間區(qū)域铲觉，有偏的添加或刪除某一類樣本（正或負(fù)）。因?yàn)檫@已經(jīng)改變了樣本集本身所攜帶的真實(shí)規(guī)律城菊，屬于人為設(shè)定一個(gè)規(guī)律再讓模型去學(xué)習(xí)备燃，偏離了數(shù)據(jù)挖掘的本質(zhì)。

回到最初的問題：如何保證轉(zhuǎn)化率-利率的負(fù)相關(guān)關(guān)系呢凌唬？一個(gè)可能的解決方案是：直接把利率為10的這部分樣本剔除。模型擁有不同信用特征下不同利率(15,20,25,30)的樣本漏麦。在相同的信用特征下客税，模型會(huì)學(xué)習(xí)到轉(zhuǎn)化率與利率的映射關(guān)系∷赫辏基于外延擬合更耻，在進(jìn)行樣本預(yù)測時(shí)，若喂入利率特征為10捏膨，模型會(huì)給出更高的轉(zhuǎn)化率預(yù)測秧均。（GBDT本身對(duì)特征空間的劃分是離散的，因此大概率會(huì)給出的結(jié)果與15是一樣的号涯，但沒什么更好的辦法了）

最后編輯于：2022.03.07 19:03:40

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末目胡，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子链快，更是在濱河造成了極大的恐慌誉己，老刑警劉巖，帶你破解...
沈念sama閱讀 206,839評(píng)論 6贊 482
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件域蜗，死亡現(xiàn)場離奇詭異巨双，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)霉祸，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,543評(píng)論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門筑累，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人丝蹭，你說我怎么就攤上這事慢宗。” “怎么了半夷？”我有些...
開封第一講書人閱讀 153,116評(píng)論 0贊 344
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵婆廊，是天一觀的道長。經(jīng)常有香客問我巫橄，道長淘邻，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 55,371評(píng)論 1贊 279
?港島之戀（遺憾婚禮）
正文為了忘掉前任湘换，我火速辦了婚禮宾舅，結(jié)果婚禮上统阿，老公的妹妹穿的比我還像新娘。我一直安慰自己筹我，他們只是感情好扶平，可當(dāng)我...
茶點(diǎn)故事閱讀 64,384評(píng)論 5贊 374
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著蔬蕊，像睡著了一般结澄。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上岸夯，一...
開封第一講書人閱讀 49,111評(píng)論 1贊 285
城市分裂傳說
那天麻献，我揣著相機(jī)與錄音，去河邊找鬼猜扮。笑死勉吻，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的旅赢。我是一名探鬼主播齿桃，決...
沈念sama閱讀 38,416評(píng)論 3贊 400
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢(mèng)啊……” “哼煮盼！你這毒婦竟也來了短纵？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 37,053評(píng)論 0贊 259
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤孕似，失蹤者是張志新（化名）和其女友劉穎踩娘，沒想到半個(gè)月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體喉祭，經(jīng)...
沈念sama閱讀 43,558評(píng)論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡养渴，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 36,007評(píng)論 2贊 325
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了泛烙。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片理卑。...
茶點(diǎn)故事閱讀 38,117評(píng)論 1贊 334
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖蔽氨，靈堂內(nèi)的尸體忽然破棺而出藐唠，到底是詐尸還是另有隱情，我是刑警寧澤鹉究，帶...
沈念sama閱讀 33,756評(píng)論 4贊 324
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布宇立，位于F島的核電站，受9級(jí)特大地震影響自赔，放射性物質(zhì)發(fā)生泄漏妈嘹。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,324評(píng)論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一绍妨、第九天我趴在偏房一處隱蔽的房頂上張望润脸。院中可真熱鬧柬脸，春花似錦、人聲如沸毙驯。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,315評(píng)論 0贊 19
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽爆价。三九已至垦巴，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間允坚，已是汗流浹背魂那。一陣腳步聲響...
開封第一講書人閱讀 31,539評(píng)論 1贊 262
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留稠项，地道東北人。一個(gè)月前我還...
沈念sama閱讀 45,578評(píng)論 2贊 355
代替公主和親
正文我出身青樓鲜结，卻偏偏與公主長得像展运，于是被迫代替她去往敵國和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子精刷，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,877評(píng)論 2贊 345

0-5 樣本不均衡、特征不均衡旨椒、樣本缺失三個(gè)問題