關(guān)于imbalanced data

處理不均衡數(shù)據(jù)粹断,有如下幾種方式:

1. 選擇對不均衡數(shù)據(jù)比較友好的metrics(比如f1, roc瓶埋、auc):

關(guān)于metrics有如下幾種:

1)accuracy?

? accuracy = (TP+TN)/(TP+FP+TN+FN)

" accuracy是最常見也是最基本的evaluation metric。但在binary classification 且正反例不平衡的情況下养筒,尤其是我們對minority class 更感興趣的時候,accuracy評價基本沒有參考價值挤悉。什么fraud detection(欺詐檢測)巫湘,癌癥檢測,都符合這種情況诀诊。例如:

在測試集里阅嘶,有100個sample,99個反例奠涌,只有1個正例磷杏。如果我的模型不分青紅皂白對任意一個sample都預(yù)測是反例捏卓,那么我的模型的accuracy是 正確的個數(shù)/總個數(shù) = 99/100 = 99%

這個屬于很不友好的了。


2) precision & recall & F1?

? ? ? precision = TP/(TP+FP)? ? ? ?recall = TP/(TP+FN)

這兩者處于trade-off的關(guān)系

F1 =?2*precision*recall / (precision + recall)

F1 score均衡了precision和recall遥金,是個還行的選擇把蒜田。


3) ROC&AUC

跟ROC息息相關(guān)的兩個變量sensitivity和speciality

sensitivity = recall = true positive rate

specificity = 1- false positive rate


roc曲線

上圖是A冲粤、B兩個不同分類器的roc曲線页眯,沒給定一個分類器的判定閾值厢呵,就能產(chǎn)生一個(fpr,tpr)點(diǎn),roc曲線就是把這些點(diǎn)連起來碌奉。

曲線下的面積叫auc, 面積越大分類越好寒砖。

對于不均衡數(shù)據(jù)roc, auc是個不錯的選擇。

2. 重抽樣

1) 隨機(jī)欠抽樣:

隨機(jī)刪除多數(shù)類的數(shù)據(jù)

會帶來潛在有效信息被刪除的問題魁兼。欠抽樣選擇的數(shù)據(jù)可能是偏差樣本茅逮,無法準(zhǔn)確代表總體。因此献雅,會導(dǎo)致在測試集中表現(xiàn)欠佳挺身。


2)隨機(jī)過抽樣:

隨機(jī)復(fù)制少數(shù)類的實(shí)例來增加少數(shù)類的數(shù)量

一般來說,過抽樣表現(xiàn)好于欠抽樣章钾。然而,由于過抽樣復(fù)制了多遍少數(shù)類數(shù)據(jù)惨撇,導(dǎo)致過擬合(over-fitting)的可能性變大府寒。


3) 基于聚類的過抽樣

基于聚類的過抽樣是將k-means聚類算法分別應(yīng)用在少數(shù)類和多數(shù)類中,識別出數(shù)據(jù)集中不同簇(cluster)剖淀。隨后纤房,通過對每個簇過抽樣來確保多數(shù)類和少數(shù)類的簇中實(shí)例的數(shù)目相等。

這也會導(dǎo)致過擬合捌刮。


4)?合成少數(shù)類過抽樣(SMOTE)

SMOTE避免了復(fù)制少數(shù)類導(dǎo)致的過擬合問題。用少數(shù)類的子集來創(chuàng)造新的合成的相似少數(shù)類實(shí)例糊啡。將這些合成的實(shí)例加入原有數(shù)據(jù)集棚蓄,豐富少數(shù)類的數(shù)據(jù)。

設(shè)訓(xùn)練集的一個少數(shù)類的樣本數(shù)為?T 梭依,那么SMOTE算法將為這個少數(shù)類合成?NT 個新樣本。這里要求?NN?必須是正整數(shù)糊探,如果給定的?N<1 那么算法將“認(rèn)為”少數(shù)類的樣本數(shù)?T=NT 河闰,并將強(qiáng)制?N=1 。

考慮該少數(shù)類的一個樣本?i瞪慧,其特征向量為?xi,i∈{1,...,T} :

1. 首先從該少數(shù)類的全部 T?個樣本中找到樣本 xi?的?k 個近鄰(例如用歐氏距離)部念,記為?xi(near),near∈{1,...,k};

2. 然后從這?k 個近鄰中隨機(jī)選擇一個樣本?xi(nn) 妓湘,再生成一個?0 到?1 之間的隨機(jī)數(shù)?ζ1?乌询,從而合成一個新樣本?xi1:

xi1=xi+ζ1?(xi(nn)?xi)

3. 將步驟2重復(fù)進(jìn)行?N 次,從而可以合成?NN個新樣本:xinew,new∈1,...,N竣灌。

那么秆麸,對全部的?T 個少數(shù)類樣本進(jìn)行上述操作及汉,便可為該少數(shù)類合成?NT個新樣本。

如果樣本的特征維數(shù)是?2 維房铭,那么每個樣本都可以用二維平面上的一個點(diǎn)來表示。SMOTE算法所合成出的一個新樣本 xi1?相當(dāng)于是表示樣本?xi 的點(diǎn)和表示樣本?xi(nn)的點(diǎn)之間所連線段上的一個點(diǎn)翁狐。所以說該算法是基于“插值”來合成新樣本凌蔬。

這種方法通過合成新數(shù)據(jù)緩解了由于復(fù)制少數(shù)類帶來的過擬合問題,同時不會造成有效信息丟失懈词。然而辩诞,當(dāng)合成新實(shí)例時,沒有考慮與其他類的相鄰實(shí)例抠忘,這可能會導(dǎo)致種類重疊外永,并且可能會添入額外的噪點(diǎn)。


3. 改進(jìn)分類算法

基于bagging或者boosting

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末荧嵌,一起剝皮案震驚了整個濱河市砾淌,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌赃春,老刑警劉巖劫乱,帶你破解...
    沈念sama閱讀 218,546評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異狭吼,居然都是意外死亡殖妇,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,224評論 3 395
  • 文/潘曉璐 我一進(jìn)店門疲吸,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人峭梳,你說我怎么就攤上這事蹂喻。” “怎么了挫以?”我有些...
    開封第一講書人閱讀 164,911評論 0 354
  • 文/不壞的土叔 我叫張陵掐松,是天一觀的道長粪小。 經(jīng)常有香客問我,道長探膊,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,737評論 1 294
  • 正文 為了忘掉前任流济,我火速辦了婚禮绳瘟,結(jié)果婚禮上姿骏,老公的妹妹穿的比我還像新娘。我一直安慰自己分瘦,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,753評論 6 392
  • 文/花漫 我一把揭開白布悦施。 她就那樣靜靜地躺著去团,像睡著了一般拜马。 火紅的嫁衣襯著肌膚如雪沐绒。 梳的紋絲不亂的頭發(fā)上乔遮,一...
    開封第一講書人閱讀 51,598評論 1 305
  • 那天取刃,我揣著相機(jī)與錄音,去河邊找鬼坯辩。 笑死崩侠,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的改抡。 我是一名探鬼主播系瓢,決...
    沈念sama閱讀 40,338評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼欠拾!你這毒婦竟也來了骗绕?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,249評論 0 276
  • 序言:老撾萬榮一對情侶失蹤枷邪,失蹤者是張志新(化名)和其女友劉穎诺凡,沒想到半個月后腹泌,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體嘶卧,經(jīng)...
    沈念sama閱讀 45,696評論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡芥吟,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,888評論 3 336
  • 正文 我和宋清朗相戀三年钟鸵,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片棺耍。...
    茶點(diǎn)故事閱讀 40,013評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡蒙袍,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出消恍,到底是詐尸還是另有隱情以现,我是刑警寧澤,帶...
    沈念sama閱讀 35,731評論 5 346
  • 正文 年R本政府宣布取董,位于F島的核電站无宿,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏孽鸡。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,348評論 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望巷疼。 院中可真熱鬧,春花似錦估盘、人聲如沸骡尽。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,929評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至境钟,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間吆豹,已是汗流浹背理盆。 一陣腳步聲響...
    開封第一講書人閱讀 33,048評論 1 270
  • 我被黑心中介騙來泰國打工猿规, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留宙橱,地道東北人。 一個月前我還...
    沈念sama閱讀 48,203評論 3 370
  • 正文 我出身青樓环葵,卻偏偏與公主長得像宝冕,于是被迫代替她去往敵國和親张遭。 傳聞我的和親對象是個殘疾皇子地梨,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,960評論 2 355

推薦閱讀更多精彩內(nèi)容