機器學習分類算法中怎樣處理非平衡數(shù)據(jù)問題 (更新中)

Abstract

非平衡數(shù)據(jù)集是一個在現(xiàn)實世界應用中經(jīng)常發(fā)現(xiàn)的一個問題烟瞧，它可能會給機器學習算法中的分類表現(xiàn)帶來嚴重的負面影響樟凄。目前有很多的嘗試來處理非平衡數(shù)據(jù)的分類蹲堂。在這篇文章中，我們同時從數(shù)據(jù)層面和算法層面給出一些已經(jīng)存在的用來解決非平衡數(shù)據(jù)問題的簡單綜述绰疤。盡管處理非平衡數(shù)據(jù)問題的一個通常的做法是通過人為的方式佩研，比如超采樣或者降采樣蓖乘，來重新平衡數(shù)據(jù)，一些研究者證實例如修改的支持向量機韧骗，基于粗糙集的面向少數(shù)類的規(guī)則學習方法嘉抒，敏感代價分類器等在非平衡數(shù)據(jù)集上面也表現(xiàn)良好。我們觀察到目前在非平衡數(shù)據(jù)問題上面的研究正趨向于使用混合算法袍暴。

關鍵詞：敏感代價學習些侍，非平衡數(shù)據(jù)集，修改的SVM政模，超采樣岗宣，降采樣

1. Introduction

如果一個數(shù)據(jù)集中某一個類別的樣本遠遠多余其他的類別，那么我們就稱這種數(shù)據(jù)為非平衡數(shù)據(jù)淋样。當數(shù)據(jù)中至少一個類別代表了訓練樣例中很少的數(shù)量（稱為少數(shù)類）耗式，而其他類別組成了大多數(shù)時，數(shù)據(jù)就會失衡趁猴。在這種狀況下刊咳，分類器能夠在多數(shù)類上面有很好的準確率，但是在少數(shù)類上準確率卻很糟糕儡司，主要是因為更大的多數(shù)類在傳統(tǒng)訓練標準上面的影響娱挨。很多原始的分類算法追求最小化錯誤率：不準確預測類別標記的百分比。他們往往忽視了不同種類的分類錯誤之間的不同捕犬。特別地跷坝，他們暗自的假定了所有的分類錯誤都有著相同的代價酵镜。

在很多現(xiàn)實世界的應用中，這種假定是不正確的柴钻。不同分類錯誤之間的差異可能是相當大的淮韭。例如，在癌癥的醫(yī)療診斷中贴届，如果我們把有癌癥視為正類別缸濒，無癌癥（健康）視為負類別，那么漏診（病人本身得了癌癥粱腻，但是卻預測其沒得，這也被稱為“假陰性”斩跌，false negtive）的代價要比誤診（假陽性绍些，false positive）嚴重得多。

病人可能失去他的生命僅僅是因為延誤了最佳的診斷和治療階段耀鸦。同樣地柬批，如果攜帶炸彈視為正類別，那么漏檢掉一個攜帶炸彈上飛機的恐怖分子要比搜查一個無辜的人代價大得多袖订。

非平衡數(shù)據(jù)問題在現(xiàn)實世界的很多應用中都有出現(xiàn)氮帐，例如文本歸類，故障監(jiān)測洛姑，欺騙檢測上沐，衛(wèi)星圖像中的油田漏油監(jiān)測，毒理學楞艾，文化建模参咙，醫(yī)療診斷等[1]。很多關于非平衡數(shù)據(jù)集的研究論文通常都認為硫眯，由于不相等的類別分配蕴侧，已經(jīng)存在的分類器的表現(xiàn)都偏向于多數(shù)類。現(xiàn)存分類算法在非平衡數(shù)據(jù)集上表現(xiàn)糟糕的原因主要有這幾點：1.它們是準確率驅(qū)動的两入，它們的目標是最小化整體的錯誤率净宵，這樣一來少數(shù)類在其中起到的作用就很小了。2.它們假設數(shù)據(jù)中所有的類別都有同等的分配裹纳。3.它們同時假設不同類別分類錯誤的代價是相同的[2]择葡。由于數(shù)據(jù)的不平衡，數(shù)據(jù)挖掘?qū)W習算法往往產(chǎn)生退化的模型剃氧，它們并沒有把少數(shù)類考慮進去刁岸，因為大多數(shù)數(shù)據(jù)挖掘算法都是假設數(shù)據(jù)是平衡的。

很多非平衡數(shù)據(jù)分類問題的解決方案之前都有人同時從數(shù)據(jù)層面和算法層面上提出過[3]她我。在數(shù)據(jù)層面虹曙，這些解決方法包括多種不同形式的重采樣迫横，例如隨機超采樣放回，隨機降采樣酝碳，直接超采樣（沒有新的樣例產(chǎn)生矾踱，但是樣例被替換的選擇是知道的，而不是隨機的）疏哗，直接降采樣（同樣樣例被去除的選擇是知道的）呛讲，新樣本迭代方式被告知的超采樣以及以上所有技術(shù)的結(jié)合。在算法層面返奉，解決方法包括調(diào)整不同類別的代價以反向的削減類別不平衡影響贝搁，調(diào)整樹的葉節(jié)點的概率評估（當使用決策樹時），調(diào)整決策閾值芽偏，基于識別（從一個類中學習）而不是基于辨別（兩種類別）的學習雷逆。

解決非平衡數(shù)據(jù)最普遍的技術(shù)包括重新調(diào)整訓練接，使用代價敏感的分類器和雪球法污尉。最近膀哲，不少在非平衡數(shù)據(jù)上有很好表現(xiàn)的方法被提出來了。這些方法包括修改的SVMs被碗，K臨近法（KNN）某宪，神經(jīng)網(wǎng)絡，遺傳編程锐朴，基于粗糙集的算法兴喂，概率決策樹和機器學習方法。下一節(jié)將介紹各種方法的細節(jié)焚志。

2. Sampling Methods

一種簡單的數(shù)據(jù)層面的平衡不同類別的方法就是對原始數(shù)據(jù)集進行重采樣瞻想，要么對少數(shù)類進行超采樣，或者對多數(shù)類進行降采樣娩嚼，直到不同類別的數(shù)據(jù)差不多是相同的為止蘑险。這兩種策略能夠被用在任何學習系統(tǒng)中，因為它們相當于是一種預處理階段岳悟，允許學習系統(tǒng)來接收訓練實例就好像他們是屬于一個已經(jīng)平衡的數(shù)據(jù)集佃迄。這樣一來，系統(tǒng)由于每一類別不同比例的訓練樣本而帶來的對于多數(shù)類的任何偏向都能夠被削減和抑制了贵少。

Hulse等人[4]提出重采樣方法的作用取決于很多的因素……（待更新）

Reference

[Journal Paper] An overview of classification algorithms for imbalanced datasets呵俏，IJETAE_0412_07
[Data Science] Learning from Imbalanced Classes，(Jupyter滔灶，Notebooks)
[Quora] In classification, how do you handle an unbalanced training set?
[Github] 不平衡數(shù)據(jù)分類(Imbalanced data classification)
[SimaFore] Predictive analytics on unbalanced data: classification performance
[Paper] Overview of classification algorithms for unbalanced data
[IEEE] Unbalanced Data Classification Using <i>extreme outlier</i> Elimination and Sampling Techniques for Fraud Detection
[Analytics Vidhya] Practical Guide to deal with Imbalanced Classification Problems in R
[推酷] 用R語言實現(xiàn)對不平衡數(shù)據(jù)的四種處理方法
[CSDN] 在分類中如何處理訓練集中不平衡問題 1 | 2
[機器之心] 從重采樣到數(shù)據(jù)合成：如何處理機器學習中的不平衡分類問題普碎？

(注：感謝您的閱讀，希望本文對您有所幫助录平。如果覺得不錯歡迎分享轉(zhuǎn)載麻车，但請先點擊這里獲取授權(quán)缀皱。本文由版權(quán)印提供保護，禁止任何形式的未授權(quán)違規(guī)轉(zhuǎn)載动猬，謝謝啤斗！)

最后編輯于：2017.12.05 06:02:21

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市赁咙，隨后出現(xiàn)的幾起案子钮莲，更是在濱河造成了極大的恐慌，老刑警劉巖彼水，帶你破解...
沈念sama閱讀 206,013評論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件崔拥，死亡現(xiàn)場離奇詭異，居然都是意外死亡凤覆，警方通過查閱死者的電腦和手機链瓦，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,205評論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來叛赚，“玉大人，你說我怎么就攤上這事稽揭“掣剑” “怎么了？”我有些...
開封第一講書人閱讀 152,370評論 0贊 342
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵溪掀，是天一觀的道長事镣。經(jīng)常有香客問我，道長揪胃，這世上最難降的妖魔是什么璃哟？我笑而不...
開封第一講書人閱讀 55,168評論 1贊 278
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮喊递，結(jié)果婚禮上随闪，老公的妹妹穿的比我還像新娘。我一直安慰自己骚勘，他們只是感情好铐伴，可當我...
茶點故事閱讀 64,153評論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著俏讹，像睡著了一般当宴。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上泽疆，一...
開封第一講書人閱讀 48,954評論 1贊 283
城市分裂傳說
那天户矢，我揣著相機與錄音，去河邊找鬼殉疼。笑死梯浪，一個胖子當著我的面吹牛捌年，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播驱证，決...
沈念sama閱讀 38,271評論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼延窜，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了抹锄？” 一聲冷哼從身側(cè)響起逆瑞，我...
開封第一講書人閱讀 36,916評論 0贊 259
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎伙单，沒想到半個月后获高，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 43,382評論 1贊 300
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡吻育，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 35,877評論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年念秧，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片布疼。...
茶點故事閱讀 37,989評論 1贊 333
活死人
序言：一個原本活蹦亂跳的男人離奇死亡摊趾，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出游两，到底是詐尸還是另有隱情砾层，我是刑警寧澤，帶...
沈念sama閱讀 33,624評論 4贊 322
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布贱案，位于F島的核電站肛炮，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏宝踪。R本人自食惡果不足惜侨糟，卻給世界環(huán)境...
茶點故事閱讀 39,209評論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望瘩燥。院中可真熱鬧秕重，春花似錦、人聲如沸厉膀。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,199評論 0贊 19
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽站蝠。三九已至汰具，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間菱魔，已是汗流浹背留荔。一陣腳步聲響...
開封第一講書人閱讀 31,418評論 1贊 260
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人聚蝶。一個月前我還...
沈念sama閱讀 45,401評論 2贊 352
代替公主和親
正文我出身青樓杰妓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親碘勉。傳聞我的和親對象是個殘疾皇子巷挥，可洞房花燭夜當晚...
茶點故事閱讀 42,700評論 2贊 345

機器學習分類算法中怎樣處理非平衡數(shù)據(jù)問題 (更新中)

Abstract

1. Introduction

2. Sampling Methods

Reference

推薦閱讀更多精彩內(nèi)容