Abstract
非平衡數(shù)據(jù)集是一個在現(xiàn)實世界應用中經(jīng)常發(fā)現(xiàn)的一個問題烟瞧,它可能會給機器學習算法中的分類表現(xiàn)帶來嚴重的負面影響樟凄。目前有很多的嘗試來處理非平衡數(shù)據(jù)的分類蹲堂。在這篇文章中,我們同時從數(shù)據(jù)層面和算法層面給出一些已經(jīng)存在的用來解決非平衡數(shù)據(jù)問題的簡單綜述绰疤。盡管處理非平衡數(shù)據(jù)問題的一個通常的做法是通過人為的方式佩研,比如超采樣或者降采樣蓖乘,來重新平衡數(shù)據(jù),一些研究者證實例如修改的支持向量機韧骗,基于粗糙集的面向少數(shù)類的規(guī)則學習方法嘉抒,敏感代價分類器等在非平衡數(shù)據(jù)集上面也表現(xiàn)良好。我們觀察到目前在非平衡數(shù)據(jù)問題上面的研究正趨向于使用混合算法袍暴。
關鍵詞:敏感代價學習些侍,非平衡數(shù)據(jù)集,修改的SVM政模,超采樣岗宣,降采樣
1. Introduction
如果一個數(shù)據(jù)集中某一個類別的樣本遠遠多余其他的類別,那么我們就稱這種數(shù)據(jù)為非平衡數(shù)據(jù)淋样。當數(shù)據(jù)中至少一個類別代表了訓練樣例中很少的數(shù)量(稱為少數(shù)類)耗式,而其他類別組成了大多數(shù)時,數(shù)據(jù)就會失衡趁猴。在這種狀況下刊咳,分類器能夠在多數(shù)類上面有很好的準確率,但是在少數(shù)類上準確率卻很糟糕儡司,主要是因為更大的多數(shù)類在傳統(tǒng)訓練標準上面的影響娱挨。很多原始的分類算法追求最小化錯誤率:不準確預測類別標記的百分比。他們往往忽視了不同種類的分類錯誤之間的不同捕犬。特別地跷坝,他們暗自的假定了所有的分類錯誤都有著相同的代價酵镜。
在很多現(xiàn)實世界的應用中,這種假定是不正確的柴钻。不同分類錯誤之間的差異可能是相當大的淮韭。例如,在癌癥的醫(yī)療診斷中贴届,如果我們把有癌癥視為正類別缸濒,無癌癥(健康)視為負類別,那么漏診(病人本身得了癌癥粱腻,但是卻預測其沒得,這也被稱為“假陰性”斩跌,false negtive)的代價要比誤診(假陽性绍些,false positive)嚴重得多。
病人可能失去他的生命僅僅是因為延誤了最佳的診斷和治療階段耀鸦。同樣地柬批,如果攜帶炸彈視為正類別,那么漏檢掉一個攜帶炸彈上飛機的恐怖分子要比搜查一個無辜的人代價大得多袖订。
非平衡數(shù)據(jù)問題在現(xiàn)實世界的很多應用中都有出現(xiàn)氮帐,例如文本歸類,故障監(jiān)測洛姑,欺騙檢測上沐,衛(wèi)星圖像中的油田漏油監(jiān)測,毒理學楞艾,文化建模参咙,醫(yī)療診斷等[1]。很多關于非平衡數(shù)據(jù)集的研究論文通常都認為硫眯,由于不相等的類別分配蕴侧,已經(jīng)存在的分類器的表現(xiàn)都偏向于多數(shù)類。現(xiàn)存分類算法在非平衡數(shù)據(jù)集上表現(xiàn)糟糕的原因主要有這幾點:1.它們是準確率驅(qū)動的两入,它們的目標是最小化整體的錯誤率净宵,這樣一來少數(shù)類在其中起到的作用就很小了。2.它們假設數(shù)據(jù)中所有的類別都有同等的分配裹纳。3.它們同時假設不同類別分類錯誤的代價是相同的[2]择葡。由于數(shù)據(jù)的不平衡,數(shù)據(jù)挖掘?qū)W習算法往往產(chǎn)生退化的模型剃氧,它們并沒有把少數(shù)類考慮進去刁岸,因為大多數(shù)數(shù)據(jù)挖掘算法都是假設數(shù)據(jù)是平衡的。
很多非平衡數(shù)據(jù)分類問題的解決方案之前都有人同時從數(shù)據(jù)層面和算法層面上提出過[3]她我。在數(shù)據(jù)層面虹曙,這些解決方法包括多種不同形式的重采樣迫横,例如隨機超采樣放回,隨機降采樣酝碳,直接超采樣(沒有新的樣例產(chǎn)生矾踱,但是樣例被替換的選擇是知道的,而不是隨機的)疏哗,直接降采樣(同樣樣例被去除的選擇是知道的)呛讲,新樣本迭代方式被告知的超采樣以及以上所有技術(shù)的結(jié)合。在算法層面返奉,解決方法包括調(diào)整不同類別的代價以反向的削減類別不平衡影響贝搁,調(diào)整樹的葉節(jié)點的概率評估(當使用決策樹時),調(diào)整決策閾值芽偏,基于識別(從一個類中學習)而不是基于辨別(兩種類別)的學習雷逆。
解決非平衡數(shù)據(jù)最普遍的技術(shù)包括重新調(diào)整訓練接,使用代價敏感的分類器和雪球法污尉。最近膀哲,不少在非平衡數(shù)據(jù)上有很好表現(xiàn)的方法被提出來了。這些方法包括修改的SVMs被碗,K臨近法(KNN)某宪,神經(jīng)網(wǎng)絡,遺傳編程锐朴,基于粗糙集的算法兴喂,概率決策樹和機器學習方法。下一節(jié)將介紹各種方法的細節(jié)焚志。
2. Sampling Methods
一種簡單的數(shù)據(jù)層面的平衡不同類別的方法就是對原始數(shù)據(jù)集進行重采樣瞻想,要么對少數(shù)類進行超采樣,或者對多數(shù)類進行降采樣娩嚼,直到不同類別的數(shù)據(jù)差不多是相同的為止蘑险。這兩種策略能夠被用在任何學習系統(tǒng)中,因為它們相當于是一種預處理階段岳悟,允許學習系統(tǒng)來接收訓練實例就好像他們是屬于一個已經(jīng)平衡的數(shù)據(jù)集佃迄。這樣一來,系統(tǒng)由于每一類別不同比例的訓練樣本而帶來的對于多數(shù)類的任何偏向都能夠被削減和抑制了贵少。
Hulse等人[4]提出重采樣方法的作用取決于很多的因素……(待更新)
Reference
- [Journal Paper] An overview of classification algorithms for imbalanced datasets呵俏,IJETAE_0412_07
- [Data Science] Learning from Imbalanced Classes,(Jupyter滔灶,Notebooks)
- [Quora] In classification, how do you handle an unbalanced training set?
- [Github] 不平衡數(shù)據(jù)分類(Imbalanced data classification)
- [SimaFore] Predictive analytics on unbalanced data: classification performance
- [Paper] Overview of classification algorithms for unbalanced data
- [IEEE] Unbalanced Data Classification Using <i>extreme outlier</i> Elimination and Sampling Techniques for Fraud Detection
- [Analytics Vidhya] Practical Guide to deal with Imbalanced Classification Problems in R
- [推酷] 用R語言實現(xiàn)對不平衡數(shù)據(jù)的四種處理方法
- [CSDN] 在分類中如何處理訓練集中不平衡問題 1 | 2
- [機器之心] 從重采樣到數(shù)據(jù)合成:如何處理機器學習中的不平衡分類問題普碎?
(注:感謝您的閱讀,希望本文對您有所幫助录平。如果覺得不錯歡迎分享轉(zhuǎn)載麻车,但請先點擊 這里 獲取授權(quán)缀皱。本文由 版權(quán)印 提供保護,禁止任何形式的未授權(quán)違規(guī)轉(zhuǎn)載动猬,謝謝啤斗!)