不平衡數(shù)據(jù)-SMOTE綜述【SMOTE合成采樣系列】

cover

引言

在機(jī)器學(xué)習(xí)中舞吭,使用常用算法進(jìn)行分類時(shí)蛋辈,如:邏輯回歸倘是、決策樹囱修、支持向量機(jī)跛梗、隨機(jī)森林等关串,都假設(shè)數(shù)據(jù)集是平衡的训枢,即:不同類別的數(shù)據(jù)在數(shù)量和質(zhì)量上都是同等的再膳。

然而腮考,真實(shí)世界中大多數(shù)數(shù)據(jù)并不滿足該要求雇毫,如:銀行信用系統(tǒng)中,不守信用的客戶是少數(shù)踩蔚;又如:疾病診斷系統(tǒng)中棚放,診斷為陽性的也是少數(shù)。倘若直接使用不平衡數(shù)據(jù)集并使用常用算法構(gòu)建模型進(jìn)行分類馅闽,結(jié)果是不理想的飘蚯。

因此,解決不平衡數(shù)據(jù)帶來的分類問題成了機(jī)器學(xué)習(xí)中的熱點(diǎn)問題福也。

其常用解決方法大致可以分為三類:
(1)特征選擇法局骤;
(2)數(shù)據(jù)分布調(diào)整;
(3)模型訓(xùn)練算法調(diào)整暴凑。
特征選擇法峦甩,即:突出少數(shù)類的特征,從而提高算法對少數(shù)類的識別率现喳。
數(shù)據(jù)分布調(diào)整凯傲,即:使用欠采樣、過采樣嗦篱、合成采樣等方法調(diào)整使得少數(shù)類與多數(shù)類在數(shù)量和質(zhì)量上同等冰单,該方法可用于數(shù)據(jù)預(yù)處理階段。
模型訓(xùn)練算法調(diào)整灸促,即:改進(jìn)算法本身诫欠,加強(qiáng)算法對少數(shù)類的學(xué)習(xí)能力涵卵,從而提升少數(shù)類的識別率。

本文使用第二種方法呕诉,即:數(shù)據(jù)分布調(diào)整缘厢,主要介紹SMOTE合成采樣及其變種算法。
在下篇文章中甩挫,我將使用 python 帶你寫一遍 SMOTE 源碼贴硫。

通過閱讀本文,你可以了解:
(1)SMOTE 是什么伊者?
(2)SMOTE 的原理英遭?
(3)SMOTE 的改進(jìn)算法有哪些?

好啦亦渗,我們開始吧挖诸。


娘口三三喲,開始吧.gif

SMOTE 是什么

SMOTE法精,根據(jù) SMOTE 原文:Synthetic Minority Over-sampling Technique(合成少數(shù)類樣本的過采樣技術(shù))多律,很多人把它歸類于過采樣,我個(gè)人更喜歡稱它為合成采樣(怎么稱呼都隨便搂蜓,各有所愛啦)

SMOTE 是一種合成采樣技術(shù)狼荞,即從少數(shù)類樣本出發(fā),找到鄰近樣本帮碰,合成新的少數(shù)類樣本相味,使少數(shù)類樣本數(shù)與多數(shù)類樣本數(shù)保持一致。

在 SMOTE 合成采樣技術(shù)問世之前殉挽,過采樣技術(shù)基本是通過復(fù)制樣本來增加樣本數(shù)量(如:隨機(jī)過采樣技術(shù))丰涉。然而,通過簡單的樣本復(fù)制僅僅增加了樣本數(shù)量斯碌,而不能提升樣本質(zhì)量一死,數(shù)據(jù)依舊是不平衡的,因此输拇,分類器只能重復(fù)學(xué)習(xí)同樣的特征摘符,對分類性能的提升是很有限的。
SMOTE 則通過合成新樣本的方法策吠,算法可以從更多新樣本中學(xué)習(xí)到更有利于少數(shù)類分類的內(nèi)容逛裤,因此,SMOTE 一經(jīng)問世就很火熱猴抹,至今成了過采樣的經(jīng)典算法带族。

SMOTE 的原理

對于合成樣本,考慮的問題是:
(1)如何合成蟀给;
(2)合成多少蝙砌。
SMOTE 如何合成新樣本:
很簡單阳堕,
就是對所有少數(shù)類樣本使用 k 近鄰尋找鄰近樣本,然后進(jìn)行直線隨機(jī)插值择克,實(shí)現(xiàn)樣本的合成恬总。
其中,插值的位置是隨機(jī)的肚邢,每個(gè)樣本點(diǎn)插值的數(shù)量是均等的(多余的隨機(jī)刪掉)壹堰。
具體插值過程如下圖所示:

SMOTE 合成過程

圖中設(shè)置 k 近鄰中的 k=4,X1為少數(shù)類樣本點(diǎn)骡湖,它找到了 X11,X12,X13,X14贱纠,這四個(gè)近鄰樣本點(diǎn),在X1與X11之間的插值中响蕴,diff 是兩樣本點(diǎn)的距離谆焊,新生成的樣本點(diǎn) r1 在連接的直線上,gap 是 X1 到 X11 之間隨機(jī)距離浦夷。
通過公式: r1 = X1 + gap * diff 生成樣本辖试。

這就是 SMOTE 合成樣本的過程。

針對于合成多少樣本合適劈狐,主要還是需要依賴數(shù)據(jù)本身剃执,不過,一般情況下都是1:1的方式合成樣本最好懈息,因?yàn)閿?shù)據(jù)越平衡,其分類效果越好摹恰。

SMOTE 的改進(jìn)算法

與之前隨機(jī)過采樣相比辫继,SMOTE 合成樣本更好,但同時(shí) SMOTE 也存在一些不足俗慈,于是產(chǎn)生了很多改進(jìn)算法姑宽。
其改進(jìn)算法基本可以分為以下幾類:
(1)在樣本初始選擇方面改進(jìn):
主要針對初始樣本選擇方面,SMOTE 選擇了所有少數(shù)類樣本作為插值的候選樣本闺阱,但并不是所有少數(shù)類樣本都適合插值炮车,這種改進(jìn)主要是針對噪聲問題的,例如下圖所示:

產(chǎn)生噪聲點(diǎn)

如上圖所示酣溃,SMOTE 可能會(huì)根據(jù)噪聲點(diǎn)來插值瘦穆,從而形成更多的噪聲點(diǎn)。

這方面的改進(jìn)比較有名的就是:Borderline-SMOTE 了赊豌。
該算法將少數(shù)類樣本點(diǎn)分為:安全點(diǎn)扛或、邊緣點(diǎn)和危險(xiǎn)點(diǎn),三類碘饼,并且僅對邊緣點(diǎn)進(jìn)行插值熙兔,因?yàn)樽髡哒J(rèn)為悲伶,邊緣點(diǎn)在分類中作用更大,突出邊緣點(diǎn)更有利于分類住涉。

(2)與欠采樣結(jié)合:
這種就很容易理解了麸锉,即:使用 SMOTE 合成更多少數(shù)類樣本,結(jié)合對多數(shù)類的欠采樣舆声。

(3)插值類型的改進(jìn):
SMOTE 的插值很簡單花沉,使用的是隨機(jī)線性插值法,因此具有盲目性纳寂,新生成樣本不一定能精準(zhǔn)的在合適的位置上主穗。
其改進(jìn)算法有,通過限制插值范圍來改進(jìn)插值的盲目性問題毙芜;或者使用特征加權(quán)來生成新樣本忽媒;或者基于聚類來插值;或者基于圖論來插值腋粥;或者基于分布插值晦雨。等等。
這些改進(jìn)的插值技術(shù)隘冲,都是從插值類型出發(fā)來提高生成樣本的質(zhì)量闹瞧。

(4)與特征選擇或降維相結(jié)合:
先對樣本集進(jìn)行特征選擇或降維操作,然后在新維度空間中使用 SMOTE 生成樣本展辞。例如:先進(jìn)行 PCA奥邮,然后再使用 SMOTE 生成樣本。
這種主要針對高維數(shù)據(jù)罗珍,通過降維后生成的樣本更具有代表性洽腺。

(5)自適應(yīng)生成樣本:
該方法的原理是:通過學(xué)習(xí)難度自動(dòng)調(diào)節(jié)樣本權(quán)值來生成樣本。使用該方法較為經(jīng)典的算法有:ADASYN覆旱。
由于蘸朋,目前沒單獨(dú)了解該算法,就不深入探討了扣唱,請見諒藕坯。

(6)篩選出有噪聲的樣本:
主要針對 SMOTE 合成樣本具有生成重疊樣本和噪聲樣本的問題,使用某種噪聲過濾技術(shù)噪沙,篩選出噪聲樣本炼彪,生成高質(zhì)量的樣本∏簦可使用很多策略來過濾噪聲霹购,例如:使用貪婪濾波策略、基于集成技術(shù)的過濾策略朋腋、基于進(jìn)化的過濾策略等等齐疙。

從以上改進(jìn)算法可以看出膜楷,SMOTE 的發(fā)展已經(jīng)很成熟了,改進(jìn)算法也挺全面的贞奋。所以赌厅,可以安全使用,謹(jǐn)慎改進(jìn)轿塔。

嘿嘿

我終于寫完了特愿,謝謝你看完了。
下篇文章勾缭,我將詳細(xì)講解 SMOTE 源碼揍障。

參考文獻(xiàn)

[1]SMOTE: Synthetic Minority Over-sampling Technique.
[2]Borderline-SMOTE: A New Over-Sampling Method in Imbalanced Data Sets Learning.
[3]SMOTE for Learning from Imbalanced Data: Progress and Challenges, Marking the 15-year Anniversary.

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市俩由,隨后出現(xiàn)的幾起案子毒嫡,更是在濱河造成了極大的恐慌,老刑警劉巖幻梯,帶你破解...
    沈念sama閱讀 211,123評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件兜畸,死亡現(xiàn)場離奇詭異,居然都是意外死亡碘梢,警方通過查閱死者的電腦和手機(jī)咬摇,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,031評論 2 384
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來煞躬,“玉大人肛鹏,你說我怎么就攤上這事《髋妫” “怎么了龄坪?”我有些...
    開封第一講書人閱讀 156,723評論 0 345
  • 文/不壞的土叔 我叫張陵,是天一觀的道長复唤。 經(jīng)常有香客問我,道長烛卧,這世上最難降的妖魔是什么佛纫? 我笑而不...
    開封第一講書人閱讀 56,357評論 1 283
  • 正文 為了忘掉前任,我火速辦了婚禮总放,結(jié)果婚禮上呈宇,老公的妹妹穿的比我還像新娘。我一直安慰自己局雄,他們只是感情好甥啄,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,412評論 5 384
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著炬搭,像睡著了一般蜈漓。 火紅的嫁衣襯著肌膚如雪穆桂。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,760評論 1 289
  • 那天融虽,我揣著相機(jī)與錄音享完,去河邊找鬼。 笑死有额,一個(gè)胖子當(dāng)著我的面吹牛般又,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播巍佑,決...
    沈念sama閱讀 38,904評論 3 405
  • 文/蒼蘭香墨 我猛地睜開眼茴迁,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了萤衰?” 一聲冷哼從身側(cè)響起堕义,我...
    開封第一講書人閱讀 37,672評論 0 266
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎腻菇,沒想到半個(gè)月后胳螟,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,118評論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡筹吐,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,456評論 2 325
  • 正文 我和宋清朗相戀三年糖耸,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片丘薛。...
    茶點(diǎn)故事閱讀 38,599評論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡嘉竟,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出洋侨,到底是詐尸還是另有隱情舍扰,我是刑警寧澤,帶...
    沈念sama閱讀 34,264評論 4 328
  • 正文 年R本政府宣布希坚,位于F島的核電站边苹,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏裁僧。R本人自食惡果不足惜个束,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,857評論 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望聊疲。 院中可真熱鬧茬底,春花似錦、人聲如沸获洲。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,731評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至最爬,卻和暖如春涉馁,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背烂叔。 一陣腳步聲響...
    開封第一講書人閱讀 31,956評論 1 264
  • 我被黑心中介騙來泰國打工谨胞, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人蒜鸡。 一個(gè)月前我還...
    沈念sama閱讀 46,286評論 2 360
  • 正文 我出身青樓胯努,卻偏偏與公主長得像,于是被迫代替她去往敵國和親逢防。 傳聞我的和親對象是個(gè)殘疾皇子叶沛,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,465評論 2 348