不平衡數(shù)據(jù)-SMOTE綜述【SMOTE合成采樣系列】

cover

引言

在機(jī)器學(xué)習(xí)中舞吭，使用常用算法進(jìn)行分類時(shí)蛋辈，如：邏輯回歸倘是、決策樹囱修、支持向量機(jī)跛梗、隨機(jī)森林等关串，都假設(shè)數(shù)據(jù)集是平衡的训枢，即：不同類別的數(shù)據(jù)在數(shù)量和質(zhì)量上都是同等的再膳。

然而腮考，真實(shí)世界中大多數(shù)數(shù)據(jù)并不滿足該要求雇毫，如：銀行信用系統(tǒng)中，不守信用的客戶是少數(shù)踩蔚；又如：疾病診斷系統(tǒng)中棚放，診斷為陽性的也是少數(shù)。倘若直接使用不平衡數(shù)據(jù)集并使用常用算法構(gòu)建模型進(jìn)行分類馅闽，結(jié)果是不理想的飘蚯。

因此，解決不平衡數(shù)據(jù)帶來的分類問題成了機(jī)器學(xué)習(xí)中的熱點(diǎn)問題福也。

其常用解決方法大致可以分為三類：
（1）特征選擇法局骤；
（2）數(shù)據(jù)分布調(diào)整；
（3）模型訓(xùn)練算法調(diào)整暴凑。
特征選擇法峦甩，即：突出少數(shù)類的特征，從而提高算法對少數(shù)類的識別率现喳。
數(shù)據(jù)分布調(diào)整凯傲，即：使用欠采樣、過采樣嗦篱、合成采樣等方法調(diào)整使得少數(shù)類與多數(shù)類在數(shù)量和質(zhì)量上同等冰单，該方法可用于數(shù)據(jù)預(yù)處理階段。
模型訓(xùn)練算法調(diào)整灸促，即：改進(jìn)算法本身诫欠，加強(qiáng)算法對少數(shù)類的學(xué)習(xí)能力涵卵，從而提升少數(shù)類的識別率。

本文使用第二種方法呕诉，即：數(shù)據(jù)分布調(diào)整缘厢，主要介紹SMOTE合成采樣及其變種算法。
在下篇文章中甩挫，我將使用 python 帶你寫一遍 SMOTE 源碼贴硫。

通過閱讀本文，你可以了解：
（1）SMOTE 是什么伊者？
（2）SMOTE 的原理英遭？
（3）SMOTE 的改進(jìn)算法有哪些？

好啦亦渗，我們開始吧挖诸。

娘口三三喲，開始吧.gif

SMOTE 是什么

SMOTE法精，根據(jù) SMOTE 原文：Synthetic Minority Over-sampling Technique（合成少數(shù)類樣本的過采樣技術(shù)）多律，很多人把它歸類于過采樣，我個(gè)人更喜歡稱它為合成采樣（怎么稱呼都隨便搂蜓，各有所愛啦）

SMOTE 是一種合成采樣技術(shù)狼荞，即從少數(shù)類樣本出發(fā)，找到鄰近樣本帮碰，合成新的少數(shù)類樣本相味，使少數(shù)類樣本數(shù)與多數(shù)類樣本數(shù)保持一致。

在 SMOTE 合成采樣技術(shù)問世之前殉挽，過采樣技術(shù)基本是通過復(fù)制樣本來增加樣本數(shù)量（如：隨機(jī)過采樣技術(shù)）丰涉。然而，通過簡單的樣本復(fù)制僅僅增加了樣本數(shù)量斯碌，而不能提升樣本質(zhì)量一死，數(shù)據(jù)依舊是不平衡的，因此输拇，分類器只能重復(fù)學(xué)習(xí)同樣的特征摘符，對分類性能的提升是很有限的。
SMOTE 則通過合成新樣本的方法策吠，算法可以從更多新樣本中學(xué)習(xí)到更有利于少數(shù)類分類的內(nèi)容逛裤，因此，SMOTE 一經(jīng)問世就很火熱猴抹，至今成了過采樣的經(jīng)典算法带族。

SMOTE 的原理

對于合成樣本，考慮的問題是：
（1）如何合成蟀给；
（2）合成多少蝙砌。
SMOTE 如何合成新樣本：
很簡單阳堕，
就是對所有少數(shù)類樣本使用 k 近鄰尋找鄰近樣本，然后進(jìn)行直線隨機(jī)插值择克，實(shí)現(xiàn)樣本的合成恬总。
其中，插值的位置是隨機(jī)的肚邢，每個(gè)樣本點(diǎn)插值的數(shù)量是均等的（多余的隨機(jī)刪掉）壹堰。
具體插值過程如下圖所示：

SMOTE 合成過程

圖中設(shè)置 k 近鄰中的 k=4，X1為少數(shù)類樣本點(diǎn)骡湖，它找到了 X11,X12,X13,X14贱纠，這四個(gè)近鄰樣本點(diǎn)，在X1與X11之間的插值中响蕴，diff 是兩樣本點(diǎn)的距離谆焊，新生成的樣本點(diǎn) r1 在連接的直線上，gap 是 X1 到 X11 之間隨機(jī)距離浦夷。
通過公式： r1 = X1 + gap * diff 生成樣本辖试。

這就是 SMOTE 合成樣本的過程。

針對于合成多少樣本合適劈狐，主要還是需要依賴數(shù)據(jù)本身剃执，不過，一般情況下都是1:1的方式合成樣本最好懈息，因?yàn)閿?shù)據(jù)越平衡，其分類效果越好摹恰。

SMOTE 的改進(jìn)算法

與之前隨機(jī)過采樣相比辫继，SMOTE 合成樣本更好，但同時(shí) SMOTE 也存在一些不足俗慈，于是產(chǎn)生了很多改進(jìn)算法姑宽。
其改進(jìn)算法基本可以分為以下幾類：
（1）在樣本初始選擇方面改進(jìn)：
主要針對初始樣本選擇方面，SMOTE 選擇了所有少數(shù)類樣本作為插值的候選樣本闺阱，但并不是所有少數(shù)類樣本都適合插值炮车，這種改進(jìn)主要是針對噪聲問題的，例如下圖所示：

產(chǎn)生噪聲點(diǎn)

如上圖所示酣溃，SMOTE 可能會(huì)根據(jù)噪聲點(diǎn)來插值瘦穆，從而形成更多的噪聲點(diǎn)。

這方面的改進(jìn)比較有名的就是：Borderline-SMOTE 了赊豌。
該算法將少數(shù)類樣本點(diǎn)分為：安全點(diǎn)扛或、邊緣點(diǎn)和危險(xiǎn)點(diǎn)，三類碘饼，并且僅對邊緣點(diǎn)進(jìn)行插值熙兔，因?yàn)樽髡哒J(rèn)為悲伶，邊緣點(diǎn)在分類中作用更大，突出邊緣點(diǎn)更有利于分類住涉。

（2）與欠采樣結(jié)合：
這種就很容易理解了麸锉，即：使用 SMOTE 合成更多少數(shù)類樣本，結(jié)合對多數(shù)類的欠采樣舆声。

（3）插值類型的改進(jìn)：
SMOTE 的插值很簡單花沉，使用的是隨機(jī)線性插值法，因此具有盲目性纳寂，新生成樣本不一定能精準(zhǔn)的在合適的位置上主穗。
其改進(jìn)算法有，通過限制插值范圍來改進(jìn)插值的盲目性問題毙芜；或者使用特征加權(quán)來生成新樣本忽媒；或者基于聚類來插值；或者基于圖論來插值腋粥；或者基于分布插值晦雨。等等。
這些改進(jìn)的插值技術(shù)隘冲，都是從插值類型出發(fā)來提高生成樣本的質(zhì)量闹瞧。

（4）與特征選擇或降維相結(jié)合：
先對樣本集進(jìn)行特征選擇或降維操作，然后在新維度空間中使用 SMOTE 生成樣本展辞。例如：先進(jìn)行 PCA奥邮，然后再使用 SMOTE 生成樣本。
這種主要針對高維數(shù)據(jù)罗珍，通過降維后生成的樣本更具有代表性洽腺。

（5）自適應(yīng)生成樣本：
該方法的原理是：通過學(xué)習(xí)難度自動(dòng)調(diào)節(jié)樣本權(quán)值來生成樣本。使用該方法較為經(jīng)典的算法有：ADASYN覆旱。
由于蘸朋，目前沒單獨(dú)了解該算法，就不深入探討了扣唱，請見諒藕坯。

（6）篩選出有噪聲的樣本：
主要針對 SMOTE 合成樣本具有生成重疊樣本和噪聲樣本的問題，使用某種噪聲過濾技術(shù)噪沙，篩選出噪聲樣本炼彪，生成高質(zhì)量的樣本∏簦可使用很多策略來過濾噪聲霹购，例如：使用貪婪濾波策略、基于集成技術(shù)的過濾策略朋腋、基于進(jìn)化的過濾策略等等齐疙。

從以上改進(jìn)算法可以看出膜楷，SMOTE 的發(fā)展已經(jīng)很成熟了，改進(jìn)算法也挺全面的贞奋。所以赌厅，可以安全使用，謹(jǐn)慎改進(jìn)轿塔。

嘿嘿

我終于寫完了特愿，謝謝你看完了。
下篇文章勾缭，我將詳細(xì)講解 SMOTE 源碼揍障。

參考文獻(xiàn)

[1]SMOTE: Synthetic Minority Over-sampling Technique.
[2]Borderline-SMOTE: A New Over-Sampling Method in Imbalanced Data Sets Learning.
[3]SMOTE for Learning from Imbalanced Data: Progress and Challenges, Marking the 15-year Anniversary.