基于數(shù)據(jù)層面的方法
基于數(shù)據(jù)層面的方法主要對參與訓(xùn)練的數(shù)據(jù)集進(jìn)行相應(yīng)的處理幕与,以減少類別不平衡帶來的影響谎替。
Hensman等[2]提出了提升樣本(over sampling)的方法凳忙,即對于類別數(shù)目較少的類別,從中隨機(jī)選擇一些圖片進(jìn)行復(fù)制并添加至該類別包含的圖像內(nèi),直到這個類別的圖片數(shù)目和最大數(shù)目類的個數(shù)相等為止。通過實驗發(fā)現(xiàn)步淹,這一方法對最終的分類結(jié)果有了非常大的提升。
Lee等[3]提出了一種兩階段(two-phase)訓(xùn)練法诚撵。首先根據(jù)數(shù)據(jù)集分布情況設(shè)置一個閾值N缭裆,通常為最少類別所包含樣例個數(shù)。隨后對樣例個數(shù)大于閾值的類別進(jìn)行隨機(jī)抽取寿烟,直到達(dá)到閾值澈驼。此時根據(jù)閾值抽取的數(shù)據(jù)集作為第一階段的訓(xùn)練樣本進(jìn)行訓(xùn)練,并保存模型參數(shù)筛武。最后采用第一階段的模型作為預(yù)訓(xùn)練數(shù)據(jù)缝其,再在整個數(shù)據(jù)集上進(jìn)行訓(xùn)練,對最終的分類結(jié)果有了一定的提升.
Pouyanfar等[4]則提出了一種動態(tài)采樣(dynamic sampling)的方法徘六。該方法借鑒了提升樣本的思想内边,將根據(jù)訓(xùn)練結(jié)果對數(shù)據(jù)集進(jìn)行動態(tài)調(diào)整,對結(jié)果較好的類別進(jìn)行隨機(jī)刪除樣本操作硕噩,對結(jié)果較差的類別進(jìn)行隨機(jī)復(fù)制操作假残,以保證分類模型每次學(xué)習(xí)都能學(xué)到相關(guān)的信息缭贡。
基于算法層面的方法
基于算法層面的方法主要對現(xiàn)有的深度學(xué)習(xí)算法進(jìn)行改進(jìn)炉擅,通過修改損失函數(shù)或?qū)W習(xí)方式的方法來消除類別不平衡帶來的影響辉懒。
Wang等[5]提出mean squared false error (MSFE) loss。這一新的損失函數(shù)是在mean false error (MFE) loss的基礎(chǔ)上進(jìn)行改進(jìn)谍失,具體公式如下圖所示:
image.png
MSFE loss能夠很好地平衡正反例之間的關(guān)系眶俩,從而實現(xiàn)更好的優(yōu)化結(jié)果。
Buda等[6]提出輸出閾值(output thresholding)的方法快鱼,通過調(diào)整網(wǎng)絡(luò)結(jié)果的輸出閾值來改善類別不平衡的問題颠印。模型設(shè)計者根據(jù)數(shù)據(jù)集的構(gòu)成和輸出的概率值,人工設(shè)計一個合理的閾值抹竹,以降低樣本數(shù)目較少的類別的輸出要求线罕,使得其預(yù)測結(jié)果更加合理。