2022-02-24:連續(xù)值回歸任務(wù)中的數(shù)據(jù)不平衡的

觀點1

摘要

?????現(xiàn)有的處理不平衡數(shù)據(jù)/長尾分布的方法絕大多數(shù)都是針對分類問題,而回歸問題中出現(xiàn)的數(shù)據(jù)不均衡問題確極少被研究缕陕。但是吟宦,現(xiàn)實很多的工業(yè)預(yù)測場景都是需要解決回歸的問題公黑,也就是涉及到連續(xù)的哆致,甚至是無限多的目標(biāo)值绕德,如何解決回歸問題中出現(xiàn)的數(shù)據(jù)不均衡問題呢?ICML2021一篇被接收為Long oral presentation的論文:Delving into Deep Imbalanced Re...
?????現(xiàn)有的處理不平衡數(shù)據(jù)/長尾分布的方法絕大多數(shù)都是針對分類問題摊阀,而回歸問題中出現(xiàn)的數(shù)據(jù)不均衡問題確極少被研究耻蛇。但是,現(xiàn)實很多的工業(yè)預(yù)測場景都是需要解決回歸的問題胞此,也就是涉及到連續(xù)的臣咖,甚至是無限多的目標(biāo)值,如何解決回歸問題中出現(xiàn)的數(shù)據(jù)不均衡問題呢漱牵?ICML2021一篇被接收為Long oral presentation的論文:Delving into Deep Imbalanced Regression夺蛇,推廣了傳統(tǒng)不均衡分類問題的范式,將數(shù)據(jù)不平衡問題從離散值域推廣到了連續(xù)值域布疙,并提出了兩種解決深度不均衡回歸問題的方法蚊惯。

?????主要的貢獻(xiàn)是三個方面:1)提出了一個深度不均衡回歸(Deep Imbalanced Regression, DIR)任務(wù),定義為從具有連續(xù)目標(biāo)的不平衡數(shù)據(jù)中學(xué)習(xí)灵临,并能泛化到整個目標(biāo)范圍;2)提出了兩種解決DIR的新方法趴荸,標(biāo)簽分布平滑(label distribution smoothing, LDS)和特征分布平滑(feature distribution smoothing, FDS)儒溉,來解決具有連續(xù)目標(biāo)的不平衡數(shù)據(jù)的學(xué)習(xí)問題;3)建立了5個新的DIR數(shù)據(jù)集发钝,包括了CV顿涣、NLP波闹、healthcare上的不平衡回歸任務(wù),致力于幫助未來在不平衡數(shù)據(jù)上的研究涛碑。

數(shù)據(jù)不平衡問題背景

?????1.現(xiàn)實世界的數(shù)據(jù)通常不會每個類別都具有理想的均勻分布精堕,而是呈現(xiàn)出長尾的偏斜分布,其中某些目標(biāo)值的觀測值明顯較少蒲障,這對于深度學(xué)習(xí)模型有較大的挑戰(zhàn)歹篓。傳統(tǒng)的解決辦法可以分為基于數(shù)據(jù)和基于模型兩種:基于數(shù)據(jù)的解決方案無非對少數(shù)群體進(jìn)行過采樣和對多數(shù)群體進(jìn)行下采樣,比如SMOTE算法揉阎;基于模型的解決方案包括對損失函數(shù)的重加權(quán)(re-weighting)或利用相關(guān)的學(xué)習(xí)技巧庄撮,如遷移學(xué)習(xí)、元學(xué)習(xí)毙籽、兩階段訓(xùn)練等洞斯。
?????2 .但是現(xiàn)有的數(shù)據(jù)不平衡解決方案,主要是針對具有categorical index的目標(biāo)值坑赡,也就是離散的類別標(biāo)簽數(shù)據(jù)烙如。其目標(biāo)值屬于不同的類別,并且具有嚴(yán)格的硬邊界毅否,不同類別之間沒有重疊√瑁現(xiàn)實世界很多的預(yù)測場景可能涉及到連續(xù)目標(biāo)值的標(biāo)簽數(shù)據(jù)。比如搀突,根據(jù)人臉視覺圖片預(yù)測年齡刀闷,年齡便是一個連續(xù)的目標(biāo)值,并且在目標(biāo)范圍內(nèi)可能會高度失衡仰迁。在工業(yè)領(lǐng)域中甸昏,也會發(fā)生類似的問題,比如在水泥領(lǐng)域徐许,水泥熟料的質(zhì)量施蜜,一般都是連續(xù)的目標(biāo)值;在配煤領(lǐng)域雌隅,焦炭的熱強(qiáng)指標(biāo)也是連續(xù)的目標(biāo)值翻默。這些應(yīng)用中需要預(yù)測的目標(biāo)變量往往存在許多稀有和極端值。在連續(xù)域的不平衡問題在線性模型和深度模型中都是存在的恰起,在深度模型中甚至更為嚴(yán)重修械,這是因為深度學(xué)習(xí)模型的預(yù)測往往都是over-confident的,會導(dǎo)致這種不平衡問題被嚴(yán)重的放大检盼。
?????因此肯污,這篇文章定義了深度不平衡回歸問題(DIR),即從具有連續(xù)目標(biāo)值的不平衡數(shù)據(jù)中學(xué)習(xí),同時需要處理某些目標(biāo)區(qū)域的潛在確實數(shù)據(jù)蹦渣,并使最終模型能夠泛化到整個支持所有目標(biāo)值的范圍上哄芜。


不平衡回歸問題的挑戰(zhàn)

解決DIR問題的三個挑戰(zhàn)如下:
1.對于連續(xù)的目標(biāo)值(標(biāo)簽),不同目標(biāo)值之間的硬邊界不再存在柬唯,無法直接采用不平衡分類的處理方法认臊。
2.連續(xù)標(biāo)簽本質(zhì)上說明在不同的目標(biāo)值之間的距離是有意義的。這些目標(biāo)值直接告訴了哪些數(shù)據(jù)之間相隔更近锄奢,指導(dǎo)我們該如何理解這個連續(xù)區(qū)間上的數(shù)據(jù)不均衡的程度失晴。
3.對于DIR,某些目標(biāo)值可能根本沒有數(shù)據(jù)斟薇,這為對目標(biāo)值做extrapolation和interpolation提供了需求

解決方法一:標(biāo)簽分布平滑(LDS)

解決方法二:特征分布平滑(FDS)

[論文]:https://arxiv.org/abs/2102.09554
[代碼]:https://github.com/YyzHarry/imbalanced-regression

觀點2

這個問題是普遍存在的师坎,是有影響的,但往往也是“不重要”或者可以修正的堪滨。
1 為何普遍存在胯陋?
機(jī)器學(xué)習(xí)回歸問題的目標(biāo)變量常為連續(xù)型隨機(jī)變量Y,在社會經(jīng)濟(jì)領(lǐng)域中袱箱,連續(xù)隨機(jī)變量常常服從正態(tài)分布遏乔,即有少數(shù)樣本偏離均值,而大量樣本落在均值附近发笔,那么這些少數(shù)偏離均值的樣本是否就是你所說的不均衡盟萨?
2 為何有影響?從回歸問題的優(yōu)化目標(biāo)函數(shù)可以看出了讨。如果選用MSE捻激,即估計值與真實值的離差平方和作為優(yōu)化目標(biāo),那么在所有樣本等權(quán)重的情況下前计,這次機(jī)器學(xué)習(xí)的目標(biāo)其實是優(yōu)先學(xué)習(xí)好樣本量多的部分胞谭,因此不平衡會導(dǎo)致模型在樣本少的部分?jǐn)M合與預(yù)測能力下降。在統(tǒng)計學(xué)中男杈,也就是導(dǎo)致樣本少的地方估計置信區(qū)間更寬丈屹。
3 為何“不重要”,怎么解決伶棒,取決于研究所關(guān)注的問題旺垒。
如預(yù)測價格等問題,本身回歸模型可能更關(guān)注某個目標(biāo)區(qū)間內(nèi)的預(yù)測能力肤无,那么目標(biāo)區(qū)間外的樣本較少也沒有問題先蒋;如果是研究的問題就關(guān)注于較少發(fā)生的情況,那往往會轉(zhuǎn)化為是否發(fā)生該問題或者對異常值的研究舅锄;如果就是關(guān)注的部分有少量的不均衡鞭达,可以采用對樣本加權(quán)的方式平衡樣本司忱;如果就是關(guān)注的部分有大量的不平衡問題皇忿,那么有可能這個問題需要重新建模

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末畴蹭,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子鳍烁,更是在濱河造成了極大的恐慌叨襟,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,525評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件幔荒,死亡現(xiàn)場離奇詭異糊闽,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)爹梁,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,203評論 3 395
  • 文/潘曉璐 我一進(jìn)店門右犹,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人姚垃,你說我怎么就攤上這事念链。” “怎么了积糯?”我有些...
    開封第一講書人閱讀 164,862評論 0 354
  • 文/不壞的土叔 我叫張陵掂墓,是天一觀的道長。 經(jīng)常有香客問我看成,道長君编,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,728評論 1 294
  • 正文 為了忘掉前任川慌,我火速辦了婚禮吃嘿,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘梦重。我一直安慰自己兑燥,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 67,743評論 6 392
  • 文/花漫 我一把揭開白布忍饰。 她就那樣靜靜地躺著贪嫂,像睡著了一般。 火紅的嫁衣襯著肌膚如雪艾蓝。 梳的紋絲不亂的頭發(fā)上力崇,一...
    開封第一講書人閱讀 51,590評論 1 305
  • 那天,我揣著相機(jī)與錄音赢织,去河邊找鬼亮靴。 笑死,一個胖子當(dāng)著我的面吹牛于置,可吹牛的內(nèi)容都是我干的茧吊。 我是一名探鬼主播,決...
    沈念sama閱讀 40,330評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼搓侄!你這毒婦竟也來了瞄桨?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,244評論 0 276
  • 序言:老撾萬榮一對情侶失蹤讶踪,失蹤者是張志新(化名)和其女友劉穎芯侥,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體乳讥,經(jīng)...
    沈念sama閱讀 45,693評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡柱查,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,885評論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了云石。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片唉工。...
    茶點故事閱讀 40,001評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖汹忠,靈堂內(nèi)的尸體忽然破棺而出淋硝,到底是詐尸還是另有隱情,我是刑警寧澤错维,帶...
    沈念sama閱讀 35,723評論 5 346
  • 正文 年R本政府宣布奖地,位于F島的核電站,受9級特大地震影響赋焕,放射性物質(zhì)發(fā)生泄漏参歹。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,343評論 3 330
  • 文/蒙蒙 一隆判、第九天 我趴在偏房一處隱蔽的房頂上張望犬庇。 院中可真熱鬧,春花似錦侨嘀、人聲如沸臭挽。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,919評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽欢峰。三九已至,卻和暖如春涨共,著一層夾襖步出監(jiān)牢的瞬間纽帖,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,042評論 1 270
  • 我被黑心中介騙來泰國打工举反, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留懊直,地道東北人。 一個月前我還...
    沈念sama閱讀 48,191評論 3 370
  • 正文 我出身青樓火鼻,卻偏偏與公主長得像室囊,于是被迫代替她去往敵國和親雕崩。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,955評論 2 355

推薦閱讀更多精彩內(nèi)容