【論文學(xué)習(xí)】《Dice Loss for Data-imbalanced NLP Tasks》

主要內(nèi)容:

文章提出用 Dice Loss 替代 交叉熵(standard cross-entropy loss) 在數(shù)據(jù)不平衡的 NLP 任務(wù)上面提升效果

1. 數(shù)據(jù)不平衡
  • 命名實(shí)體識別任務(wù)中初斑,傳統(tǒng)的BIO方法,數(shù)據(jù)序列中 O 標(biāo)簽一般是其他標(biāo)簽的5倍左右
  • 閱讀理解任務(wù)中日川,一般識別出答案的開始和結(jié)束位置放钦,導(dǎo)致最后轉(zhuǎn)換為二分類巷送,序列中只要兩個為正例赡模,其余全是負(fù)例
2. 數(shù)據(jù)不平衡導(dǎo)致的問題:
  • the training-test discrepancy:訓(xùn)練和測試階段不一致的問題:
    訓(xùn)練階段,每個訓(xùn)練實(shí)例對目標(biāo)函數(shù)的貢獻(xiàn)一樣杭跪,測試階段F1值對正負(fù)例給與相同的權(quán)重
  • the overwhelming effect of easy-negative examples:容易判別的負(fù)樣本太多通惫,那么模型很難學(xué)習(xí)到真正區(qū)分正樣本與負(fù)樣本的邊界茂翔,很難捕捉到特征

3. 論文解決方案

  • 提出基于 S?rensen–Dice系數(shù)的誤差,是準(zhǔn)確率和召回率的中和履腋,對將負(fù)類預(yù)測為正類(False Positive FP)和將正類預(yù)測為負(fù)類(False Negative FN)給予同樣的重要性檩电,因此更適合樣本不平衡的數(shù)據(jù)集,
  • 主要是提出一種動態(tài)權(quán)重調(diào)整策略來解決容易判別的負(fù)類別過多的問題
交叉熵:
加權(quán)交叉熵:

從公式看出府树,在分類任務(wù)中俐末,交叉熵?fù)p失是每個實(shí)例對最后的目標(biāo)函數(shù)貢獻(xiàn)相同,于采用加權(quán)交叉熵將不同類別的實(shí)例賦予不同的權(quán)重貢獻(xiàn)奄侠,

可以看出卓箫,這個公式使得類別多的實(shí)例賦予更少的權(quán)重,類別少的實(shí)例賦予更多的權(quán)重值

  • 另一中方式是數(shù)據(jù)重采樣垄潮,從原始的數(shù)據(jù)集中采樣獲得新的訓(xùn)練集烹卒,從每個類別中選取同樣多的訓(xùn)練樣例闷盔,綜合來看,使用weighted cross entropy的方法和對訓(xùn)練數(shù)據(jù)采樣的方法本質(zhì)是相同的旅急,都是在訓(xùn)練時改變數(shù)據(jù)的分布逢勾。這兩種方法都不常用,因?yàn)殡y以確定何時的a值藐吮,不合適的a可能會導(dǎo)致偏向較少的類型溺拱。
  • 文章提出的自適應(yīng)Dice Coefficient(DSC)與 Dice Loss(DL)
    Dice Coefficient 是一個類似于F1的指標(biāo):



    其中A是被預(yù)測為正的樣本,B為所以的正樣本
    在二分類數(shù)據(jù)中谣辞,由TP迫摔,F(xiàn)P,F(xiàn)N定義可改寫為:



    對于一個樣本 Xi 來說泥从,其對應(yīng)的DSC loss是:

    但是這樣一來句占,一個負(fù)樣例(yi1 = 0) 就對目標(biāo)函數(shù)不起作用,于是加入平滑因子之后:

    后來為了加快收斂躯嫉,于是將分母進(jìn)行平方之后纱烘,Dice Loss:


Tversky Index(TI)與Tverskey Loss(TL)

  • TI本身可以視為Fβ值,更具推廣意義的表達(dá)式為:

    它有效平衡了 false-negatives FN和 false-positive FP祈餐,當(dāng)α = β = 0.5 時擂啥,Tversky index 則退化成了 DSC

  • Tversky Loss是:


Self-adusting Dice Loss(DSC)

  • 由于DL中,對于容易被判別的負(fù)樣本昼弟,模型判別的概率很容易趨近于0,同時奕筐,模型也不容易判別在決策邊界附近的正負(fù)樣本舱痘。因此加入衰減因子為:
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市离赫,隨后出現(xiàn)的幾起案子芭逝,更是在濱河造成了極大的恐慌,老刑警劉巖渊胸,帶你破解...
    沈念sama閱讀 211,817評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件旬盯,死亡現(xiàn)場離奇詭異,居然都是意外死亡翎猛,警方通過查閱死者的電腦和手機(jī)胖翰,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,329評論 3 385
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來切厘,“玉大人萨咳,你說我怎么就攤上這事∫吒澹” “怎么了培他?”我有些...
    開封第一講書人閱讀 157,354評論 0 348
  • 文/不壞的土叔 我叫張陵鹃两,是天一觀的道長。 經(jīng)常有香客問我舀凛,道長俊扳,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,498評論 1 284
  • 正文 為了忘掉前任猛遍,我火速辦了婚禮馋记,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘螃壤。我一直安慰自己抗果,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,600評論 6 386
  • 文/花漫 我一把揭開白布奸晴。 她就那樣靜靜地躺著冤馏,像睡著了一般。 火紅的嫁衣襯著肌膚如雪寄啼。 梳的紋絲不亂的頭發(fā)上逮光,一...
    開封第一講書人閱讀 49,829評論 1 290
  • 那天,我揣著相機(jī)與錄音墩划,去河邊找鬼涕刚。 笑死,一個胖子當(dāng)著我的面吹牛乙帮,可吹牛的內(nèi)容都是我干的杜漠。 我是一名探鬼主播,決...
    沈念sama閱讀 38,979評論 3 408
  • 文/蒼蘭香墨 我猛地睜開眼察净,長吁一口氣:“原來是場噩夢啊……” “哼驾茴!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起氢卡,我...
    開封第一講書人閱讀 37,722評論 0 266
  • 序言:老撾萬榮一對情侶失蹤锈至,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后译秦,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體峡捡,經(jīng)...
    沈念sama閱讀 44,189評論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,519評論 2 327
  • 正文 我和宋清朗相戀三年筑悴,在試婚紗的時候發(fā)現(xiàn)自己被綠了们拙。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,654評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡阁吝,死狀恐怖睛竣,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情求摇,我是刑警寧澤射沟,帶...
    沈念sama閱讀 34,329評論 4 330
  • 正文 年R本政府宣布殊者,位于F島的核電站,受9級特大地震影響验夯,放射性物質(zhì)發(fā)生泄漏猖吴。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,940評論 3 313
  • 文/蒙蒙 一挥转、第九天 我趴在偏房一處隱蔽的房頂上張望海蔽。 院中可真熱鬧,春花似錦绑谣、人聲如沸党窜。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,762評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽幌衣。三九已至,卻和暖如春壤玫,著一層夾襖步出監(jiān)牢的瞬間豁护,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,993評論 1 266
  • 我被黑心中介騙來泰國打工欲间, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留楚里,地道東北人。 一個月前我還...
    沈念sama閱讀 46,382評論 2 360
  • 正文 我出身青樓猎贴,卻偏偏與公主長得像班缎,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子她渴,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,543評論 2 349

推薦閱讀更多精彩內(nèi)容