主要內(nèi)容:
文章提出用 Dice Loss 替代 交叉熵(standard cross-entropy loss) 在數(shù)據(jù)不平衡的 NLP 任務(wù)上面提升效果
1. 數(shù)據(jù)不平衡
- 命名實(shí)體識別任務(wù)中初斑,傳統(tǒng)的BIO方法,數(shù)據(jù)序列中 O 標(biāo)簽一般是其他標(biāo)簽的5倍左右
-
閱讀理解任務(wù)中日川,一般識別出答案的開始和結(jié)束位置放钦,導(dǎo)致最后轉(zhuǎn)換為二分類巷送,序列中只要兩個為正例赡模,其余全是負(fù)例
2. 數(shù)據(jù)不平衡導(dǎo)致的問題:
- the training-test discrepancy:訓(xùn)練和測試階段不一致的問題:
訓(xùn)練階段,每個訓(xùn)練實(shí)例對目標(biāo)函數(shù)的貢獻(xiàn)一樣杭跪,測試階段F1值對正負(fù)例給與相同的權(quán)重 - the overwhelming effect of easy-negative examples:容易判別的負(fù)樣本太多通惫,那么模型很難學(xué)習(xí)到真正區(qū)分正樣本與負(fù)樣本的邊界茂翔,很難捕捉到特征
3. 論文解決方案
- 提出基于 S?rensen–Dice系數(shù)的誤差,是準(zhǔn)確率和召回率的中和履腋,對將負(fù)類預(yù)測為正類(False Positive FP)和將正類預(yù)測為負(fù)類(False Negative FN)給予同樣的重要性檩电,因此更適合樣本不平衡的數(shù)據(jù)集,
- 主要是提出一種動態(tài)權(quán)重調(diào)整策略來解決容易判別的負(fù)類別過多的問題
交叉熵:
加權(quán)交叉熵:
從公式看出府树,在分類任務(wù)中俐末,交叉熵?fù)p失是每個實(shí)例對最后的目標(biāo)函數(shù)貢獻(xiàn)相同,于采用加權(quán)交叉熵將不同類別的實(shí)例賦予不同的權(quán)重貢獻(xiàn)奄侠,
可以看出卓箫,這個公式使得類別多的實(shí)例賦予更少的權(quán)重,類別少的實(shí)例賦予更多的權(quán)重值
- 另一中方式是數(shù)據(jù)重采樣垄潮,從原始的數(shù)據(jù)集中采樣獲得新的訓(xùn)練集烹卒,從每個類別中選取同樣多的訓(xùn)練樣例闷盔,綜合來看,使用weighted cross entropy的方法和對訓(xùn)練數(shù)據(jù)采樣的方法本質(zhì)是相同的旅急,都是在訓(xùn)練時改變數(shù)據(jù)的分布逢勾。這兩種方法都不常用,因?yàn)殡y以確定何時的a值藐吮,不合適的a可能會導(dǎo)致偏向較少的類型溺拱。
-
文章提出的自適應(yīng)Dice Coefficient(DSC)與 Dice Loss(DL)
Dice Coefficient 是一個類似于F1的指標(biāo):
其中A是被預(yù)測為正的樣本,B為所以的正樣本
在二分類數(shù)據(jù)中谣辞,由TP迫摔,F(xiàn)P,F(xiàn)N定義可改寫為:
對于一個樣本 Xi 來說泥从,其對應(yīng)的DSC loss是:
但是這樣一來句占,一個負(fù)樣例(yi1 = 0) 就對目標(biāo)函數(shù)不起作用,于是加入平滑因子之后:
后來為了加快收斂躯嫉,于是將分母進(jìn)行平方之后纱烘,Dice Loss:
Tversky Index(TI)與Tverskey Loss(TL)
-
TI本身可以視為Fβ值,更具推廣意義的表達(dá)式為:
它有效平衡了 false-negatives FN和 false-positive FP祈餐,當(dāng)α = β = 0.5 時擂啥,Tversky index 則退化成了 DSC
-
Tversky Loss是:
Self-adusting Dice Loss(DSC)
-
由于DL中,對于容易被判別的負(fù)樣本昼弟,模型判別的概率很容易趨近于0,同時奕筐,模型也不容易判別在決策邊界附近的正負(fù)樣本舱痘。因此加入衰減因子為: