背景:
- 數(shù)據(jù)量15w, 正負樣本不均衡 負樣本是正樣本的4倍兼耀。
- 劃分train :test_total為 1:1 应又,各7.5w鸯乃。
- 每次采樣過后正負樣本比例基本保持不變剖张。1:4左右派阱。
實驗一: test上 auc 情況
baseline(test_total): 0.9053236079939212
減少test正樣本(把test_total中正樣本采樣0.6) 0.9059026523456054
減少test負樣本(把test_total中負樣本采樣0.6) 0.9053588704461231
實驗二:
baseline(把test_total采樣0.6): 0.9066580590793192
增加test正樣本(把test_total采樣過后剩下的0.4的所有正樣本加到test_total) 0.9052347703915193
增加test負樣本(把test_total采樣過后剩下的0.4的所有負樣本加到test_total) 0.9067454564120729
實驗三:
baseline(把test_total采樣0.2): 0.9031503391939627
增加test正樣本(把test_total采樣過后剩下的0.8的所有正樣本加到test_total) 0.9039143105876674
增加test負樣本(把test_total采樣過后剩下的0.8的所有負樣本加到test_total) 0.9046192176292482
對比實驗123的baseline 感覺對于test采樣后或增或減的現(xiàn)象诬留,暫不太確定。畢竟每次采樣雖然正負標簽比例基本一致贫母,但是分到的數(shù)據(jù)分布可能會不同文兑。。
對比實驗123,因為train本來就是負樣本多腺劣,學(xué)出來的模型偏向于往負樣本去預(yù)測绿贞,因此無論在那次實驗中,只要讓test中的負樣本占比升高橘原,auc都會升樟蠕。
與2相反的情況:只要讓test中的正樣本占比升高贮聂,1升,2降寨辩,3升吓懈。但前提是模型對負樣本學(xué)習(xí)的較好,會不會是因為這個原因所以正樣本占比升高帶來的變化不帶穩(wěn)定靡狞。耻警。