首先,我覺得我要吐槽下怔蚌,我覺得這篇文章有灌水嫌疑旁赊,先來看看文章中的新貢獻(xiàn):
1)首次使用了一個商業(yè)軟件 ,based on Cisco project终畅。并發(fā)現(xiàn)其他6個open source project的prediction performance更低,原因作者說是buggy rate too low芒炼,這就是imbalanced data的一個很好的點(diǎn)了术徊。
2)另一個創(chuàng)新是change-leve classification,這里說change leve是code committed to a single file子寓,我就有點(diǎn)疑問笋除,難道一次commit不會可能涉及到多個files么斜友?
3)驗(yàn)證了下垃它,cross-validation是會有higher false precision的,因?yàn)槠錄]有考慮到time sensitive的問題洛史,即我們不能用future knowledge來預(yù)測過去的change是否buggy酱吝。
4)對于imbalanced data,提出一個解決方案用resampling或者updatable來處理忆嗜,當(dāng)然最后結(jié)果也不是太好,我想知道捆毫,這個好像只是對dataset進(jìn)行擾動的過程,具體的分類方法用的啥來著响谓?沒仔細(xì)看省艳,沒發(fā)現(xiàn)作者說的。
5)最后跋炕,作者們搞出了幾個lessons learned律适,其中有一些,可能讓我覺得這不是是個人都覺得是根本不用在文中寫出來的么的結(jié)論纠修。幾個lessons就是:
classification的results需要actionable厂僧,讓developer convinced后然后去use它。然后一些模型的輸出結(jié)果颜屠,往往explanation的能力太差,即對結(jié)果進(jìn)行解釋密浑,有的完全沒有說服力粗井,比如這個code commit是Friday提交的所以是buggy的,這個雖然是model訓(xùn)練中重要的影響因素浇衬,但對developer理解相信結(jié)果毫無用處。最后就是要有新的技術(shù)來提高model prediction的precision無論是對balanced還是imbalanced痴脾。梳星。
好吧滚朵。有的東西還是有點(diǎn)用前域,不過我還是覺得它有點(diǎn)灌水的嫌疑。匿垄。。
以上漏峰!
zou @ NanChang
2015-07-16