問(wèn)題導(dǎo)入:建立好了一個(gè)分類(lèi)器贮尉,如何知道這個(gè)分類(lèi)器是好是壞了阱扬?
今天我們說(shuō)一下常用的分類(lèi)器評(píng)判指標(biāo)
對(duì)于二分類(lèi)問(wèn)題而言何之,其中的P吁津,R分別表示Precision(查準(zhǔn)率)和Recall(查全率)餐胀,上面的TP哟楷,TN,F(xiàn)P否灾,F(xiàn)N可以通過(guò)下面的混淆矩陣得到
查準(zhǔn)率表征的是:在所有預(yù)測(cè)為正例的樣本中卖擅,有多少比例的樣本預(yù)測(cè)正確
查全率表征的是:在所有為正例的樣本中,有多少比例的樣本被正確找到
在現(xiàn)實(shí)應(yīng)用中墨技,差準(zhǔn)率和查全率一般是相互排斥的惩阶,很難保證Precision和Recall同時(shí)增加。
舉一個(gè)極端的例子:你現(xiàn)在一共有10個(gè)西瓜扣汪,里面有5個(gè)好瓜和5個(gè)壞瓜断楷,你從中拿出一個(gè)瓜,并成功預(yù)測(cè)其為好瓜崭别,那么這時(shí)查準(zhǔn)率為1冬筒,但是查全率為1/5 = 0.2,當(dāng)你增加拿出的瓜的數(shù)量茅主,假如現(xiàn)在你把10個(gè)瓜都拿出來(lái)了舞痰,并都預(yù)測(cè)其為好瓜,那么這個(gè)時(shí)候查準(zhǔn)率為5/10=0.5诀姚,但是查全率為1响牛。在實(shí)際應(yīng)用中,有些應(yīng)用會(huì)比較偏重查準(zhǔn)率学搜,有些應(yīng)用比較偏重查全率娃善。引用周志華老師的一個(gè)例子:在腫瘤診斷中,我們希望是盡可能的查準(zhǔn)瑞佩,這里查準(zhǔn)率比查全率要更重要些聚磺,試想一下,若更偏重查全率炬丸,抱著“寧錯(cuò)殺一千瘫寝,不放過(guò)一人”的態(tài)度蜒蕾,把沒(méi)有得腫瘤的人也診斷為腫瘤患者,這會(huì)造成很大的負(fù)面影響焕阿;而在罪犯抓捕應(yīng)用中咪啡,則會(huì)更看重查全率,若看重查準(zhǔn)率的話暮屡,則會(huì)錯(cuò)失很多抓捕罪犯的機(jī)會(huì)撤摸。
在上式中的Fbeta,beta表征的是:查全率相對(duì)查準(zhǔn)率的重要性褒纲。若beta>1准夷,則更偏重查全率;若beta<1莺掠,則更偏重查準(zhǔn)率衫嵌。