http://www.cnblogs.com/scnucs/archive/2012/10/10/2718497.html
在信息檢索秉扑、分類體系中,有一系列的指標调限,搞清楚這些指標對于評價檢索和分類性能非常重要,因此最近根據(jù)網(wǎng)友的博客做了一個匯總误澳。
準確率耻矮、召回率、F1
信息檢索忆谓、分類裆装、識別、翻譯等領(lǐng)域兩個最基本指標是?召回率(Recall Rate)?和?準確率(Precision Rate)?倡缠,召回率也叫查全率哨免,準確率也叫查準率,概念公式?:
召回率(?R?ecall)????? =? 系統(tǒng)檢索到的相關(guān)文件 / 系統(tǒng)所有相關(guān)的文件總數(shù)
準確率(?P?recision) = ?系統(tǒng)檢索到的相關(guān)文件 / 系統(tǒng)所有檢索到的文件總數(shù)
圖示表示如下:
?
注意:準確率和召回率是互相影響的昙沦,理想情況下肯定是做到兩者都高琢唾,但是一般情況下準確率高、召回率就低盾饮,召回率低采桃、準確率高,當然如果兩者都低丘损,那是什么地方出問題了?普办。一般情況,用不同的閥值徘钥,統(tǒng)計出一組不同閥值下的精確率和召回率衔蹲,如下圖:
如果是做搜索,那就是保證召回的情況下提升準確率呈础;如果做疾病監(jiān)測舆驶、反垃圾,則是保準確率的條件下而钞,提升召回贞远。
所以,在兩者都要求高的情況下笨忌,可以用F1來衡量蓝仲。
F1?=??2??*?P?*?R?/?(P?+?R)??
F1?=??2??*?P?*?R?/?(P?+?R)??
公式基本上就是這樣,但是如何算圖1中的A、B袱结、C亮隙、D呢??這需要人工標注垢夹,人工標注數(shù)據(jù)需要較多時間且枯燥溢吻,如果僅僅是做實驗可以用用現(xiàn)成的語料。當然果元,還有一個辦法促王,找個一個比較成熟的算法作為基準,用該算法的結(jié)果作為樣本來進行比照?而晒,這個方法也有點問題蝇狼,如果有現(xiàn)成的很好的算法,就不用再研究了倡怎。
AP和mAP(mean Average Precision)
mAP是為解決P迅耘,R,F(xiàn)-measure的單點值局限性的监署。為了得到 一個能夠反映全局性能的指標颤专,可以看考察下圖,其中兩條曲線(方塊點與圓點)分布對應(yīng)了兩個檢索系統(tǒng)的準確率-召回率曲線
可以看出钠乏,雖然兩個系統(tǒng)的性能曲線有所交疊但是以圓點標示的系統(tǒng)的性能在絕大多數(shù)情況下要遠好于用方塊標示的系統(tǒng)栖秕。
從中我們可以 發(fā)現(xiàn)一點,如果一個系統(tǒng)的性能較好晓避,其曲線應(yīng)當盡可能的向上突出累魔。
更加具體的,曲線與坐標軸之間的面積應(yīng)當越大够滑。
最理想的系統(tǒng)垦写, 其包含的面積應(yīng)當是1,而所有系統(tǒng)的包含的面積都應(yīng)當大于0彰触。這就是用以評價信息檢索系統(tǒng)的最常用性能指標梯投,平均準確率mAP其規(guī)范的定義如下:(其中P,R分別為準確率與召回率)
ROC和AUC
ROC和AUC是評價分類器的指標况毅,上面第一個圖的ABCD仍然使用分蓖,只是需要稍微變換。
回到ROC上來尔许,ROC的全名叫做Receiver Operating Characteristic么鹤。
ROC關(guān)注兩個指標
? ?True Positive Rate ( TPR ) ?= TP / [ TP + FN] ,TPR代表能將正例分對的概率
? ?False Positive Rate( FPR ) = FP / [ FP + TN] 味廊,F(xiàn)PR代表將負例錯分為正例的概率
在ROC 空間中蒸甜,每個點的橫坐標是FPR棠耕,縱坐標是TPR,這也就描繪了分類器在TP(真正的正例)和FP(錯誤的正例)間的trade-off柠新。ROC的主要分析工具是一個畫在ROC空間的曲線——ROC curve窍荧。我們知道,對于二值分類問題恨憎,實例的值往往是連續(xù)值蕊退,我們通過設(shè)定一個閾值,將實例分類到正類或者負類(比如大于閾值劃分為正類)憔恳。因此我們可以變化閾值瓤荔,根據(jù)不同的閾值進行分類,根據(jù)分類結(jié)果計算得到ROC空間中相應(yīng)的點钥组,連接這些點就形成ROC curve输硝。ROC curve經(jīng)過(0,0)(1,1),實際上(0, 0)和(1, 1)連線形成的ROC curve實際上代表的是一個隨機分類器者铜。一般情況下,這個曲線都應(yīng)該處于(0, 0)和(1, 1)連線的上方放椰。如圖所示作烟。
用ROC curve來表示分類器的performance很直觀好用±剑可是拿撩,人們總是希望能有一個數(shù)值來標志分類器的好壞。
于是?Area Under roc Curve(AUC)?就出現(xiàn)了如蚜。顧名思義压恒,AUC的值就是處于ROC curve下方的那部分面積的大小。通常错邦,AUC的值介于0.5到1.0之間探赫,較大的AUC代表了較好的Performance。
AUC計算工具:
http://mark.goadrich.com/programs/AUC/
P/R和ROC是兩個不同的評價指標和計算方式撬呢,一般情況下伦吠,檢索用前者,分類魂拦、識別等用后者毛仪。
參考鏈接:
http://www.vanjor.org/blog/2010/11/recall-precision/