1. 準(zhǔn)確率(Accuracy)
準(zhǔn)確率(accuracy),其定義是: 對于給定的測試數(shù)據(jù)集辜膝,分類器正確分類的樣本數(shù)與總樣本數(shù)之比无牵。也就是損失函數(shù)是0-1損失時(shí)測試數(shù)據(jù)集上的準(zhǔn)確率。accuracy=預(yù)測對的/所有
對于二分類問題厂抖,僅僅通過準(zhǔn)確率不能很好的衡量分類器的性能茎毁,比如:
由準(zhǔn)確率,我們的確可以在一些場合验游,從某種意義上得到一個分類器是否有效充岛,但它并不總是能有效的評價(jià)一個分類器的工作保檐。舉個例子,google抓取了argcv 100個頁面,而它索引中共有10,000,000個頁面,隨機(jī)抽一個頁面崔梗,分類下,這是不是argcv的頁面呢?如果以accuracy來判斷我的工作夜只,那我會把所有的頁面都判斷為"不是argcv的頁面",因?yàn)槲疫@樣效率非常高(return false,一句話),而accuracy已經(jīng)到了99.999%(9,999,900/10,000,000),完爆其它很多分類器辛辛苦苦算的值,而我這個算法顯然不是需求期待的,那怎么解決呢?這就是precision,recall和f1-measure出場的時(shí)間了.
2. 精確率(Precision)
精確率(precision)的公式是,它計(jì)算的是所有"正確被檢索的item(TP)"占所有"實(shí)際被檢索到的(TP+FP)"的比例.
3. 召回率(Recall)
召回率(recall)的公式是?,它計(jì)算的是所有"正確被檢索的item(TP)"占所有"應(yīng)該檢索到的item(TP+FN)"的比例。
4. F1-Measure
F1值就是精確值和召回率的調(diào)和均值,也就是
5. predict與recall
實(shí)際上非常簡單蒜魄,精確率是針對我們預(yù)測結(jié)果而言的扔亥,它表示的是預(yù)測為正的樣本中有多少是真正的正樣本。那么預(yù)測為正就有兩種可能了谈为,一種就是把正類預(yù)測為正類(TP)旅挤,另一種就是把負(fù)類預(yù)測為正類(FP)。
而召回率是針對我們原來的樣本而言的伞鲫,它表示的是樣本中的正例有多少被預(yù)測正確了粘茄。那也有兩種可能,一種是把原來的正類預(yù)測成正類(TP)秕脓,另一種就是把原來的正類預(yù)測為負(fù)類(FN)柒瓣。
對于predict與recall:一句話,準(zhǔn)確率就是“找的對”吠架,召回率就是“找的全”芙贫。
實(shí)際應(yīng)用:
(1)如果是做搜索,則要在保證召回率理想的情況下傍药,提升精確率磺平;
(2)如果做疾病監(jiān)測、反垃圾拐辽,則是要保證精確率的條件下拣挪,提升召回率。
6. auucracy與predict
精確率(precision)和準(zhǔn)確率(accuracy)是不一樣的