下面這個(gè)圖表示了精度和召回率這兩個(gè)指標(biāo),主要用在于分類問題中共苛。
例如有一個(gè)二分類問題的算法。
圖中的圓圈里面代表算法判定為正的一些樣本。
圓圈的外面代表算法判定為負(fù)的一些樣本催首。
但實(shí)際上算法它是會(huì)有一些東西誤判的。
例如方形的左邊一半泄鹏,是實(shí)際上為正的樣本郎任。右邊一半,是實(shí)際上為負(fù)的樣本备籽。那除了算法判斷正確的,以外车猬,就是判斷錯(cuò)誤的樣本霉猛。
可以對(duì)照這個(gè)圖,看一下準(zhǔn)確率珠闰,精度惜浅,和召回率的定義。
右上角是準(zhǔn)確率的公式伏嗜。意思就是坛悉,算法的所有預(yù)測(cè)結(jié)果中,預(yù)測(cè)正確的有多少
左下角為 precision 精度 查準(zhǔn)率就是對(duì)于所有機(jī)器判定為正的里面承绸,有多大的比例是真的正樣本
右下角為 recall 召回率 查全率裸影,顧名思義,就是實(shí)際的正樣本中军熏,有多大比例被檢出了
在圖中有標(biāo)記轩猩,陰陽,真假。
真/假 陰/陽性中界轩,陰陽性是指的分類器的判斷結(jié)果是陰性還是陽性画饥,而真假指代的是是否和真是答案相符
不同的問題,他需要用的指標(biāo)浊猾,希望達(dá)到的目標(biāo)是不一樣的抖甘。
我們根據(jù)召回率這個(gè)名字,可以考慮一個(gè)葫慎,召回的例子衔彻。
例如有一個(gè)汽車公司,他們有一些車發(fā)現(xiàn)有問題偷办,
于是就要召回艰额,他們告訴了車主判斷問題的方法,
有些車是真的有問題椒涯,但是車主沒判斷出來柄沮,
有些車沒問題,但車主認(rèn)為有問題废岂,
這個(gè)時(shí)候公司就要計(jì)算一下召回率祖搓,看有問題的車被召回了多少。
精度—召回率 之間存在制衡
隨著精度的增加湖苞,召回率會(huì)降低拯欧,召回率增加,精度就會(huì)降低财骨。
有時(shí)如果需要召回率高镐作,就可以接受較低的精度。
如果我們想要找到精度和召回率的最佳組合隆箩,我們可以使用 F1 score 來對(duì)兩者進(jìn)行結(jié)合该贾。
F1 score 是對(duì)精度和召回率的調(diào)和平均,有個(gè)公式
如果我們想創(chuàng)建一個(gè)具有最佳的精度—召回率平衡的模型捌臊,那么就要嘗試將 F1 score 最大化杨蛋。
在實(shí)際應(yīng)用時(shí),因?yàn)槭欠诸愃惴ㄍ奘簦瑫?huì)有一個(gè)閾值,當(dāng)結(jié)果高于這個(gè)閾值時(shí)為一類护姆,低于這個(gè)閾值時(shí)為另一類矾端。
對(duì)每個(gè)閾值可以計(jì)算相應(yīng)的 精度 召回率 f1 等指標(biāo),
通過更改閾值卵皂,這些指標(biāo)都會(huì)變化秩铆,
如果想要精度和召回率平衡,可以選擇最大化 F1 score 時(shí)候的閾值
例如上圖,基于 F1 score殴玛,整體最佳的模型出現(xiàn)在閾值為 0.5 的地方捅膘。
如果我們想要在更大程度上強(qiáng)調(diào)精度或者召回率,我們可以選擇這些指標(biāo)上最佳時(shí)對(duì)應(yīng)的模型滚粟。