其實我們訓(xùn)練部分是我們自己提出各種改進的算法,得到一個我們自己的結(jié)果,但是驗證部分基本都是差不多的宋列,或者一律使用官方的驗證方法,為了正確評估我們模型的結(jié)果危彩,我們還是得弄清楚驗證部分的代碼需要我們提供的是什么,它又計算出了什么泳桦,請時刻記住汤徽,這是我們的終極目標(biāo)。
這里就整理一下Pascal VOC這個數(shù)據(jù)集中mAP的計算蓬痒,最后也會總結(jié)一下泻骤,到底怎樣使用這份代碼漆羔。Pascal VOC是早期目標(biāo)檢測(e.g. Fast/er RCNN, SSD)常用的標(biāo)準(zhǔn)數(shù)據(jù)集梧奢。
1、什么是mAP演痒?
既然要看懂計算mAP的代碼亲轨,那肯定得先知道什么是mAP?不能違背人的認(rèn)知規(guī)律,當(dāng)然已經(jīng)在目標(biāo)檢測這方向已經(jīng)比較熟的大佬就可以跳過這部分鸟顺。
這方面有很多人都寫過了惦蚊,我建議可以看一下這一篇博客:
深度學(xué)習(xí)筆記(八):目標(biāo)檢測性能評價指標(biāo)(mAP、IOU..)
這里也給出自己看完這些博客還得注意的地方讯嫂,算是給像我這樣的小白一些解惑:
1蹦锋、上圖來自維基百科中對于precision和recall的形象解釋,precision按字面理解欧芽,準(zhǔn)確率就是你預(yù)測出來為正類當(dāng)中確實有多少正類的比例(這里一開始我也有個疑問莉掂,為什么我們預(yù)測出來的都算是正類?其實仔細(xì)想一下也不難理解千扔,就像目標(biāo)檢測憎妙,我們選出來的框自然是我們認(rèn)為是前景目標(biāo)的库正,我們怎么會去框一個背景呢,注意這里是我們認(rèn)為我們框的厘唾,實際完全有可能框到背景)褥符;recall按字面理解,召回率就是實際有這么多正類抚垃,你選出來了多少的一個比率喷楣,不理解的可以多看幾遍上面的圖幫助理解,這會影響到下面PR曲線繪制的理解讯柔。
2抡蛙、一條P-R曲線對應(yīng)一個閾值,那這個閾值又是什么意思呢魂迄?例如VOC里面粗截,這個閾值就代表和Ground Truth bbox的IoU大于這個閾值才會被認(rèn)為是正類【如下面代碼中的
ovthresh
】,但還得通過一定的準(zhǔn)則才能歸入TP(true positive)捣炬,到這里我還會有兩個問題:1.PR曲線到底是怎么畫出來的熊昌?2.為什么R增大P會有減小的趨勢?湿酸,下面結(jié)合代碼部分我還會詳細(xì)講解婿屹,并且給出我實踐中畫出來的PR曲線。3推溃、通常人們都會說:P-R曲線圍起來的面積就是AP值昂利,但是我想說的是,理解的時候可以這樣直觀認(rèn)識一下铁坎,具體計算的時候還是看代碼的實現(xiàn)方式蜂奸,當(dāng)然實際計算都不能非常準(zhǔn)確到剛好是P-R曲線下的面積。
2硬萍、如何畫PR曲線和計算AP扩所?
那我們?nèi)绾蝸懋婸R曲線和計算AP?PR曲線無非就是很多個(recall, precision)對連接起來的朴乖,一開始我還不知道這些點對是哪里來的祖屏?其實這就回到我們最原初的那個問題了,我們的輸入是什么买羞?我們的輸入是我們遍歷完所有測試圖片對某一類(例如'car')給出的預(yù)測值(包括圖片索引袁勺,框的置信度分?jǐn)?shù)和四個坐標(biāo),這個預(yù)測值一般都是經(jīng)過NMS處理之后的畜普,保證每張圖片里面不會有過多的框期丰,因為分析代碼過后,過多的框是會降低AP的),例如下面這張圖就是我跑CenterNet在Pascal VOC數(shù)據(jù)集上產(chǎn)生的20個類的結(jié)果:
每一個文件里面都是長這樣的:
下面具體分析
上面的這些結(jié)果文件就是對應(yīng)【下面代碼的104行的detfile = detpath.format(classname)
】咐汞,因為我們當(dāng)作他們都是positive盖呼,所以這里的每一個預(yù)測出來的框都會分配一個TP或者FP(或者根據(jù)官方規(guī)則,對于difficult=1的object是不參與AP計算的)化撕,所以上面一個文件中有這么多行几晤,就會有這么長的TP和FP列表,每輸入一個預(yù)測框就又可以計算一個(recall, precision)對植阴,那么就可以畫出非常細(xì)密的點蟹瘾,當(dāng)然隨著輸入框的增多,recall肯定是上升的掠手,因為實際的positive數(shù)量是固定的憾朴,隨著輸入框的增多,肯定是覆蓋到這些真值的喷鸽,根據(jù)recall的定義就會接近1众雷;而此時在還沒有正確預(yù)測中下一個時,也就是上面維基圖中TP不變的情況下做祝,增加了紅半球FP的數(shù)量砾省,那precision肯定會下降,只有預(yù)測中下一個真值的時候會突增一下混槐,所以說编兄,P-R曲線并不是遞減的。下面就是我實踐過程畫出來的P-R曲線声登,仔細(xì)看會有局部的上升趨勢(這里感覺理解起來不夠形象的狠鸳,最后還有一個我理解過程中參考別人博客的一個例子):
下面來看具體代碼
至此,我們已經(jīng)完成了所有預(yù)備的知識悯嗓,需要來分析一下代碼是怎么實現(xiàn)的件舵?我在代碼必要部分標(biāo)上了中文注釋:
下面這個就是計算Pascal VOC中mAP的python版本的代碼,摘自于Ross Girshick大神的Faster RCNN中的代碼绅作,后來非常多人都用到這份代碼芦圾,比如:
- facebook research的Detectron框架
- amdegroot用PyTorch復(fù)現(xiàn)的ssd.pytorch
- CenterNet(Objects as Points)官方代碼中的VOC部分
def voc_ap(rec, prec, use_07_metric=False):
""" ap = voc_ap(rec, prec, [use_07_metric])
Compute VOC AP given precision and recall.
If use_07_metric is true, uses the
VOC 07 11 point method (default:False).
"""
if use_07_metric: #VOC在2010之后換了評價方法蛾派,所以決定是否用07年的
# 11 point metric
ap = 0.
for t in np.arange(0., 1.1, 0.1): # 07年的采用11個點平分recall來計算
if np.sum(rec >= t) == 0:
p = 0
else:
p = np.max(prec[rec >= t]) # 取一個recall閾值之后最大的precision
ap = ap + p / 11. # 將11個precision加和平均
else: # 這里是用2010年后的方法俄认,取所有不同的recall對應(yīng)的點處的精度值做平均,不再是固定的11個點
# correct AP calculation
# first append sentinel values at the end
mrec = np.concatenate(([0.], rec, [1.])) #recall和precision前后分別加了一個值洪乍,因為recall最后是1眯杏,所以
mpre = np.concatenate(([0.], prec, [0.])) # 右邊加了1,precision加的是0
# compute the precision envelope
for i in range(mpre.size - 1, 0, -1):
mpre[i - 1] = np.maximum(mpre[i - 1], mpre[i]) #從后往前壳澳,排除之前局部增加的precison情況
# to calculate area under PR curve, look for points
# where X axis (recall) changes value
i = np.where(mrec[1:] != mrec[:-1])[0] # 這里巧妙的錯位岂贩,返回剛好TP的位置,
# 可以看后面輔助的例子
# and sum (\Delta recall) * prec 用recall的間隔對精度作加權(quán)平均
ap = np.sum((mrec[i + 1] - mrec[i]) * mpre[i + 1])
return ap
# 計算每個類別對應(yīng)的AP巷波,mAP是所有類別AP的平均值
def voc_eval(detpath,
annopath,
imagesetfile,
classname,
cachedir,
ovthresh=0.5,
use_07_metric=False):
"""rec, prec, ap = voc_eval(detpath,
annopath,
imagesetfile,
classname,
[ovthresh],
[use_07_metric])
Top level function that does the PASCAL VOC evaluation.
detpath: Path to detections
detpath.format(classname) should produce the detection results file.
annopath: Path to annotations
annopath.format(imagename) should be the xml annotations file.
imagesetfile: Text file containing the list of images, one image per line.
classname: Category name (duh)
cachedir: Directory for caching the annotations
[ovthresh]: Overlap threshold (default = 0.5)
[use_07_metric]: Whether to use VOC07's 11 point AP computation
(default False)
"""
# assumes detections are in detpath.format(classname)
# assumes annotations are in annopath.format(imagename)
# assumes imagesetfile is a text file with each line an image name
# cachedir caches the annotations in a pickle file
# first load gt
if not os.path.isdir(cachedir):
os.mkdir(cachedir)
cachefile = os.path.join(cachedir, 'annots.pkl')
# read list of images
with open(imagesetfile, 'r') as f:
lines = f.readlines()
imagenames = [x.strip() for x in lines]
if not os.path.isfile(cachefile):
# load annots
# 這里提取的是所有測試圖片中的所有object gt信息, 07年的test真實標(biāo)注是可獲得的萎津,12年就沒有了
recs = {}
for i, imagename in enumerate(imagenames):
recs[imagename] = parse_rec(annopath.format(imagename))
if i % 100 == 0:
print 'Reading annotation for {:d}/{:d}'.format(
i + 1, len(imagenames))
# save
print 'Saving cached annotations to {:s}'.format(cachefile)
with open(cachefile, 'w') as f:
cPickle.dump(recs, f)
else:
# load
with open(cachefile, 'r') as f:
recs = cPickle.load(f)
# extract gt objects for this class 從上面的recs提取我們要判斷的那類標(biāo)注信息
class_recs = {}
npos = 0
for imagename in imagenames:
R = [obj for obj in recs[imagename] if obj['name'] == classname]
bbox = np.array([x['bbox'] for x in R])
difficult = np.array([x['difficult'] for x in R]).astype(np.bool)
det = [False] * len(R) # 該圖片中該類別對應(yīng)的所有bbox的是否已被匹配的標(biāo)志位
npos = npos + sum(~difficult) #累計所有圖片中的該類別目標(biāo)的總數(shù)卸伞,不算diffcult
# 這里計算還是很巧妙的,npos=TP+FN
class_recs[imagename] = {'bbox': bbox,
'difficult': difficult,
'det': det}
# read dets
detfile = detpath.format(classname)
# 讀取相應(yīng)類別的檢測結(jié)果文件锉屈,每一行對應(yīng)一個檢測目標(biāo)
with open(detfile, 'r') as f:
lines = f.readlines()
splitlines = [x.strip().split(' ') for x in lines]
image_ids = [x[0] for x in splitlines]
confidence = np.array([float(x[1]) for x in splitlines])
BB = np.array([[float(z) for z in x[2:]] for x in splitlines])
# sort by confidence 按置信度由大到小排序
sorted_ind = np.argsort(-confidence)
sorted_scores = np.sort(-confidence)
BB = BB[sorted_ind, :]
image_ids = [image_ids[x] for x in sorted_ind]
# go down dets and mark TPs and FPs
nd = len(image_ids) # 檢測結(jié)果文件的行數(shù)
tp = np.zeros(nd) # 用于標(biāo)記每個檢測結(jié)果是tp還是fp
fp = np.zeros(nd)
for d in range(nd):
# 取出該條檢測結(jié)果所屬圖片中的所有g(shù)round truth
R = class_recs[image_ids[d]]
bb = BB[d, :].astype(float)
ovmax = -np.inf
BBGT = R['bbox'].astype(float)
if BBGT.size > 0:
# compute overlaps 計算與該圖片中所有g(shù)round truth的最大重疊度
# intersection
ixmin = np.maximum(BBGT[:, 0], bb[0])
iymin = np.maximum(BBGT[:, 1], bb[1])
ixmax = np.minimum(BBGT[:, 2], bb[2])
iymax = np.minimum(BBGT[:, 3], bb[3])
iw = np.maximum(ixmax - ixmin + 1., 0.)
ih = np.maximum(iymax - iymin + 1., 0.)
inters = iw * ih
# union
uni = ((bb[2] - bb[0] + 1.) * (bb[3] - bb[1] + 1.) +
(BBGT[:, 2] - BBGT[:, 0] + 1.) *
(BBGT[:, 3] - BBGT[:, 1] + 1.) - inters)
overlaps = inters / uni
ovmax = np.max(overlaps)
jmax = np.argmax(overlaps)
# 這里就是具體的分配TP和FP的規(guī)則了
if ovmax > ovthresh: # 如果最大的重疊度大于一定的閾值
if not R['difficult'][jmax]: # 如果最大重疊度對應(yīng)的ground truth為difficult就忽略荤傲,
# 因為上面npos就沒算
if not R['det'][jmax]: # 如果對應(yīng)的最大重疊度的ground truth以前沒被匹配過則匹配成功,即tp
tp[d] = 1.
R['det'][jmax] = 1
else: # 若之前有置信度更高的檢測結(jié)果匹配過這個ground truth颈渊,則此次檢測結(jié)果為fp
fp[d] = 1.
else:
# 該圖片中沒有對應(yīng)類別的目標(biāo)ground truth或者與所有g(shù)round truth重疊度都小于閾值
fp[d] = 1.
# compute precision recall
fp = np.cumsum(fp) # 累加函數(shù)np.cumsum([1, 2, 3, 4]) -> [1, 3, 6, 10]
tp = np.cumsum(tp)
rec = tp / float(npos)
# avoid divide by zero in case the first detection matches a difficult
# ground truth
prec = tp / np.maximum(tp + fp, np.finfo(np.float64).eps)
ap = voc_ap(rec, prec, use_07_metric)
return rec, prec, ap
輔助理解的例子
下面的例子來自有另一篇博客:COCO目標(biāo)檢測測評指標(biāo)遂黍,里面的數(shù)據(jù)是這樣的:這幅圖里面計算AP的方法是2010年之后的那種,在這個例子中俊嗽,一共有20個測試雾家,但是只有6個正的測試樣本,所以這里就分成了6個間隔绍豁,而不是11芯咧,如果我們把每一種顏色(其實這顏色塊就是根據(jù)recall不同的值分的)看成是一個階段,2010年之后的方法取的precison是后面階段和本階段中最大的(對應(yīng)表格里面的那句話【Max Precision for Any Recall r' >= r】竹揍,注意是大于等于不是大于)
下面是我理解2010年之后的評價方法時做的圖示唬党,看一下就會很快理解,也能發(fā)現(xiàn)代碼中錯位的巧妙鬼佣,數(shù)據(jù)來自上面那幅圖:
總結(jié)
所以我們回到開頭的終極目標(biāo)驶拱,當(dāng)我們明白代碼之后,就只要學(xué)會調(diào)用就好了晶衷,那對于Pascal VOC這個數(shù)據(jù)集來說:
- 我們需要提供的:那20個預(yù)測結(jié)果文件蓝纲,如第2大點的那幅圖里面的看到的,和annotation文件(XML文件)晌纫;
- 計算出來的是:當(dāng)然是mAP啦税迷!