%matplotlib inline
from PIL import Image
import sys
sys.path.append('/home/kesci/input/')
import d2lzh1981 as d2l
# 展示用于目標(biāo)檢測的圖
d2l.set_figsize()
img = Image.open('/home/kesci/input/img2083/img/catdog.jpg')
d2l.plt.imshow(img); # 加分號只顯示圖
添加邊界框
# bbox是bounding box的縮寫
dog_bbox, cat_bbox = [60, 45, 378, 516], [400, 112, 655, 493]
def bbox_to_rect(bbox, color): # 本函數(shù)已保存在d2lzh_pytorch中方便以后使用
# 將邊界框(左上x, 左上y, 右下x, 右下y)格式轉(zhuǎn)換成matplotlib格式:
# ((左上x, 左上y), 寬, 高)
return d2l.plt.Rectangle(
xy=(bbox[0], bbox[1]), width=bbox[2]-bbox[0], height=bbox[3]-bbox[1],
fill=False, edgecolor=color, linewidth=2)
fig = d2l.plt.imshow(img)
fig.axes.add_patch(bbox_to_rect(dog_bbox, 'blue'))
fig.axes.add_patch(bbox_to_rect(cat_bbox, 'red'));
錨框
目標(biāo)檢測算法通常會在輸入圖像中采樣大量的區(qū)域君躺,然后判斷這些區(qū)域中是否包含我們感興趣的目標(biāo)峭判,并調(diào)整區(qū)域邊緣從而更準(zhǔn)確地預(yù)測目標(biāo)的真實(shí)邊界框(ground-truth bounding box)。不同的模型使用的區(qū)域采樣方法可能不同棕叫。這里我們介紹其中的一種方法:它以每個像素為中心生成多個大小和寬高比(aspect ratio)不同的邊界框朝抖。這些邊界框被稱為錨框(anchor box)。我們將在后面基于錨框?qū)嵺`目標(biāo)檢測谍珊。
注: 建議想學(xué)習(xí)用PyTorch做檢測的童鞋閱讀一下倉庫a-PyTorch-Tutorial-to-Object-Detection。
先導(dǎo)入一下相關(guān)包急侥。
import numpy as np
import math
import torch
import os
IMAGE_DIR = '/home/kesci/input/img2083/img/'
print(torch.__version__)
如何生成多個錨框
假設(shè)輸入圖像高為 砌滞,寬為。我們分別以圖像的每個像素為中心生成不同形狀的錨框坏怪。設(shè)大小為且寬高比為贝润,那么錨框的寬和高將分別為和。當(dāng)中心位置給定時(shí)铝宵,已知寬和高的錨框是確定的打掘。
下面我們分別設(shè)定好一組大小和一組寬高比。如果以每個像素為中心時(shí)使用所有的大小與寬高比的組合鹏秋,輸入圖像將一共得到個錨框尊蚁。雖然這些錨框可能覆蓋了所有的真實(shí)邊界框,但計(jì)算復(fù)雜度容易過高侣夷。因此横朋,我們通常只對包含或的大小與寬高比的組合感興趣,即
也就是說百拓,以相同像素為中心的錨框的數(shù)量為琴锭。對于整個輸入圖像晰甚,我們將一共生成個錨框。
以上生成錨框的方法已實(shí)現(xiàn)在MultiBoxPrior
函數(shù)中决帖。指定輸入厕九、一組大小和一組寬高比,該函數(shù)將返回輸入的所有錨框地回。
def MultiBoxPrior(feature_map, sizes=[0.75, 0.5, 0.25], ratios=[1, 2, 0.5]):
"""
# 按照「生成多個錨框」所講的實(shí)現(xiàn), anchor表示成(xmin, ymin, xmax, ymax).
https://zh.d2l.ai/chapter_computer-vision/anchor.html
Args:
feature_map: torch tensor, Shape: [N, C, H, W].
sizes: List of sizes (0~1) of generated MultiBoxPriores.
ratios: List of aspect ratios (non-negative) of generated MultiBoxPriores.
Returns:
anchors of shape (1, num_anchors, 4). 由于batch里每個都一樣, 所以第一維為1
"""
pairs = [] # pair of (size, sqrt(ration))
# 生成n + m -1個框
for r in ratios:
pairs.append([sizes[0], math.sqrt(r)])
for s in sizes[1:]:
pairs.append([s, math.sqrt(ratios[0])])
pairs = np.array(pairs)
# 生成相對于坐標(biāo)中心點(diǎn)的框(x,y,x,y)
ss1 = pairs[:, 0] * pairs[:, 1] # size * sqrt(ration)
ss2 = pairs[:, 0] / pairs[:, 1] # size / sqrt(ration)
base_anchors = np.stack([-ss1, -ss2, ss1, ss2], axis=1) / 2
#將坐標(biāo)點(diǎn)和anchor組合起來生成hw(n+m-1)個框輸出
h, w = feature_map.shape[-2:]
shifts_x = np.arange(0, w) / w
shifts_y = np.arange(0, h) / h
shift_x, shift_y = np.meshgrid(shifts_x, shifts_y)
shift_x = shift_x.reshape(-1)
shift_y = shift_y.reshape(-1)
shifts = np.stack((shift_x, shift_y, shift_x, shift_y), axis=1)
anchors = shifts.reshape((-1, 1, 4)) + base_anchors.reshape((1, -1, 4))
return torch.tensor(anchors, dtype=torch.float32).view(1, -1, 4)
X = torch.Tensor(1, 3, h, w) # 構(gòu)造輸入數(shù)據(jù)
Y = MultiBoxPrior(X, sizes=[0.75, 0.5, 0.25], ratios=[1, 2, 0.5])
Y.shape
torch.Size([1, 2042040, 4])
可以看到扁远,返回錨框變量y
的形狀為(1,錨框個數(shù)落君,4)穿香。將錨框變量y
的形狀變?yōu)椋▓D像高,圖像寬绎速,以相同像素為中心的錨框個數(shù)皮获,4)后,我們就可以通過指定像素位置來獲取所有以該像素為中心的錨框了纹冤。下面的例子里我們訪問以(250洒宝,250)為中心的第一個錨框。它有4個元素萌京,分別是錨框左上角的和軸坐標(biāo)和右下角的和軸坐標(biāo)雁歌,其中和軸的坐標(biāo)值分別已除以圖像的寬和高,因此值域均為0和1之間知残。
# 展示某個像素點(diǎn)的anchor
boxes = Y.reshape((h, w, 5, 4))
boxes[250, 250, 0, :]# * torch.tensor([w, h, w, h], dtype=torch.float32)
# 第一個size和ratio分別為0.75和1, 則寬高均為0.75 = 0.7184 + 0.0316 = 0.8206 - 0.0706
def show_bboxes(axes, bboxes, labels=None, colors=None):
def _make_list(obj, default_values=None):
if obj is None:
obj = default_values
elif not isinstance(obj, (list, tuple)):
obj = [obj]
return obj
labels = _make_list(labels)
colors = _make_list(colors, ['b', 'g', 'r', 'm', 'c'])
for i, bbox in enumerate(bboxes):
color = colors[i % len(colors)]
rect = d2l.bbox_to_rect(bbox.detach().cpu().numpy(), color)
axes.add_patch(rect)
if labels and len(labels) > i:
text_color = 'k' if color == 'w' else 'w'
axes.text(rect.xy[0], rect.xy[1], labels[i],
va='center', ha='center', fontsize=6, color=text_color,
bbox=dict(facecolor=color, lw=0))
我們看到靠瞎,變量boxes
中和軸的坐標(biāo)值分別已除以圖像的寬和高。在繪圖時(shí)求妹,我們需要恢復(fù)錨框的原始坐標(biāo)值乏盐,并因此定義了變量bbox_scale
。現(xiàn)在制恍,我們可以畫出圖像中以(250, 250)為中心的所有錨框了父能。可以看到净神,大小為0.75且寬高比為1的錨框較好地覆蓋了圖像中的狗何吝。
d2l.set_figsize()
fig = d2l.plt.imshow(img)
bbox_scale = torch.tensor([[w, h, w, h]], dtype=torch.float32)
show_bboxes(fig.axes, boxes[250, 250, :, :] * bbox_scale,
['s=0.75, r=1', 's=0.75, r=2', 's=0.75, r=0.5', 's=0.5, r=1', 's=0.25, r=1'])
并交比
一種直觀的方法是衡量錨框和真實(shí)邊界框之間的相似度。我們知道鹃唯,Jaccard系數(shù)(Jaccard index)可以衡量兩個集合的相似度爱榕。給定集合和,它們的Jaccard系數(shù)即二者交集大小除以二者并集大衅禄拧:
實(shí)際上呆细,我們可以把邊界框內(nèi)的像素區(qū)域看成是像素的集合。如此一來,我們可以用兩個邊界框的像素集合的Jaccard系數(shù)衡量這兩個邊界框的相似度絮爷。當(dāng)衡量兩個邊界框的相似度時(shí)趴酣,我們通常將Jaccard系數(shù)稱為交并比(Intersection over Union,IoU)坑夯,即兩個邊界框相交面積與相并面積之比岖寞,如圖9.2所示。交并比的取值范圍在0和1之間:0表示兩個邊界框無重合像素柜蜈,1表示兩個邊界框相等仗谆。
def compute_intersection(set_1, set_2):
"""
計(jì)算anchor之間的交集
Args:
set_1: a tensor of dimensions (n1, 4), anchor表示成(xmin, ymin, xmax, ymax)
set_2: a tensor of dimensions (n2, 4), anchor表示成(xmin, ymin, xmax, ymax)
Returns:
intersection of each of the boxes in set 1 with respect to each of the boxes in set 2, shape: (n1, n2)
"""
# PyTorch auto-broadcasts singleton dimensions
lower_bounds = torch.max(set_1[:, :2].unsqueeze(1), set_2[:, :2].unsqueeze(0)) # (n1, n2, 2)
upper_bounds = torch.min(set_1[:, 2:].unsqueeze(1), set_2[:, 2:].unsqueeze(0)) # (n1, n2, 2)
intersection_dims = torch.clamp(upper_bounds - lower_bounds, min=0) # (n1, n2, 2)
return intersection_dims[:, :, 0] * intersection_dims[:, :, 1] # (n1, n2)
def compute_jaccard(set_1, set_2):
"""
計(jì)算anchor之間的Jaccard系數(shù)(IoU)
Args:
set_1: a tensor of dimensions (n1, 4), anchor表示成(xmin, ymin, xmax, ymax)
set_2: a tensor of dimensions (n2, 4), anchor表示成(xmin, ymin, xmax, ymax)
Returns:
Jaccard Overlap of each of the boxes in set 1 with respect to each of the boxes in set 2, shape: (n1, n2)
"""
# Find intersections
intersection = compute_intersection(set_1, set_2) # (n1, n2)
# Find areas of each box in both sets
areas_set_1 = (set_1[:, 2] - set_1[:, 0]) * (set_1[:, 3] - set_1[:, 1]) # (n1)
areas_set_2 = (set_2[:, 2] - set_2[:, 0]) * (set_2[:, 3] - set_2[:, 1]) # (n2)
# Find the union
# PyTorch auto-broadcasts singleton dimensions
union = areas_set_1.unsqueeze(1) + areas_set_2.unsqueeze(0) - intersection # (n1, n2)
return intersection / union # (n1, n2)
標(biāo)注訓(xùn)練集的錨框
在訓(xùn)練集中,我們將每個錨框視為一個訓(xùn)練樣本淑履。為了訓(xùn)練目標(biāo)檢測模型隶垮,我們需要為每個錨框標(biāo)注兩類標(biāo)簽:一是錨框所含目標(biāo)的類別,簡稱類別秘噪;二是真實(shí)邊界框相對錨框的偏移量狸吞,簡稱偏移量(offset)。在目標(biāo)檢測時(shí)指煎,我們首先生成多個錨框蹋偏,然后為每個錨框預(yù)測類別以及偏移量,接著根據(jù)預(yù)測的偏移量調(diào)整錨框位置從而得到預(yù)測邊界框至壤,最后篩選需要輸出的預(yù)測邊界框威始。
我們知道,在目標(biāo)檢測的訓(xùn)練集中像街,每個圖像已標(biāo)注了真實(shí)邊界框的位置以及所含目標(biāo)的類別黎棠。在生成錨框之后,我們主要依據(jù)與錨框相似的真實(shí)邊界框的位置和類別信息為錨框標(biāo)注镰绎。那么脓斩,該如何為錨框分配與其相似的真實(shí)邊界框呢?
假設(shè)圖像中錨框分別為跟狱,真實(shí)邊界框分別為,且户魏。定義矩陣驶臊,其中第行第列的元素為錨框與真實(shí)邊界框的交并比。
首先叼丑,我們找出矩陣中最大元素关翎,并將該元素的行索引與列索引分別記為。我們?yōu)殄^框分配真實(shí)邊界框鸠信。顯然纵寝,錨框和真實(shí)邊界框在所有的“錨框—真實(shí)邊界框”的配對中相似度最高。接下來星立,將矩陣中第行和第列上的所有元素丟棄爽茴。找出矩陣中剩余的最大元素葬凳,并將該元素的行索引與列索引分別記為。我們?yōu)殄^框分配真實(shí)邊界框室奏,再將矩陣中第行和第列上的所有元素丟棄火焰。此時(shí)矩陣中已有兩行兩列的元素被丟棄。
依此類推胧沫,直到矩陣中所有列元素全部被丟棄昌简。這個時(shí)候,我們已為個錨框各分配了一個真實(shí)邊界框绒怨。
接下來纯赎,我們只遍歷剩余的個錨框:給定其中的錨框,根據(jù)矩陣的第行找到與交并比最大的真實(shí)邊界框南蹂,且只有當(dāng)該交并比大于預(yù)先設(shè)定的閾值時(shí)犬金,才為錨框分配真實(shí)邊界框。
如圖所示碎紊,假設(shè)矩陣中最大值為佑附,我們將為錨框分配真實(shí)邊界框。然后仗考,丟棄矩陣中第2行和第3列的所有元素音同,找出剩余陰影部分的最大元素,為錨框分配真實(shí)邊界框秃嗜。接著如圖9.3(中)所示权均,丟棄矩陣中第7行和第1列的所有元素,找出剩余陰影部分的最大元素锅锨,為錨框分配真實(shí)邊界框叽赊。最后如圖9.3(右)所示,丟棄矩陣中第5行和第4列的所有元素必搞,找出剩余陰影部分的最大元素必指,為錨框分配真實(shí)邊界框。之后恕洲,我們只需遍歷除去的剩余錨框塔橡,并根據(jù)閾值判斷是否為剩余錨框分配真實(shí)邊界框。
現(xiàn)在我們可以標(biāo)注錨框的類別和偏移量了霜第。如果一個錨框被分配了真實(shí)邊界框葛家,將錨框的類別設(shè)為的類別,并根據(jù)和的中心坐標(biāo)的相對位置以及兩個框的相對大小為錨框標(biāo)注偏移量泌类。由于數(shù)據(jù)集中各個框的位置和大小各異癞谒,因此這些相對位置和相對大小通常需要一些特殊變換,才能使偏移量的分布更均勻從而更容易擬合。設(shè)錨框及其被分配的真實(shí)邊界框的中心坐標(biāo)分別為和弹砚,和的寬分別為和双仍,高分別為和,一個常用的技巧是將的偏移量標(biāo)注為
其中常數(shù)的默認(rèn)值為迅栅。如果一個錨框沒有被分配真實(shí)邊界框殊校,我們只需將該錨框的類別設(shè)為背景。類別為背景的錨框通常被稱為負(fù)類錨框读存,其余則被稱為正類錨框为流。
下面演示一個具體的例子。我們?yōu)樽x取的圖像中的貓和狗定義真實(shí)邊界框让簿,其中第一個元素為類別(0為狗敬察,1為貓),剩余4個元素分別為左上角的和軸坐標(biāo)以及右下角的和軸坐標(biāo)(值域在0到1之間)尔当。這里通過左上角和右下角的坐標(biāo)構(gòu)造了5個需要標(biāo)注的錨框莲祸,分別記為(程序中索引從0開始)。先畫出這些錨框與真實(shí)邊界框在圖像中的位置椭迎。
bbox_scale = torch.tensor((w, h, w, h), dtype=torch.float32)
ground_truth = torch.tensor([[0, 0.1, 0.08, 0.52, 0.92],
[1, 0.55, 0.2, 0.9, 0.88]])
anchors = torch.tensor([[0, 0.1, 0.2, 0.3], [0.15, 0.2, 0.4, 0.4],
[0.63, 0.05, 0.88, 0.98], [0.66, 0.45, 0.8, 0.8],
[0.57, 0.3, 0.92, 0.9]])
fig = d2l.plt.imshow(img)
show_bboxes(fig.axes, ground_truth[:, 1:] * bbox_scale, ['dog', 'cat'], 'k')
show_bboxes(fig.axes, anchors * bbox_scale, ['0', '1', '2', '3', '4']);
下面實(shí)現(xiàn)
MultiBoxTarget
函數(shù)來為錨框標(biāo)注類別和偏移量锐帜。該函數(shù)將背景類別設(shè)為0,并令從零開始的目標(biāo)類別的整數(shù)索引自加1(1為狗畜号,2為貓)缴阎。
def assign_anchor(bb, anchor, jaccard_threshold=0.5):
"""
# 按照「9.4.1. 生成多個錨框」圖9.3所講為每個anchor分配真實(shí)的bb, anchor表示成歸一化(xmin, ymin, xmax, ymax).
https://zh.d2l.ai/chapter_computer-vision/anchor.html
Args:
bb: 真實(shí)邊界框(bounding box), shape:(nb, 4)
anchor: 待分配的anchor, shape:(na, 4)
jaccard_threshold: 預(yù)先設(shè)定的閾值
Returns:
assigned_idx: shape: (na, ), 每個anchor分配的真實(shí)bb對應(yīng)的索引, 若未分配任何bb則為-1
"""
na = anchor.shape[0]
nb = bb.shape[0]
jaccard = compute_jaccard(anchor, bb).detach().cpu().numpy() # shape: (na, nb)
assigned_idx = np.ones(na) * -1 # 存放標(biāo)簽初始全為-1
# 先為每個bb分配一個anchor(不要求滿足jaccard_threshold)
jaccard_cp = jaccard.copy()
for j in range(nb):
i = np.argmax(jaccard_cp[:, j])
assigned_idx[i] = j
jaccard_cp[i, :] = float("-inf") # 賦值為負(fù)無窮, 相當(dāng)于去掉這一行
# 處理還未被分配的anchor, 要求滿足jaccard_threshold
for i in range(na):
if assigned_idx[i] == -1:
j = np.argmax(jaccard[i, :])
if jaccard[i, j] >= jaccard_threshold:
assigned_idx[i] = j
return torch.tensor(assigned_idx, dtype=torch.long)
def xy_to_cxcy(xy):
"""
將(x_min, y_min, x_max, y_max)形式的anchor轉(zhuǎn)換成(center_x, center_y, w, h)形式的.
https://github.com/sgrvinod/a-PyTorch-Tutorial-to-Object-Detection/blob/master/utils.py
Args:
xy: bounding boxes in boundary coordinates, a tensor of size (n_boxes, 4)
Returns:
bounding boxes in center-size coordinates, a tensor of size (n_boxes, 4)
"""
return torch.cat([(xy[:, 2:] + xy[:, :2]) / 2, # c_x, c_y
xy[:, 2:] - xy[:, :2]], 1) # w, h
def MultiBoxTarget(anchor, label):
"""
# 按照「9.4.1. 生成多個錨框」所講的實(shí)現(xiàn), anchor表示成歸一化(xmin, ymin, xmax, ymax).
https://zh.d2l.ai/chapter_computer-vision/anchor.html
Args:
anchor: torch tensor, 輸入的錨框, 一般是通過MultiBoxPrior生成, shape:(1,錨框總數(shù)简软,4)
label: 真實(shí)標(biāo)簽, shape為(bn, 每張圖片最多的真實(shí)錨框數(shù), 5)
第二維中蛮拔,如果給定圖片沒有這么多錨框, 可以先用-1填充空白, 最后一維中的元素為[類別標(biāo)簽, 四個坐標(biāo)值]
Returns:
列表, [bbox_offset, bbox_mask, cls_labels]
bbox_offset: 每個錨框的標(biāo)注偏移量,形狀為(bn痹升,錨框總數(shù)*4)
bbox_mask: 形狀同bbox_offset, 每個錨框的掩碼, 一一對應(yīng)上面的偏移量, 負(fù)類錨框(背景)對應(yīng)的掩碼均為0, 正類錨框的掩碼均為1
cls_labels: 每個錨框的標(biāo)注類別, 其中0表示為背景, 形狀為(bn建炫,錨框總數(shù))
"""
assert len(anchor.shape) == 3 and len(label.shape) == 3
bn = label.shape[0]
def MultiBoxTarget_one(anc, lab, eps=1e-6):
"""
MultiBoxTarget函數(shù)的輔助函數(shù), 處理batch中的一個
Args:
anc: shape of (錨框總數(shù), 4)
lab: shape of (真實(shí)錨框數(shù), 5), 5代表[類別標(biāo)簽, 四個坐標(biāo)值]
eps: 一個極小值, 防止log0
Returns:
offset: (錨框總數(shù)*4, )
bbox_mask: (錨框總數(shù)*4, ), 0代表背景, 1代表非背景
cls_labels: (錨框總數(shù), 4), 0代表背景
"""
an = anc.shape[0]
# 變量的意義
assigned_idx = assign_anchor(lab[:, 1:], anc) # (錨框總數(shù), )
print("a: ", assigned_idx.shape)
print(assigned_idx)
bbox_mask = ((assigned_idx >= 0).float().unsqueeze(-1)).repeat(1, 4) # (錨框總數(shù), 4)
print("b: " , bbox_mask.shape)
print(bbox_mask)
cls_labels = torch.zeros(an, dtype=torch.long) # 0表示背景
assigned_bb = torch.zeros((an, 4), dtype=torch.float32) # 所有anchor對應(yīng)的bb坐標(biāo)
for i in range(an):
bb_idx = assigned_idx[i]
if bb_idx >= 0: # 即非背景
cls_labels[i] = lab[bb_idx, 0].long().item() + 1 # 注意要加一
assigned_bb[i, :] = lab[bb_idx, 1:]
# 如何計(jì)算偏移量
center_anc = xy_to_cxcy(anc) # (center_x, center_y, w, h)
center_assigned_bb = xy_to_cxcy(assigned_bb)
offset_xy = 10.0 * (center_assigned_bb[:, :2] - center_anc[:, :2]) / center_anc[:, 2:]
offset_wh = 5.0 * torch.log(eps + center_assigned_bb[:, 2:] / center_anc[:, 2:])
offset = torch.cat([offset_xy, offset_wh], dim = 1) * bbox_mask # (錨框總數(shù), 4)
return offset.view(-1), bbox_mask.view(-1), cls_labels
# 組合輸出
batch_offset = []
batch_mask = []
batch_cls_labels = []
for b in range(bn):
offset, bbox_mask, cls_labels = MultiBoxTarget_one(anchor[0, :, :], label[b, :, :])
batch_offset.append(offset)
batch_mask.append(bbox_mask)
batch_cls_labels.append(cls_labels)
bbox_offset = torch.stack(batch_offset)
bbox_mask = torch.stack(batch_mask)
cls_labels = torch.stack(batch_cls_labels)
return [bbox_offset, bbox_mask, cls_labels]
通過unsqueeze
函數(shù)為錨框和真實(shí)邊界框添加樣本維。
labels = MultiBoxTarget(anchors.unsqueeze(dim=0),ground_truth.unsqueeze(dim=0))
我們根據(jù)錨框與真實(shí)邊界框在圖像中的位置來分析這些標(biāo)注的類別疼蛾。首先肛跌,在所有的“錨框—真實(shí)邊界框”的配對中,錨框與貓的真實(shí)邊界框的交并比最大察郁,因此錨框的類別標(biāo)注為貓衍慎。不考慮錨框或貓的真實(shí)邊界框,在剩余的“錨框—真實(shí)邊界框”的配對中绳锅,最大交并比的配對為錨框和狗的真實(shí)邊界框西饵,因此錨框的類別標(biāo)注為狗酝掩。接下來遍歷未標(biāo)注的剩余3個錨框:與錨框交并比最大的真實(shí)邊界框的類別為狗鳞芙,但交并比小于閾值(默認(rèn)為0.5),因此類別標(biāo)注為背景;與錨框交并比最大的真實(shí)邊界框的類別為貓原朝,且交并比大于閾值驯嘱,因此類別標(biāo)注為貓;與錨框交并比最大的真實(shí)邊界框的類別為貓喳坠,但交并比小于閾值鞠评,因此類別標(biāo)注為背景。
返回值的第二項(xiàng)為掩碼(mask)變量壕鹉,形狀為(批量大小, 錨框個數(shù)的四倍)剃幌。掩碼變量中的元素與每個錨框的4個偏移量一一對應(yīng)。
由于我們不關(guān)心對背景的檢測晾浴,有關(guān)負(fù)類的偏移量不應(yīng)影響目標(biāo)函數(shù)负乡。通過按元素乘法,掩碼變量中的0可以在計(jì)算目標(biāo)函數(shù)之前過濾掉負(fù)類的偏移量脊凰。
labels[1]
返回的第一項(xiàng)是為每個錨框標(biāo)注的四個偏移量抖棘,其中負(fù)類錨框的偏移量標(biāo)注為0。
labels[0]
在模型預(yù)測階段狸涌,我們先為圖像生成多個錨框切省,并為這些錨框一一預(yù)測類別和偏移量。隨后帕胆,我們根據(jù)錨框及其預(yù)測偏移量得到預(yù)測邊界框朝捆。當(dāng)錨框數(shù)量較多時(shí),同一個目標(biāo)上可能會輸出較多相似的預(yù)測邊界框惶楼。為了使結(jié)果更加簡潔右蹦,我們可以移除相似的預(yù)測邊界框。常用的方法叫作非極大值抑制(non-maximum suppression歼捐,NMS)何陆。
我們來描述一下非極大值抑制的工作原理。對于一個預(yù)測邊界框,模型會計(jì)算各個類別的預(yù)測概率房资。設(shè)其中最大的預(yù)測概率為圃验,該概率所對應(yīng)的類別即的預(yù)測類別。我們也將稱為預(yù)測邊界框的置信度巩剖。在同一圖像上,我們將預(yù)測類別非背景的預(yù)測邊界框按置信度從高到低排序钠怯,得到列表佳魔。從中選取置信度最高的預(yù)測邊界框作為基準(zhǔn),將所有與的交并比大于某閾值的非基準(zhǔn)預(yù)測邊界框從中移除晦炊。這里的閾值是預(yù)先設(shè)定的超參數(shù)鞠鲜。此時(shí)宁脊,保留了置信度最高的預(yù)測邊界框并移除了與其相似的其他預(yù)測邊界框。
接下來贤姆,從中選取置信度第二高的預(yù)測邊界框作為基準(zhǔn)榆苞,將所有與的交并比大于某閾值的非基準(zhǔn)預(yù)測邊界框從中移除。重復(fù)這一過程霞捡,直到中所有的預(yù)測邊界框都曾作為基準(zhǔn)坐漏。此時(shí)中任意一對預(yù)測邊界框的交并比都小于閾值。最終碧信,輸出列表中的所有預(yù)測邊界框赊琳。
下面來看一個具體的例子。先構(gòu)造4個錨框砰碴。簡單起見慨畸,我們假設(shè)預(yù)測偏移量全是0:預(yù)測邊界框即錨框。最后衣式,我們構(gòu)造每個類別的預(yù)測概率寸士。
anchors = torch.tensor([[0.1, 0.08, 0.52, 0.92], [0.08, 0.2, 0.56, 0.95],
[0.15, 0.3, 0.62, 0.91], [0.55, 0.2, 0.9, 0.88]])
offset_preds = torch.tensor([0.0] * (4 * len(anchors)))
cls_probs = torch.tensor([[0., 0., 0., 0.,], # 背景的預(yù)測概率
[0.9, 0.8, 0.7, 0.1], # 狗的預(yù)測概率
[0.1, 0.2, 0.3, 0.9]]) # 貓的預(yù)測概率
# 打印一下
fig = d2l.plt.imshow(img)
show_bboxes(fig.axes, anchors * bbox_scale,
['dog=0.9', 'dog=0.8', 'dog=0.7', 'cat=0.9'])
下面我們實(shí)現(xiàn)
MultiBoxDetection
函數(shù)來執(zhí)行非極大值抑制
from collections import namedtuple
Pred_BB_Info = namedtuple("Pred_BB_Info", ["index", "class_id", "confidence", "xyxy"])
def non_max_suppression(bb_info_list, nms_threshold = 0.5):
"""
非極大抑制處理預(yù)測的邊界框
Args:
bb_info_list: Pred_BB_Info的列表, 包含預(yù)測類別、置信度等信息
nms_threshold: 閾值
Returns:
output: Pred_BB_Info的列表, 只保留過濾后的邊界框信息
"""
output = []
# 先根據(jù)置信度從高到低排序
sorted_bb_info_list = sorted(bb_info_list, key = lambda x: x.confidence, reverse=True)
# 循環(huán)遍歷刪除冗余輸出
while len(sorted_bb_info_list) != 0:
best = sorted_bb_info_list.pop(0)
output.append(best)
if len(sorted_bb_info_list) == 0:
break
bb_xyxy = []
for bb in sorted_bb_info_list:
bb_xyxy.append(bb.xyxy)
iou = compute_jaccard(torch.tensor([best.xyxy]),
torch.tensor(bb_xyxy))[0] # shape: (len(sorted_bb_info_list), )
n = len(sorted_bb_info_list)
sorted_bb_info_list = [sorted_bb_info_list[i] for i in range(n) if iou[i] <= nms_threshold]
return output
def MultiBoxDetection(cls_prob, loc_pred, anchor, nms_threshold = 0.5):
"""
# 按照「9.4.1. 生成多個錨框」所講的實(shí)現(xiàn), anchor表示成歸一化(xmin, ymin, xmax, ymax).
https://zh.d2l.ai/chapter_computer-vision/anchor.html
Args:
cls_prob: 經(jīng)過softmax后得到的各個錨框的預(yù)測概率, shape:(bn, 預(yù)測總類別數(shù)+1, 錨框個數(shù))
loc_pred: 預(yù)測的各個錨框的偏移量, shape:(bn, 錨框個數(shù)*4)
anchor: MultiBoxPrior輸出的默認(rèn)錨框, shape: (1, 錨框個數(shù), 4)
nms_threshold: 非極大抑制中的閾值
Returns:
所有錨框的信息, shape: (bn, 錨框個數(shù), 6)
每個錨框信息由[class_id, confidence, xmin, ymin, xmax, ymax]表示
class_id=-1 表示背景或在非極大值抑制中被移除了
"""
assert len(cls_prob.shape) == 3 and len(loc_pred.shape) == 2 and len(anchor.shape) == 3
bn = cls_prob.shape[0]
def MultiBoxDetection_one(c_p, l_p, anc, nms_threshold = 0.5):
"""
MultiBoxDetection的輔助函數(shù), 處理batch中的一個
Args:
c_p: (預(yù)測總類別數(shù)+1, 錨框個數(shù))
l_p: (錨框個數(shù)*4, )
anc: (錨框個數(shù), 4)
nms_threshold: 非極大抑制中的閾值
Return:
output: (錨框個數(shù), 6)
"""
pred_bb_num = c_p.shape[1]
anc = (anc + l_p.view(pred_bb_num, 4)).detach().cpu().numpy() # 加上偏移量
confidence, class_id = torch.max(c_p, 0)
confidence = confidence.detach().cpu().numpy()
class_id = class_id.detach().cpu().numpy()
pred_bb_info = [Pred_BB_Info(
index = i,
class_id = class_id[i] - 1, # 正類label從0開始
confidence = confidence[i],
xyxy=[*anc[i]]) # xyxy是個列表
for i in range(pred_bb_num)]
# 正類的index
obj_bb_idx = [bb.index for bb in non_max_suppression(pred_bb_info, nms_threshold)]
output = []
for bb in pred_bb_info:
output.append([
(bb.class_id if bb.index in obj_bb_idx else -1.0),
bb.confidence,
*bb.xyxy
])
return torch.tensor(output) # shape: (錨框個數(shù), 6)
batch_output = []
for b in range(bn):
batch_output.append(MultiBoxDetection_one(cls_prob[b], loc_pred[b], anchor[0], nms_threshold))
return torch.stack(batch_output)
然后我們運(yùn)行MultiBoxDetection
函數(shù)并設(shè)閾值為0.5碴卧。這里為輸入都增加了樣本維弱卡。我們看到,返回的結(jié)果的形狀為(批量大小, 錨框個數(shù), 6)住册。其中每一行的6個元素代表同一個預(yù)測邊界框的輸出信息婶博。第一個元素是索引從0開始計(jì)數(shù)的預(yù)測類別(0為狗,1為貓)荧飞,其中-1表示背景或在非極大值抑制中被移除凡人。第二個元素是預(yù)測邊界框的置信度。剩余的4個元素分別是預(yù)測邊界框左上角的和軸坐標(biāo)以及右下角的和軸坐標(biāo)(值域在0到1之間)叹阔。
output = MultiBoxDetection(
cls_probs.unsqueeze(dim=0), offset_preds.unsqueeze(dim=0),
anchors.unsqueeze(dim=0), nms_threshold=0.5)
print(output)
fig = d2l.plt.imshow(img)
for i in output[0].detach().cpu().numpy():
if i[0] == -1:
continue
label = ('dog=', 'cat=')[int(i[0])] + str(i[1])
show_bboxes(fig.axes, [torch.tensor(i[2:]) * bbox_scale], label)
實(shí)踐中挠轴,我們可以在執(zhí)行非極大值抑制前將置信度較低的預(yù)測邊界框移除,從而減小非極大值抑制的計(jì)算量耳幢。我們還可以篩選非極大值抑制的輸出岸晦,例如,只保留其中置信度較高的結(jié)果作為最終輸出睛藻。
小結(jié)
- 以每個像素為中心启上,生成多個大小和寬高比不同的錨框。
- 交并比是兩個邊界框相交面積與相并面積之比店印。
- 在訓(xùn)練集中冈在,為每個錨框標(biāo)注兩類標(biāo)簽:一是錨框所含目標(biāo)的類別;二是真實(shí)邊界框相對錨框的偏移量按摘。
- 預(yù)測時(shí)包券,可以使用非極大值抑制來移除相似的預(yù)測邊界框迫靖,從而令結(jié)果簡潔。
多尺度目標(biāo)檢測
在(錨框)中兴使,我們在實(shí)驗(yàn)中以輸入圖像的每個像素為中心生成多個錨框。這些錨框是對輸入圖像不同區(qū)域的采樣照激。然而发魄,如果以圖像每個像素為中心都生成錨框,很容易生成過多錨框而造成計(jì)算量過大俩垃。舉個例子励幼,假設(shè)輸入圖像的高和寬分別為561像素和728像素,如果以每個像素為中心生成5個不同形狀的錨框口柳,那么一張圖像上則需要標(biāo)注并預(yù)測200多萬個錨框()苹粟。
減少錨框個數(shù)并不難。一種簡單的方法是在輸入圖像中均勻采樣一小部分像素跃闹,并以采樣的像素為中心生成錨框嵌削。此外,在不同尺度下望艺,我們可以生成不同數(shù)量和不同大小的錨框苛秕。值得注意的是,較小目標(biāo)比較大目標(biāo)在圖像上出現(xiàn)位置的可能性更多找默。舉個簡單的例子:形狀為艇劫、和的目標(biāo)在形狀為的圖像上可能出現(xiàn)的位置分別有4、2和1種惩激。因此店煞,當(dāng)使用較小錨框來檢測較小目標(biāo)時(shí),我們可以采樣較多的區(qū)域风钻;而當(dāng)使用較大錨框來檢測較大目標(biāo)時(shí)顷蟀,我們可以采樣較少的區(qū)域。
為了演示如何多尺度生成錨框骡技,我們先讀取一張圖像衩椒。它的高和寬分別為561像素和728像素。
d2l.set_figsize()
def display_anchors(fmap_w, fmap_h, s):
# 前兩維的取值不影響輸出結(jié)果(原書這里是(1, 10, fmap_w, fmap_h), 我認(rèn)為錯了)
fmap = torch.zeros((1, 10, fmap_h, fmap_w), dtype=torch.float32)
# 平移所有錨框使均勻分布在圖片上
offset_x, offset_y = 1.0/fmap_w, 1.0/fmap_h
anchors = d2l.MultiBoxPrior(fmap, sizes=s, ratios=[1, 2, 0.5]) + \
torch.tensor([offset_x/2, offset_y/2, offset_x/2, offset_y/2])
bbox_scale = torch.tensor([[w, h, w, h]], dtype=torch.float32)
d2l.show_bboxes(d2l.plt.imshow(img).axes,
anchors[0] * bbox_scale)