18.1 什么是目標(biāo)檢測(cè)
- 目標(biāo)檢測(cè)的任務(wù)是找出圖像中所有感興趣的目標(biāo)(物體),確定它們的類別和位置
-
計(jì)算機(jī)視覺中關(guān)于圖像識(shí)別有四大類任務(wù):
18.1.1 目標(biāo)檢測(cè)要解決的核心問題
- 除了圖像分類之外骆姐,目標(biāo)檢測(cè)要解決的核心問題是:
- 目標(biāo)可能出現(xiàn)在圖像的任何位置匀归。
- 目標(biāo)有各種不同的大小兽肤。
- 目標(biāo)可能有各種不同的形狀佃蚜。
18.1.2 目標(biāo)檢測(cè)和邊界框
- 在圖像分類任務(wù)里霎冯,假設(shè)圖像里只有一個(gè)主體目標(biāo)恭取,并關(guān)注如何識(shí)別該目標(biāo)的類別妒貌。
- 目標(biāo)檢測(cè)在多個(gè)領(lǐng)域中被廣泛使用通危。例如:
- 在無人駕駛里,需要通過識(shí)別拍攝到的視頻圖像里的車輛灌曙、行人菊碟、道路和障礙的位置來規(guī)劃行進(jìn)線路。
- 機(jī)器人也常通過該任務(wù)來檢測(cè)感興趣的目標(biāo)在刺。
-
安防領(lǐng)域則需要檢測(cè)異常目標(biāo)逆害,如歹徒或者炸彈头镊。
18.2 邊界框
- 在目標(biāo)檢測(cè)里,通常使用邊界框(bounding box)來描述目標(biāo)位置魄幕。
-
邊界框是一個(gè)矩形框相艇,可以由矩形左上角的x和y軸坐標(biāo)與右下角的x和y軸坐標(biāo)確定。
-
18.3 錨框
- 目標(biāo)檢測(cè)算法通常會(huì)在輸入圖像中采樣大量的區(qū)域纯陨,然后判斷這些區(qū)域中是否包含感興趣的目標(biāo)坛芽,并調(diào)整區(qū)域邊緣從而更準(zhǔn)確地預(yù)測(cè)目標(biāo)的真實(shí)邊界框(ground-truth bounding box)
- 方法:
-
它以每個(gè)像素為中心生成多個(gè)大小和寬高比(aspect ratio)不同的邊界框。這些邊界框被稱為錨框(anchor box)
-
18.3.1 生成多個(gè)錨框
假設(shè)輸入圖像高為h翼抠,寬為w靡馁。
分別以圖像的每個(gè)像素為中心生成不同形狀的錨框。
-
設(shè)大小為
-
且寬高比為r> 0机久,那么錨框的寬和高將分別為
當(dāng)中心位置給定時(shí),已知寬和高的錨框是確定的赔嚎。
-
-
下面分別設(shè)定好一組大小
-
如果以每個(gè)像素為中心時(shí)使用所有的大小與寬高比的組合膘盖,輸入圖像將一共得到whnm個(gè)錨框。
- 雖然這些錨框可能覆蓋了所有的真實(shí)邊界框尤误,但計(jì)算復(fù)雜度容易過高侠畔。
-
因此,通常只對(duì)包含S1 or r1的大小與寬高比的組合感興趣损晤,即
-
也就是說软棺,以相同像素為中心的錨框的數(shù)量為n+m-1
- 對(duì)于整個(gè)輸入圖像,將一共生成wh(n+m-1)個(gè)錨框尤勋。
大數(shù)據(jù)視頻推薦:
騰訊課堂
CSDN
大數(shù)據(jù)語音推薦:
企業(yè)級(jí)大數(shù)據(jù)技術(shù)應(yīng)用
大數(shù)據(jù)機(jī)器學(xué)習(xí)案例之推薦系統(tǒng)
自然語言處理
大數(shù)據(jù)基礎(chǔ)
人工智能:深度學(xué)習(xí)入門到精通
- 對(duì)于整個(gè)輸入圖像,將一共生成wh(n+m-1)個(gè)錨框尤勋。