FAST R-CNN 論文筆記

R-CNN有以下幾個(gè)缺點(diǎn):

1龄寞、訓(xùn)練分多階段,首先fine-tune CNN谬俄,然后訓(xùn)練SVM作為檢測器柏靶,最后訓(xùn)練bonding box 回歸器。

2溃论、訓(xùn)練時(shí)間空間消耗大屎蜓。特征需要寫入硬盤。

3蔬芥、測試時(shí)間比較長梆靖。一張圖片在VGG16網(wǎng)絡(luò)上,GPU運(yùn)行需要47s笔诵。因?yàn)閷γ總€(gè)region proposal都當(dāng)做一幅圖像返吻,通過CNN提取特征。

SPPnets(Spatial pyramid pooling networks):

SPPnets【1】提高了R-CNN的速度乎婿。根據(jù)R-CNN的速度慢的缺點(diǎn)测僵,R-CNN對每個(gè)region proposal都當(dāng)做一幅圖像,通過CNN提取特征谢翎,沒有共享計(jì)算捍靠。SPPnet的思想是把整副圖像輸入CNN網(wǎng)絡(luò),然后把每個(gè)region proposal的對應(yīng)特征提取出來森逮,輸入CNN榨婆。這樣一幅圖像就需要一遍CNN前向傳播,共享了計(jì)算褒侧。但是每個(gè)region proposal的大小形狀不一樣良风,對應(yīng)的特征大小也不一樣谊迄,但全連接層需要特定大小的輸入,所以SPP-NET恰好可以解決這個(gè)問題:


上圖對應(yīng)的就是SPP-NET的網(wǎng)絡(luò)結(jié)構(gòu)圖烟央,任意給一張圖像輸入到CNN统诺,經(jīng)過卷積操作我們可以得到卷積特征(比如VGG16最后的卷積層為conv5_3,共產(chǎn)生512張?zhí)卣鲌D)疑俭。圖中的window是就是原圖一個(gè)region proposal對應(yīng)到特征圖的區(qū)域粮呢,只需要將這些不同大小window的特征映射到同樣的維度,將其作為全連接的輸入钞艇,就能保證只對圖像提取一次卷積層特征啄寡。SPP-NET使用了空間金字塔采樣(spatial pyramid pooling):將每個(gè)window劃分為4*4, 2*2, 1*1的塊,然后每個(gè)塊使用max-pooling下采樣香璃,這樣對于每個(gè)window經(jīng)過SPP層之后都得到了一個(gè)長度為(4*4+2*2+1)*512維度的特征向量这难,將這個(gè)作為全連接層的輸入進(jìn)行后續(xù)操作。

SPPnets因?yàn)閷?shí)現(xiàn)了計(jì)算共享葡秒,所以測試速度比R-CNN快了10~100倍姻乓,訓(xùn)練速度也提高了3倍。

SPPnets也存在著不足:

1.訓(xùn)練還是多階段的眯牧,region proposal+fine-tune CNN+訓(xùn)練svm+fit Bounding box regression蹋岩。特征還是需要寫入硬盤。

2.fine-tune過程中只調(diào)整了全連接層学少,對spatial pyramid pooling之前的層沒有更新剪个。這個(gè)限制了網(wǎng)絡(luò)的準(zhǔn)確性。

FAST R-CNN[2]

針對R-CNN和SPPnets的缺點(diǎn)版确,F(xiàn)AST R-CNN 被提出來扣囊。FAST R-CNN 有以下幾個(gè)優(yōu)點(diǎn):

1.比R-CNN和SPPnets有更高的檢測準(zhǔn)確率(mAP)。

2.使用多任務(wù)損失绒疗,訓(xùn)練是單階段的侵歇。

3.訓(xùn)練時(shí)可以更新所有的層。

4.不需要硬盤存儲(chǔ)提取的特征吓蘑。


FAST R-CNN結(jié)構(gòu)圖

從上圖可以看出惕虑,F(xiàn)AST R-CNN的整個(gè)結(jié)構(gòu)和R-CNN類似,改變的地方有在卷積層后有一個(gè)ROI pooling layer 這個(gè)層的左右是把大小不同的region proposal 的特征下采樣的同樣的大小磨镶。最后輸出采用的多任務(wù)的輸出溃蔫,將分類和BBOX 回歸整合到一塊進(jìn)行。用softmax代替SVM分類器琳猫。測試時(shí)伟叛,最后輸出后要經(jīng)過非極大值抑制和R-CNN一樣。注意:region proposal步驟還是要提前單獨(dú)進(jìn)行的脐嫂。

The RoI pooling layer:

所有的ROI都要下采樣到固定的大小H*W痪伦。若某個(gè)ROI長寬為h侄榴,w。那么要把ROI均勻分成H*W個(gè)方格网沾,每個(gè)方格進(jìn)行max pooling。是一種特殊的SPPnets蕊爵,只有一層辉哥。

fine-tune:

把最后一個(gè)pooling層改為POI層,最后一個(gè)全連接層和softmax層被兩個(gè)姐妹層代替(全連接層和一個(gè)K+1類的softmax攒射,和類別相關(guān)的BBox回歸)醋旦。把輸入改為一幅圖像和一系列的region proposals。

為了能夠高效的fine-tune全部層的權(quán)重会放,采取了新的策略饲齐。每個(gè)mini-batch采樣N幅圖,每幅圖采樣R/N個(gè)ROIs咧最。因?yàn)槊糠鶊D里的POIs可以共享計(jì)算捂人,這樣就提高了訓(xùn)練速度。

Multi task loss:

Each training RoI is labeled with a ground-truth class u and a ground-truth bounding-box regression target v.

Truncated SVD for faster detection

因?yàn)槊糠鶊D有大量的ROIs矢沿,每個(gè)ROI都要經(jīng)過全連接層滥搭,所以全連接層的時(shí)間占了一半左右〉肪ǎ可以通過Truncated SVD壓縮瑟匆。

全連接層的權(quán)重矩陣W可以被如下分解:

因?yàn)閠<<min(u,v),所以參數(shù)大大減少。一個(gè)全連接層可以被分解為兩個(gè)全連接層栽惶。The first of these layers uses the weight matrix ΣtVT (and no biases) and the second uses U(with the original biases associated with W).

參考論文:

1.Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

2.faster R-cnn (ICCV 2015)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末愁溜,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子外厂,更是在濱河造成了極大的恐慌冕象,老刑警劉巖酣衷,帶你破解...
    沈念sama閱讀 216,651評論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異穿仪,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)啊片,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,468評論 3 392
  • 文/潘曉璐 我一進(jìn)店門只锻,熙熙樓的掌柜王于貴愁眉苦臉地迎上來紫谷,“玉大人齐饮,你說我怎么就攤上這事捐寥。” “怎么了祖驱?”我有些...
    開封第一講書人閱讀 162,931評論 0 353
  • 文/不壞的土叔 我叫張陵握恳,是天一觀的道長。 經(jīng)常有香客問我捺僻,道長乡洼,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,218評論 1 292
  • 正文 為了忘掉前任匕坯,我火速辦了婚禮束昵,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘葛峻。我一直安慰自己锹雏,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,234評論 6 388
  • 文/花漫 我一把揭開白布术奖。 她就那樣靜靜地躺著礁遵,像睡著了一般。 火紅的嫁衣襯著肌膚如雪腰耙。 梳的紋絲不亂的頭發(fā)上榛丢,一...
    開封第一講書人閱讀 51,198評論 1 299
  • 那天,我揣著相機(jī)與錄音挺庞,去河邊找鬼晰赞。 笑死,一個(gè)胖子當(dāng)著我的面吹牛选侨,可吹牛的內(nèi)容都是我干的掖鱼。 我是一名探鬼主播,決...
    沈念sama閱讀 40,084評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼援制,長吁一口氣:“原來是場噩夢啊……” “哼戏挡!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起晨仑,我...
    開封第一講書人閱讀 38,926評論 0 274
  • 序言:老撾萬榮一對情侶失蹤褐墅,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后洪己,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體妥凳,經(jīng)...
    沈念sama閱讀 45,341評論 1 311
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,563評論 2 333
  • 正文 我和宋清朗相戀三年答捕,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了逝钥。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,731評論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡拱镐,死狀恐怖艘款,靈堂內(nèi)的尸體忽然破棺而出持际,到底是詐尸還是另有隱情,我是刑警寧澤哗咆,帶...
    沈念sama閱讀 35,430評論 5 343
  • 正文 年R本政府宣布蜘欲,位于F島的核電站,受9級特大地震影響芒填,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,036評論 3 326
  • 文/蒙蒙 一朱庆、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧娱颊,春花似錦、人聲如沸箱硕。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,676評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽惠昔。三九已至,卻和暖如春镇防,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背来氧。 一陣腳步聲響...
    開封第一講書人閱讀 32,829評論 1 269
  • 我被黑心中介騙來泰國打工啦扬, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人考传。 一個(gè)月前我還...
    沈念sama閱讀 47,743評論 2 368
  • 正文 我出身青樓,卻偏偏與公主長得像勤晚,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子赐写,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,629評論 2 354

推薦閱讀更多精彩內(nèi)容