第一篇 FCN
論文題目:Fully Convolutional Networks for Semantic Segmentation
提出時(shí)間:2015年
論文地址:https://openaccess.thecvf.com/content_cvpr_2015/papers/Long_Fully_Convolutional_Networks_2015_CVPR_paper.pdf
針對(duì)問(wèn)題:
過(guò)往的檢測(cè)網(wǎng)絡(luò)大都采用了全連接層來(lái)對(duì)CNN提取到的特征進(jìn)行處理轨帜。作者嘗試討論那能否設(shè)計(jì)一個(gè)全部由卷積層構(gòu)建的網(wǎng)絡(luò)模型疮装,來(lái)達(dá)到更精細(xì)的檢測(cè)效果展懈。
創(chuàng)新點(diǎn):
設(shè)計(jì)了一種全卷機(jī)的網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)對(duì)輸入圖像的像素級(jí)分割任務(wù)。采用反卷積層對(duì)最后一個(gè)卷積層的feature map進(jìn)行上采樣, 使它恢復(fù)到輸入圖像相同的尺寸逊抡,從而可以對(duì)每個(gè)像素都產(chǎn)生了一個(gè)預(yù)測(cè), 同時(shí)保留了原始輸入圖像中的空間信息, 最后在上采樣的特征圖上進(jìn)行逐像素分類南誊。最后逐個(gè)像素計(jì)算softmax分類的損失, 相當(dāng)于每一個(gè)像素對(duì)應(yīng)一個(gè)訓(xùn)練樣本了罪。
詳解博客:https://blog.csdn.net/qq_36269513/article/details/80420363
第二篇 OHEM
論文題目:Training Region-based Object Detectors with Online Hard Example Mining
提出時(shí)間:2016年
論文地址:https://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Shrivastava_Training_Region-Based_Object_CVPR_2016_paper.pdf
針對(duì)問(wèn)題:
本文作者的出發(fā)點(diǎn)是對(duì)faster rcnn論文算法的訓(xùn)練流程進(jìn)行改進(jìn)飒赃,從而提高該模型的檢測(cè)精度利花。該操作也側(cè)面說(shuō)明了網(wǎng)絡(luò)的訓(xùn)練過(guò)程,難例對(duì)模型性能提升是重要的盒揉。
創(chuàng)新點(diǎn):
利用難例挖掘技術(shù)在CNN中的應(yīng)用來(lái)優(yōu)化訓(xùn)練流程晋被,從而使得Fast RCNN網(wǎng)絡(luò)模型的檢測(cè)精度提高。在第t次迭代時(shí)刚盈,輸入圖片到卷積網(wǎng)絡(luò)中得到特征圖,然后 把特征圖和所有的RoIs輸入到RoI網(wǎng)絡(luò)中并計(jì)算所有RoIs的損失挂脑,把損 失從高到低排序藕漱,然后選擇B/N個(gè)RoIs欲侮。這里有個(gè)小問(wèn)題,位置上相鄰 的RoIs通過(guò)RoI網(wǎng)絡(luò)后會(huì)輸出相近的損失肋联,這樣損失就翻倍威蕉。作者為了 解決這個(gè)問(wèn)題,使用了NMS(非最大值抑制)算法橄仍,先把損失按高到低排 序韧涨,然后選擇最高的損失,并計(jì)算其他RoI這個(gè)RoI的IoU(交叉比)侮繁,移除IoU大于一定閾值的RoI虑粥,然后反復(fù)上述流程直到選擇了B/N個(gè)RoIs。
詳解博客:https://zhuanlan.zhihu.com/p/58162337
第三篇 YOLOv1
論文題目:You Only Look Once: Unified, Real-Time Object Detection
提出時(shí)間:2016年
論文地址:https://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Redmon_You_Only_Look_CVPR_2016_paper.pdf
針對(duì)問(wèn)題:
主流的檢測(cè)網(wǎng)絡(luò)都是兩段式的宪哩,因?yàn)橐忍崛∫伤颇繕?biāo)框娩贷,再對(duì)目標(biāo)框進(jìn)行精細(xì)定位和分類,所以耗時(shí)都會(huì)很高锁孟,那么能不能設(shè)計(jì)一種一段式的網(wǎng)絡(luò)彬祖,既能達(dá)到檢測(cè)的效果,又能降低耗時(shí)呢品抽?
創(chuàng)新點(diǎn):
作者創(chuàng)新的提出了储笑,依賴回歸和在輸出特征圖上劃分grid直接進(jìn)行回歸和分類的網(wǎng)絡(luò)模型,從而去掉了顯式的提取疑似目標(biāo)框的流程圆恤,回歸的思路一定程度上突倍,可以參考第二章第二篇,該網(wǎng)絡(luò)模型設(shè)計(jì)思路降低了檢測(cè)流程的耗時(shí)哑了,形成了新的一段式檢測(cè)網(wǎng)絡(luò)設(shè)計(jì)模式赘方。
詳解博客:http://www.reibang.com/p/cad68ca85e27
第四篇 G-CNN
論文題目:G-CNN: an Iterative Grid Based Object Detector
提出時(shí)間:2016年
論文地址:https://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Najibi_G-CNN_An_Iterative_CVPR_2016_paper.pdf
針對(duì)問(wèn)題:
既然yolov1創(chuàng)新的提出了grid劃分網(wǎng)格并在網(wǎng)格內(nèi)直接回歸目標(biāo)框的思路來(lái)替換顯式提取目標(biāo)框的方案,那能不能將該方案應(yīng)用到兩段式的網(wǎng)絡(luò)模型中弱左,從而即利用了兩段式的精度又加快了速度窄陡?
創(chuàng)新點(diǎn):
作者在fast rcnn上做試驗(yàn),用grid來(lái)替換selective search算法拆火,并逐步迭代回歸到目標(biāo)的真實(shí)位置跳夭。
詳解博客:http://www.reibang.com/p/17139e4c5580
第五篇 AZ-Net
論文題目:Adaptive Object Detection Using Adjacency and ZoomPrediction
提出時(shí)間:2016年CVPR
論文地址:https://openaccess.thecvf.com/content_cvpr_2016/papers/Lu_Adaptive_Object_Detection_CVPR_2016_paper.pdf
針對(duì)問(wèn)題:
作者嘗試對(duì)faster rcnn中的RPN部分進(jìn)行優(yōu)化,主要是在保證精度的前提下们镜,提高該部分的目標(biāo)框提取速度币叹,從而實(shí)現(xiàn)對(duì)faster rcnn的優(yōu)化。
創(chuàng)新點(diǎn):
AZ-net模狭,主要對(duì)深度檢測(cè)網(wǎng)絡(luò)中的RPN部分進(jìn)行優(yōu)化颈抚,利用遞歸的思路來(lái)避免生成Region proposal時(shí)候的大量重復(fù)操作和計(jì)算資源浪費(fèi)。也就是對(duì)輸入圖像分塊嚼鹉,再逐步向下分塊直到當(dāng)前塊判斷無(wú)目標(biāo)贩汉。
詳解博客:https://blog.csdn.net/qq_34135560/article/details/84951384
第六篇 Inside-OutsideNet
論文題目:Inside-OutsideNet:Detecting Objects in Context with Skip Poolingand Recurrent Neural Networks
提出時(shí)間:2016年
論文地址:https://openaccess.thecvf.com/content_cvpr_2016/papers/Bell_Inside-Outside_Net_Detecting_CVPR_2016_paper.pdf
針對(duì)問(wèn)題:
由第一章第九篇論文驱富,我們可以知悉網(wǎng)絡(luò)的淺層和深層所獲取到的圖像特征是從局部到整體逐漸抽象的。那么對(duì)最終的目標(biāo)檢測(cè)任務(wù)來(lái)說(shuō)匹舞,我們就需要淺層的特征信息來(lái)對(duì)較小目標(biāo)進(jìn)行檢測(cè)褐鸥,還需要深層的特征信息來(lái)對(duì)較大目標(biāo)實(shí)現(xiàn)檢測(cè),如何協(xié)調(diào)淺層和深層的特征來(lái)達(dá)到對(duì)不同尺度的目標(biāo)都比較好的檢測(cè)效果呢赐稽?
創(chuàng)新點(diǎn):
提取不同層的特征叫榕,經(jīng)過(guò)L2正則后拼接,并使用了iRNN結(jié)構(gòu)來(lái)提高檢測(cè)效果姊舵,是2016年精度最高的監(jiān)測(cè)模型晰绎,最早的利用多層特征融合來(lái)進(jìn)行檢測(cè)的論文。
詳解博客:https://blog.csdn.net/u014119694/article/details/88423331
第七篇 HyperNet
論文題目:HyperNet: Towards Accurate Region Proposal Generationand Joint Object Detection
提出時(shí)間:2016年
論文地址:https://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Kong_HyperNet_Towards_Accurate_CVPR_2016_paper.pdf
針對(duì)問(wèn)題:
有faster rcnn網(wǎng)絡(luò)里的RPN子網(wǎng)絡(luò)以后蠢莺,雖然將先驗(yàn)的目標(biāo)框從幾千減少到了幾百寒匙,但是還是存在著大量的冗余,如何近一步提高先驗(yàn)框提取部分的性能并改進(jìn)檢測(cè)網(wǎng)絡(luò)躏将?
創(chuàng)新點(diǎn):
作者嘗試跳層提取特征锄弱,即分別從網(wǎng)絡(luò)的淺層和深層提取特征。既能獲取高層語(yǔ)義祸憋,又可以得到低層高分辨率的位置信息会宪。提高小目標(biāo)檢測(cè)效果。
詳解博客:https://blog.csdn.net/qq_35608277/article/details/80432907
第八篇 CRAFT
論文題目:CRAFT Objects from Images
提出時(shí)間:2016年
論文地址:https://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Yang_CRAFT_Objects_From_CVPR_2016_paper.pdf
針對(duì)問(wèn)題:
作者在本篇論文中蚯窥,認(rèn)為faster rcnn網(wǎng)絡(luò)模型仍舊存在改進(jìn)的空間掸鹅,通過(guò)任務(wù)細(xì)化,來(lái)改進(jìn)網(wǎng)絡(luò)RPN部分和分類部分的性能拦赠。
創(chuàng)新點(diǎn):
對(duì)于生成目標(biāo)proposals階段巍沙,論文在RPN的后面加了一個(gè)二值的Fast RCNN分類器來(lái)對(duì)RPN生成的proposals進(jìn)行進(jìn)一步的篩選,留下一些高質(zhì)量的proposals荷鼠;對(duì)于第二階段的目標(biāo)proposals分類句携,論文在原來(lái)的分類器后又級(jí)聯(lián)了N個(gè)類別(不包含背景類)的二值分類器以進(jìn)行更精細(xì)的目標(biāo)檢測(cè)
詳解博客:https://blog.csdn.net/scarecrowliu/article/details/53067529
第九篇 MultiPathNet
論文題目:A MultiPath Network for Object Detection
提出時(shí)間:2016年
論文地址:https://arxiv.org/pdf/1604.02135.pdf
針對(duì)問(wèn)題:
本篇論文也是在總結(jié)跳層提取特征、輸入訓(xùn)練樣本的多個(gè)不同IOU等模型訓(xùn)練技巧的基礎(chǔ)上允乐,對(duì)faster rcnn模型進(jìn)行的改進(jìn)矮嫉。
創(chuàng)新點(diǎn):
MPN網(wǎng)絡(luò),是對(duì)Fast R-CNN的改進(jìn)牍疏,改進(jìn)的點(diǎn)主要有三個(gè):
(1)跳躍結(jié)構(gòu):在VGG網(wǎng)絡(luò)里蠢笋,從conv1到conv4,每層conv之后都有一次2*2的max pooling鳞陨,4次max pooling之后昨寞,特征圖將下采樣到原先的1/16,這會(huì)導(dǎo)致信息的丟失。所以將具有豐富信息的較早層連接至后面的網(wǎng)絡(luò)编矾。(2)中心區(qū)域:背景信息對(duì)于小目標(biāo)檢測(cè)識(shí)別來(lái)說(shuō)是很有用的熟史,所以作者使用了4種不同大小的region crops馁害,分別是1x窄俏,1.5x,2x和4x碘菜。在每種情況下凹蜈,使用RoI Pooling技術(shù)將它們固定到相同大小。送入全連接層忍啸。四個(gè)輸出連接成一個(gè)長(zhǎng)向量仰坦,用于打分和框回歸。(3)積分損失函數(shù):Fast R-CNN里所有IoU>50%的proposals的得分是相等的计雌,作者改進(jìn)了損失函數(shù)悄晃,設(shè)置6個(gè)不同大小的IoU,分別計(jì)算得分然后求平均凿滤。這樣的話妈橄,IoU越高,得分就越高
詳解博客:https://blog.csdn.net/qq_37124765/article/details/54906517
第十篇 SSD
論文題目:SSD: Single Shot MultiBox Detector
提出時(shí)間:2016年ECCV
論文地址:https://link.springer.com/chapter/10.1007/978-3-319-46448-0_2
針對(duì)問(wèn)題:
一段式的網(wǎng)絡(luò)從yolov1推出以后翁脆,因其對(duì)遮擋多目標(biāo)檢測(cè)效果不理想眷蚓、小目標(biāo)檢測(cè)不理想等原因,仍舊存在很大的提升空間反番,本篇論文的作者通過(guò)結(jié)合多層特征的檢測(cè)結(jié)果沙热,對(duì)yolov1進(jìn)行改進(jìn),從而增強(qiáng)其對(duì)目標(biāo)尤其是小目標(biāo)的檢測(cè)能力罢缸,成為了一段式檢測(cè)網(wǎng)絡(luò)的里程碑篙贸。
創(chuàng)新點(diǎn):
繼yolov1之后,一段式目標(biāo)檢測(cè)的又一里程碑枫疆,相較于yolov1爵川,采用了多個(gè)卷積層的特征來(lái)進(jìn)行檢測(cè),顯著提升對(duì)小目標(biāo)的檢測(cè)能力养铸;第二點(diǎn)是引入了初始框的設(shè)計(jì)雁芙,也就是對(duì)用于檢測(cè)的特征圖,也就是說(shuō)在每個(gè)特征圖的單元格的中心設(shè)置一系列尺度和大小不同的初始框钞螟,這些初始框都會(huì)反向映射到原圖的某一個(gè)位置兔甘,如果某個(gè)初始框的位置正好和真實(shí)目標(biāo)框的位置重疊度很高,那么就通過(guò)損失函數(shù)預(yù)測(cè)這個(gè)初始框的類別鳞滨,同時(shí)對(duì)這些初始框的形狀進(jìn)行微調(diào)洞焙,以使其符合我們標(biāo)記的真實(shí)目標(biāo)框。以這種設(shè)計(jì)來(lái)完成一段式網(wǎng)絡(luò)的anchor設(shè)定。
詳解博客:https://blog.csdn.net/u013044310/article/details/89380273