M2Det

前言

? ? 純屬個(gè)人學(xué)習(xí),不做商用您觉,如有侵權(quán)請(qǐng)聯(lián)系作者拙寡。此外也并非完全翻譯,那沒有意義琳水,同時(shí)也摻雜了挺多個(gè)人的理解肆糕,不到位的可以互相交流。

? ? 這是開源不久的單階段目標(biāo)檢測(cè)器在孝,主要工作在于特征金字塔方面诚啃,北大和達(dá)摩的作品,AAAI2019收錄浑玛,論文地址:https://arxiv.org/abs/1811.04533绍申,Github地址:https://github.com/qijiezhao/M2Det

摘要

? ? 為了解決物體的多尺度問題顾彰,單階段和雙階段的檢測(cè)器均采用了特征金字塔結(jié)構(gòu)。盡管結(jié)果感人胃碾,但仍存在一定的限制涨享,因?yàn)樗鼈兙皇呛唵蔚厥褂昧薭ackbone生成的天然的多尺度特征金字塔,這些backbone是為分類任務(wù)設(shè)計(jì)的(意思是適用于分類的不一定很好的適用于檢測(cè))仆百。本文中厕隧,為了構(gòu)造更加有利于檢測(cè)多尺度物體的特征金字塔架構(gòu),作者提出了多層級(jí)的FPN(MLFPN),分三步:

1. 融合backbone提取的多層特征圖作為basic feature吁讨。

2. 利用TUM和FVM的模塊交替生成一系列的特征金字塔髓迎。

3.利用SFAM模塊將第2步生成的金字塔中的尺度相同的特征層concat起來。

將該結(jié)構(gòu)稱之為M2Det并集成進(jìn)SSD結(jié)構(gòu)建丧。COCO數(shù)據(jù)集上排龄,測(cè)試時(shí)單尺度下,M2Det 取得了41翎朱,0的mAP,11.8幀橄维,多尺度下取得了 44.2的mAP,達(dá)到了SOTA的結(jié)果拴曲。

介紹

????解決尺度不變性有兩個(gè)方法争舞,第一個(gè)是傳統(tǒng)的圖像金字塔,毫無疑問費(fèi)時(shí)費(fèi)力澈灼,要用的話也只是在測(cè)試的時(shí)候竞川,多尺度的測(cè)試其實(shí)也就是利用了圖像金字塔。第二個(gè)就是現(xiàn)在流行的特征金字塔啦叁熔,圖一中說明了幾種風(fēng)格的特征金字塔委乌,簡單說就是SSD獨(dú)立地利用了最后兩層地特征,并額外的構(gòu)造了四個(gè)金字塔層級(jí)者疤,F(xiàn)PN加入了橫向和自頂向下地連接福澡,STDN只是利用了最后一個(gè)block的特征。

作者diss圖1中a,b,c三種方法的缺陷是:

1. backbone是為分類而設(shè)計(jì)的網(wǎng)絡(luò)驹马,提取的特征不一定適合于檢測(cè)革砸。

2. single-level information,個(gè)人理解的意思是金字塔的每一層的feature map幾乎均是來自于同一層,信息單一(但是FPN也有頂層的啊糯累,作者也沒說明算利,不過大致應(yīng)該是這個(gè)意思)

圖1 特征金字塔結(jié)構(gòu)比

通常意義上認(rèn)為深層的特征有助于分類而淺層任務(wù)有助于回歸,而且泳姐,淺層特征適合于表征外觀簡單的物體效拭,而深層特征適合于表征外觀復(fù)雜的物體。實(shí)際中胖秒,相同大小的物體的外觀復(fù)雜度可能完全不同缎患,比如近處的紅綠燈相比于遠(yuǎn)處的人體,在現(xiàn)有的結(jié)構(gòu)中這兩者應(yīng)該是在同一層級(jí)被檢測(cè)到阎肝,但是這兩者需要的特征語義深度是不一樣的挤渔,人體需要更深的語義而紅綠燈則只需要淺層的語義特征急灭,所以有損現(xiàn)有的檢測(cè)器的性能虑粥。

? ? 因此本文旨在提出一個(gè)更加有效的適合于檢測(cè)的特征金字塔結(jié)構(gòu)挖胃。

Method

? ? 相關(guān)工作就不說了,畢竟論文也需要湊字?jǐn)?shù)区匣。下面的才是本文的工作呕臂,也是重點(diǎn)截歉。圖2是整體架構(gòu)圖脓诡,其中FFM1,TUM擂红,F(xiàn)FMv2以及SFAM均是該文提出的仪际,以下分別介紹:


圖2 M2Det架構(gòu) 尺度表示特征圖的分辨率,層級(jí)可以理解為語義層級(jí)篮条,即每個(gè)尺度的金字塔均由來自于8個(gè)不同語義深度的特征組成(shallow-->medium-->deep)

1. FFMv1

見圖3(a)弟头,有兩個(gè)輸入,來自于圖2的最后兩個(gè)stage的卷積層(SSD結(jié)構(gòu))涉茧,1024*20*20輸出512*20*20上采樣得到512*40*40與256*40*40concat得到768*40*40赴恨。

2. TUM

見圖3(c),U型decoder結(jié)構(gòu)伴栓,輸出6個(gè)尺度的特征圖伦连。有8個(gè)層級(jí),表示有8個(gè)TUM結(jié)構(gòu)钳垮,一個(gè)TUM表示一個(gè)層級(jí)惑淳。仔細(xì)一看應(yīng)該是類似于FPN的那個(gè)top-down和橫向連接的方式

3. FFMv2

兩個(gè)輸入,一個(gè)是FFMv1的輸出饺窿,另一個(gè)是上一個(gè)TUM的尺度最大的輸出(128,40,40)歧焦,cancat一波得到256*40*40,構(gòu)成當(dāng)前層級(jí)的TUM的輸入。

圖3 (a)FFMv1 (b)FFMv2 (c)TUM

除了第一個(gè)TUM的輸入是直接來自于FFMv1的輸出肚医,剩下的TUM均是來自于FFMv2的輸出绢馍。而FFMv2又是來自于FFMv1和上一個(gè)TUM的輸出,加入FFMv1應(yīng)該是類似于殘差的想法肠套。

4. SFAM結(jié)構(gòu)

由圖2可知有了8個(gè)層級(jí)的TUM的輸出舰涌,每個(gè)TUM均會(huì)輸出6個(gè)尺度(圖3c),SFAM就負(fù)責(zé)這些不同層級(jí)不同尺度的融合:對(duì)每一個(gè)尺度而言你稚,從8個(gè)層級(jí)抽取該尺度的特征圖concat到一起(128*8=1024)瓷耙,語義也就實(shí)現(xiàn)了從淺到深,再利用SE block對(duì)channel做了一個(gè)Attention刁赖。之后就得到了6個(gè)尺度的特征金字塔搁痛,金字塔的每一層均是來自于8個(gè)從淺到深的語義層級(jí),也就是所謂的Multi-level宇弛。這就是不同于現(xiàn)有的金字塔的結(jié)構(gòu)的地方落追。

圖4 SFAM結(jié)構(gòu)

最后再利用了兩個(gè)卷積層進(jìn)行分類和回歸就能得到最后的結(jié)果。很明顯涯肩,個(gè)人感覺8個(gè)TUM應(yīng)該會(huì)引入較大的參數(shù)量轿钠,但是從結(jié)果來看卻又還行,參數(shù)比retinanet要少病苗,精度也更高疗垛。


圖5 結(jié)果圖對(duì)比

Discussion

? ? 作者指出,最后結(jié)果的提升在于引入了本文提出的MLFPN硫朦,支撐點(diǎn)有兩:

1. 得到了多尺度多層級(jí)的特征金字塔

2. 金字塔每一層有不同語義層級(jí)的特征贷腕。

說實(shí)話這不就是同一個(gè)理由嘛,就是好就好在用了多尺度多層級(jí)的特征金字塔結(jié)構(gòu)咬展。可視化激活圖如下

圖6 可視化激活圖

這張圖挺有意思的泽裳,說明一下,原圖中有一大一小兩人和兩車以及一個(gè)紅綠燈破婆,小車小人以及紅綠燈尺度相差不大涮总,從圖中可以看出來:
1. 對(duì)比與小車和小人,大車和大人在小尺度的特征圖上激活值更大(原論文筆誤)

2. 小人祷舀、小車和紅綠燈在同一尺度上被激活(可以很直觀的理解瀑梗,因?yàn)槌叨纫恢拢?/p>

3. 紅綠燈、小車以及小人在由淺到深的特征圖上被激活(這就印證了作者的假設(shè)裳扯,由于其復(fù)雜性抛丽,相同尺度的物體需要的語義信息不一定相同

后話

????該文章還是很細(xì)致的,易懂饰豺。感覺能把FPN和本文的工作細(xì)致的區(qū)分開就更好了亿鲜,F(xiàn)PN也是利用了多層的語義信息,但是融合卻沒有本文這么復(fù)雜冤吨,說明了在構(gòu)造特征金字塔上仔細(xì)的研究也能取得不錯(cuò)的成果蒿柳。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市锅很,隨后出現(xiàn)的幾起案子其馏,更是在濱河造成了極大的恐慌,老刑警劉巖爆安,帶你破解...
    沈念sama閱讀 216,544評(píng)論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件叛复,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡扔仓,警方通過查閱死者的電腦和手機(jī)褐奥,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,430評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來翘簇,“玉大人撬码,你說我怎么就攤上這事“姹#” “怎么了呜笑?”我有些...
    開封第一講書人閱讀 162,764評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵夫否,是天一觀的道長。 經(jīng)常有香客問我叫胁,道長凰慈,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,193評(píng)論 1 292
  • 正文 為了忘掉前任驼鹅,我火速辦了婚禮微谓,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘输钩。我一直安慰自己豺型,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,216評(píng)論 6 388
  • 文/花漫 我一把揭開白布买乃。 她就那樣靜靜地躺著姻氨,像睡著了一般。 火紅的嫁衣襯著肌膚如雪为牍。 梳的紋絲不亂的頭發(fā)上哼绑,一...
    開封第一講書人閱讀 51,182評(píng)論 1 299
  • 那天,我揣著相機(jī)與錄音碉咆,去河邊找鬼抖韩。 笑死,一個(gè)胖子當(dāng)著我的面吹牛疫铜,可吹牛的內(nèi)容都是我干的茂浮。 我是一名探鬼主播,決...
    沈念sama閱讀 40,063評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼壳咕,長吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼席揽!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起谓厘,我...
    開封第一講書人閱讀 38,917評(píng)論 0 274
  • 序言:老撾萬榮一對(duì)情侶失蹤幌羞,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后竟稳,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體属桦,經(jīng)...
    沈念sama閱讀 45,329評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,543評(píng)論 2 332
  • 正文 我和宋清朗相戀三年他爸,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了聂宾。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,722評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡诊笤,死狀恐怖系谐,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情讨跟,我是刑警寧澤纪他,帶...
    沈念sama閱讀 35,425評(píng)論 5 343
  • 正文 年R本政府宣布鄙煤,位于F島的核電站,受9級(jí)特大地震影響止喷,放射性物質(zhì)發(fā)生泄漏馆类。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,019評(píng)論 3 326
  • 文/蒙蒙 一弹谁、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧句喜,春花似錦预愤、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,671評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至展懈,卻和暖如春销睁,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背存崖。 一陣腳步聲響...
    開封第一講書人閱讀 32,825評(píng)論 1 269
  • 我被黑心中介騙來泰國打工冻记, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人来惧。 一個(gè)月前我還...
    沈念sama閱讀 47,729評(píng)論 2 368
  • 正文 我出身青樓冗栗,卻偏偏與公主長得像,于是被迫代替她去往敵國和親供搀。 傳聞我的和親對(duì)象是個(gè)殘疾皇子隅居,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,614評(píng)論 2 353

推薦閱讀更多精彩內(nèi)容