2020-02-27

RetinaFace


一急侥、論文地址

https://arxiv.xilesou.top/pdf/1905.00641.pdf

什么是RetinaFace提澎?

RetinaFace是一種人臉檢測方案姚垃,這個方案利用self-supervised和extra-supervised多任務(wù)學(xué)習(xí)的優(yōu)勢,可以實現(xiàn)像素級盼忌、多尺度的人臉的檢測积糯。

二掂墓、論文亮點:

1. 手動標(biāo)記了WIDER FACE數(shù)據(jù)庫的人臉landmarks(5個點),基于extra-supervised分支明顯提升了Hard WIDER FACE 的檢測看成;

2. 提出了self-surpervised mesh decoder分支君编,可以預(yù)測出像素級的3D人臉信息;

3. 在WIDER FACE hard test dataset, 利用RetinaFace可以比最好的方案提高1.1%川慌,可以達到91.4%吃嘿;

4. 在IJB-C test set數(shù)據(jù)集上,RetinaFace可以提高ArcFace的人臉驗證結(jié)果梦重;

5. 通過使用輕量級骨干網(wǎng)絡(luò)兑燥,RetinaFace可以在單核CPU上實時檢測VGA-分辨率的圖片。

三琴拧、介紹

?????? 自動人臉檢測可以用于很多場景降瞳,人臉屬性識別(性別,年齡)蚓胸、人臉身份認證挣饥。傳統(tǒng)的人臉檢測只是給出人臉檢測框;這里我們定義的face localization包含人臉檢測沛膳、人臉對準(zhǔn)扔枫、像素級人臉解析、3D dense correspondense regression锹安。這里的face localization可以提供不同尺度的人臉位置信息茧吊。

?????? 受到通用目標(biāo)檢測方案和深度學(xué)習(xí)技術(shù)的發(fā)展,人臉檢測技術(shù)最近獲得了長足發(fā)展八毯。與目標(biāo)檢測不同,人臉檢測的特點是:smaller ratio variation (from 1:1 to 1:1.5), but larger scale variation (from several pixels to thousand pixels)瞄桨。當(dāng)前主流先進技術(shù)聚焦在單階段模型設(shè)計上话速,這被證明是有效的,并且比雙階段模型響應(yīng)速度快芯侥〔唇唬基于這個思想,我們設(shè)計了單階段人臉檢測框架柱查,并期初了先進的dense face localisation method,利用來自self-surpervised和extra-surpervised信號的多任務(wù)損失函數(shù)唉工。其方案圖如下所示:


?????? 典型的人臉檢測包含classification loss 和 box regression loss. Chen et al提出了JDA淋硝,聯(lián)合face detection和alignment的級聯(lián)框架宽菜,通過觀察發(fā)現(xiàn)對齊后的人臉可以給face classification提供更好的特征竿报。受到 Chen et al 研究成果的鼓舞铅乡, MTCNN 和 STN同時檢測人臉和人臉的landmark(5個點)烈菌。由于訓(xùn)練數(shù)據(jù)的限制芽世,JDA,MTCNN咬腕,STN等都未驗證額外的landmarks監(jiān)督是否對小人臉檢測有意義。所以我們將要回答的第一個問題就是涨共,通過額外的landmark監(jiān)督信號是否可以提升當(dāng)前最好的性能(90.3% on the WIDER FACE hard test set)?

?????? 在Mask R-CNN中举反,通過在現(xiàn)有的bouding box recognition and regression 分支中并行添加 predicting object mask分支扒吁,發(fā)現(xiàn)這種方法可以明顯的提升檢測性能。這也證實了dense pixel-wise annotations對提升檢測有幫助雕崩。但不幸的是盼铁,對于像WIDER FACE這種有挑戰(zhàn)的人臉數(shù)據(jù)庫,不太可能完成密集人臉標(biāo)注(即便采用更多的landmarks或者是語義片段)鹏控。因為監(jiān)督信號很難被獲取到肤寝,問題是我們是否可以采用非監(jiān)督的方法進一步提高人臉檢測?

?????? 在FAN中缘揪,an anchor-level attention map被提出用于提高遮擋人臉檢測。然而世吨,提出的attention map非常粗糙并且不包含語義信息呻征。最近,self-supervised 3D morphable models 可以實現(xiàn)有意義的3D人臉建模(in-the-wild)沐祷。特別是Mesh Decoder聯(lián)合shape和texture上采用graph convolutions赖临,可以實時工作灾锯。然而,將mesh decoder應(yīng)用在single-stage detector的主要挑戰(zhàn)是:(1)相機的參數(shù)很難被準(zhǔn)確的估計吵聪;(2)聯(lián)合latent shape和texture representation是從single feature vector(1*1 Conv on feature pyramid)中被預(yù)測兼雄,而不是從 RoI pooled feature,這表明了the risk of feature shift块攒。這篇文章中佃乘,我們通過使用self-supervision learning的方式的mesh decoder去預(yù)測 pixel-wise 3D face shape,并且與已存在的supervised分支并行琅绅。

四、相關(guān)工作

Image pyramid v.s. feature pyramid:

?????? 分類器利用滑動窗口模式應(yīng)用于密集圖片網(wǎng)格料祠,可以被追述幾十年時間髓绽。 Viola-Jones在圖像金字塔中采用級聯(lián)鏈的方式識別人臉,并擁有實時效率,這是里程碑式的工作括饶,使得尺度不變式的人臉檢測框架得到了廣泛采納图焰。雖然通過在圖像金字塔上采用滑動窗口的方法是領(lǐng)先的檢測模式蹦掐,但是隨著特征金字塔的出現(xiàn)、sliding-anchor作用于特征金字塔迅速成為人臉檢測的主流模式藤滥。

two-stage v.s. single-stage:

?????? 當(dāng)前的人臉檢測方式直接繼承了通用目標(biāo)檢測方法中的優(yōu)秀成果社裆,同樣人臉檢測可以分為兩個類別:1)單階段方法(如SSD,RetinaNet)和兩階段方法(如 Faster R-CNN)标沪。

?????? 其中兩階段方法采用“proposal and refinement”機制具有很好的定位精讀,相反谨娜,單階段方法密集采樣人臉的位置和尺度趴梢,這樣會導(dǎo)致在訓(xùn)練階段出現(xiàn)嚴重的正負樣本不均衡現(xiàn)象。為了處理這種不均衡坞靶,sampling和re-weighting等方法被廣泛使用彰阴。與雙階段方法相比拍冠,單階段方法更加有效,并且擁有更高的召回率射众,但是會導(dǎo)致更高的FPR(false positive rate)和影響定位精度叨橱。

?????? Context Modelling可以通過增強模型上下文推理能力來提高微小人臉識別能力,SSH和PyramidBox等在特征金子塔中應(yīng)用上下文模塊可以從 Euclidean grids中增大感受野愉舔。

?????? 為了增大CNN網(wǎng)絡(luò)非剛性變換模型的能力伙菜,可變卷積網(wǎng)絡(luò)(deformable convolution network)采用新型的變形層去建模幾何變換仇让。WIDER FACE Challenge 2018比賽表明rigid(expansion) and non-rigid(deformation) context modelling are conplementary and orthogonal to improve the performance of face detection.

Multi-task Learning:?

?????? 聯(lián)合面部檢測和校準(zhǔn)被廣泛用于生成校準(zhǔn)的人臉用于人臉分類丧叽。在Mask R-CNN中,通過增加predicting an object mask分支可以明顯的提高檢測性能踊淳。Densepose采納了與Mask-RCNN一致的結(jié)構(gòu)迂尝,在選擇的區(qū)域中獲得dense part labels and coordinates. 然而垄开,the dense regression brach通過監(jiān)督學(xué)習(xí)進行訓(xùn)練,此外榜田,the dense branch was a small FCN applied to each RoI to predict a pixel-to-pixel dense mapping锻梳。

五 RetinaFace

5.1 Multitask Loss

對于任意訓(xùn)練anchor i,我們將多任務(wù)損失函數(shù)簡化如下:

(1)對于分類損失疑枯,pi是anchor i為真實人臉的概率,如果anchor i 是positive anchor, 則pi*為1废亭,若anchor i是 negative anchor,則pi*為0豆村。Lcls是Softmax Loss.

(2) 對于Face box regression loss,Lbox, 其中 ti = {tx, ty, tw, th}表示預(yù)測box的坐標(biāo),ti* = {tx*, ty*, tw*, th*}表示和positive anchor對應(yīng)的ground truth坐標(biāo)。我們歸一化the box regression targets(i.e. centre location, width and height), 并且使用Lbox = R(ti - ti*).這里R()采用強健的損失函數(shù)(如smooth - L1)桃漾。

(3) 對于Facial Landmark regression loss, 其中 li = {lx1, ly1, ..., lx5, ly5}表示預(yù)測的five facial landmarks, li*={lx1*,ly1*, ..., lx5*,ly5*}表示和positive anchor對應(yīng)的ground truth 坐標(biāo),這里使用的loss函數(shù)與Face box regression loss基本一致适滓。

(4) Dense回歸參考后面詳解凭迹。

其中三個參數(shù)系數(shù)的值分別是0.25,? 0.1,? 0.01。

5.2 Dense Regression Branch

Mesh Decoder

?????? 我們直接采用論文【70,40】中的mesh decoder(mesh卷積和mesh 上采樣)苦囱,這是一種基于fast localised spectral filtering的圖卷積方法。為了實現(xiàn)進一步的加速鱼鸠,我們使用與論文【70】類似的聯(lián)合shape和texture的decoder蚀狰,相對而言論文【40】值使用了decoded shape麻蹋。

?????? 接下來我們將會簡單解釋圖卷積的概念焊切,并概述為什么它可以被用于fast decoding. 如圖Fig.3(a)所示扮授,2D卷積就是在Eucligeangrid感受野內(nèi)的“kernel-weight neighbour sum”。類似地蛛蒙,圖卷積采用類似的概念糙箍,如圖Fig.3(b)所示。然而牵祟,邊緣距離是通過在圖上計算邊緣連接兩個頂點的最小數(shù)量深夯。按照論文【70】定義a coloured face mesh\varrho =(\upsilon , \varepsilon ), 其中\upsilon \in R^n  是一組面頂點,包含joint shape and texture information.\varepsilon 是稀疏連接矩陣诺苹,編碼兩個頂點之間的鏈接狀態(tài)咕晋。

圖拉普拉斯算子定義如下:L=D-\varepsilon ,其中D是對角矩陣。

?????? 參照論文【10,40,70】采用kernel的g_{\theta } 的圖卷積可以被表示為按順序K截斷的遞歸切比雪夫多項式收奔。

Differentiable Renderer

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末掌呜,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子坪哄,更是在濱河造成了極大的恐慌势篡,老刑警劉巖兑宇,帶你破解...
    沈念sama閱讀 210,914評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異枚驻,居然都是意外死亡,警方通過查閱死者的電腦和手機铃拇,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 89,935評論 2 383
  • 文/潘曉璐 我一進店門显晶,熙熙樓的掌柜王于貴愁眉苦臉地迎上來磷雇,“玉大人盒使,你說我怎么就攤上這事苞慢∩苋” “怎么了?”我有些...
    開封第一講書人閱讀 156,531評論 0 345
  • 文/不壞的土叔 我叫張陵潦刃,是天一觀的道長。 經(jīng)常有香客問我胧洒,道長,這世上最難降的妖魔是什么列赎? 我笑而不...
    開封第一講書人閱讀 56,309評論 1 282
  • 正文 為了忘掉前任诗越,我火速辦了婚禮嚷狞,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己只酥,他們只是感情好损离,可當(dāng)我...
    茶點故事閱讀 65,381評論 5 384
  • 文/花漫 我一把揭開白布窟勃。 她就那樣靜靜地躺著汁咏,像睡著了一般。 火紅的嫁衣襯著肌膚如雪轰驳。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,730評論 1 289
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死涮帘,一個胖子當(dāng)著我的面吹牛疮鲫,可吹牛的內(nèi)容都是我干的妇多。 我是一名探鬼主播绢彤,決...
    沈念sama閱讀 38,882評論 3 404
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼杖虾!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起媒熊,我...
    開封第一講書人閱讀 37,643評論 0 266
  • 序言:老撾萬榮一對情侶失蹤芦鳍,失蹤者是張志新(化名)和其女友劉穎皮仁,沒想到半個月后贷祈,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體粟耻,經(jīng)...
    沈念sama閱讀 44,095評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡册烈,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,448評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片移剪。...
    茶點故事閱讀 38,566評論 1 339
  • 序言:一個原本活蹦亂跳的男人離奇死亡究珊,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出纵苛,到底是詐尸還是另有隱情剿涮,我是刑警寧澤,帶...
    沈念sama閱讀 34,253評論 4 328
  • 正文 年R本政府宣布攻人,位于F島的核電站取试,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏怀吻。R本人自食惡果不足惜想括,卻給世界環(huán)境...
    茶點故事閱讀 39,829評論 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望烙博。 院中可真熱鬧瑟蜈,春花似錦、人聲如沸渣窜。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,715評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽乔宿。三九已至位迂,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背掂林。 一陣腳步聲響...
    開封第一講書人閱讀 31,945評論 1 264
  • 我被黑心中介騙來泰國打工臣缀, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人泻帮。 一個月前我還...
    沈念sama閱讀 46,248評論 2 360
  • 正文 我出身青樓精置,卻偏偏與公主長得像,于是被迫代替她去往敵國和親锣杂。 傳聞我的和親對象是個殘疾皇子脂倦,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,440評論 2 348