微信搜索:AI算法與圖像處理伐弹,最新干貨全都有
大家好酸舍,今天給大家分享一篇人臉?biāo)惴I(lǐng)域非常知名的paper,RetinaFace(RetinaFace: Single-stage Dense Face Localisation in the Wild)里初。同時(shí)也在文末附上開源項(xiàng)目的鏈接啃勉。跟著我一起讀這篇論文,希望論文的思路能夠?qū)δ阌兴鶈l(fā)双妨,如果覺得有用的淮阐,幫我分享出去,謝啦刁品!
RetinaFace的主要貢獻(xiàn)
摘要
盡管在不受控制的人臉檢測方面已取得了長足的進(jìn)步泣特,但是在wilder數(shù)據(jù)集進(jìn)行準(zhǔn)確有效的面部定位仍然是一個(gè)公開的挑戰(zhàn)。本文提出了一種魯棒的single stage人臉檢測器挑随,名為RetinaFace状您,它利用 額外監(jiān)督(extra-supervised)和自監(jiān)督(self-supervised)結(jié)合的多任務(wù)學(xué)習(xí)(multi-task learning),對不同尺寸的人臉進(jìn)行像素級定位兜挨。具體來說膏孟,我們在以下五個(gè)方面做出了貢獻(xiàn):(1)我們在WILDER FACE數(shù)據(jù)集中手工標(biāo)注了5個(gè)人臉關(guān)鍵點(diǎn)(Landmark),并在這個(gè)額外的監(jiān)督信號的幫助下拌汇,觀察到在hard face檢測的顯著改善柒桑。(2)進(jìn)一步添加自監(jiān)督網(wǎng)絡(luò)解碼器(mesh decoder)分支,與已有的監(jiān)督分支并行預(yù)測像素級的3D形狀的人臉信息噪舀。(3)在WIDER FACE的hard級別的測試集中魁淳,RetinaFace超出the state of the art 平均精度(AP) 1.1%(達(dá)到AP=91.4%)飘诗。(4)在IJB-C測試集中,RetinaFace使state of the art 方法(Arcface)在人臉識別中的結(jié)果得到提升(FAR=1e6界逛,TAR=85.59%)昆稿。(5)采用輕量級的backbone 網(wǎng)絡(luò),RetinaFace能在單個(gè)CPU上實(shí)時(shí)運(yùn)行VGA分辨率的圖像仇奶。
FAR(False Accept Rate)表示錯(cuò)誤接受的比例
TAR(True Accept Rate)表示正確接受的比例
VGA分辨率 320*240貌嫡,目前主要應(yīng)用于手機(jī)及便攜播放器上
1、Introduction
人臉自動定位對許多應(yīng)用而言都是人臉圖像分析的前提步驟该溯,例如人臉屬性分析(比如表情岛抄,年齡)和人臉識別。人臉定位的狹義定義可以參考傳統(tǒng)的人臉檢測狈茉,其目的在沒有任何尺度和位置先驗(yàn)的條件估計(jì)人臉邊界框夫椭。然而,本文提出的人臉定位的廣義定義包括人臉檢測氯庆、人臉對齊蹭秋、像素化人臉解析(pixel-wise face parsing)和三維密集對應(yīng)回歸(3D dense correspondence regression)。這種密集的人臉定位為所有不同的尺度提供了精確的人臉位置信息堤撵。受到一般目標(biāo)檢測方法的啟發(fā)仁讨,即融合了深度學(xué)習(xí)的最新進(jìn)展,人臉檢測最近取得了顯著進(jìn)展实昨。與一般的目標(biāo)檢測不同洞豁,人臉檢測具有較小的比例變化(從1:1到1:1.5),但更大的尺度變化(從幾個(gè)像素到數(shù)千像素)荒给。目前most state-of-the-art 的方法集中于single-stage設(shè)計(jì)丈挟,該設(shè)計(jì)密集采樣人臉在特征金字塔上的位置和尺度,與two-stage方法相比志电,表現(xiàn)出良好的性能和更快的速度曙咽。在此基礎(chǔ)上,我們改進(jìn)了single-stage人臉檢測框架挑辆,并利用強(qiáng)監(jiān)督和自監(jiān)督信號的多任務(wù)損失例朱,提出了一種most state-of-the-art的密集人臉定位方法。我們的想法如圖1所示鱼蝉。
通常茉继,人臉檢測訓(xùn)練過程包含分類和框回歸損失。chen等人觀察到對齊人臉能為人臉分類提供更好的特征蚀乔,建議在聯(lián)合級聯(lián)框架中結(jié)合人臉檢測和對齊烁竭。由此啟發(fā),MTCNN和STN同時(shí)檢測人臉和五個(gè)人臉landmark吉挣。由于訓(xùn)練數(shù)據(jù)的限制派撕,JDA婉弹、MTCNN和STN還沒有驗(yàn)證微小的人臉檢測是否可以從額外的五個(gè)人臉Landmark的監(jiān)督中獲益。我們在本文中所要回答的問題之一是终吼,能否利用由5個(gè)人臉關(guān)鍵點(diǎn)構(gòu)成的額外監(jiān)督信號镀赌,在WIDER FACE的hard測試集上推進(jìn)目前最好的性能(90.3%)。在Mask R-CNN中际跪,通過添加一個(gè)用于預(yù)測目標(biāo)Mask的分支商佛,與現(xiàn)有的用于邊界框識別和回歸的分支并行,顯著提高了檢測性能姆打。這證實(shí)了密集的像素級標(biāo)注也有助于改進(jìn)檢測良姆。遺憾的是,對于具有挑戰(zhàn)性的人臉數(shù)據(jù)集WIDER FACE幔戏,無法進(jìn)行密集的人臉標(biāo)注(以更多的Landmark或語義分割)玛追。由于有監(jiān)督的信號不易獲得,問題是我們能否應(yīng)用無監(jiān)督的方法進(jìn)一步提高人臉檢測闲延。 在FAN中痊剖,提出了一種anchor-level注意力圖(attention map)來改進(jìn)遮擋人臉檢測。然而垒玲,所提出的注意力圖相當(dāng)粗糙陆馁,不包含語義信息。近年來合愈,自監(jiān)督三維形態(tài)模型在wilder實(shí)現(xiàn)了很有前景的三維人臉建模叮贩。特別是Mesh decoder利用節(jié)點(diǎn)形狀和紋理上的圖卷積實(shí)現(xiàn)了超實(shí)時(shí)速度。然而, 應(yīng)用mesh decoder到single-stage檢測的主要挑戰(zhàn)是:(1) 相機(jī)參數(shù)難以準(zhǔn)確去地估計(jì) , (2) 聯(lián)合潛在形狀和紋理表示是從單個(gè)特征向量(特征金字塔上的11 Conv)而不是RoI池化的特征預(yù)測想暗,這意味著特征轉(zhuǎn)換的風(fēng)險(xiǎn)*。本文采與現(xiàn)有監(jiān)督分支并行的用網(wǎng)格解碼器(mesh decoder)通過自監(jiān)督學(xué)習(xí)預(yù)測像素級的三維人臉形狀帘不。綜上所述说莫,我們的主要貢獻(xiàn)如下:
在single-stage設(shè)計(jì)的基礎(chǔ)上,提出了一種新的基于像素級的人臉定位方法RetinaFace寞焙,該方法采用多任務(wù)學(xué)習(xí)策略储狭,同時(shí)預(yù)測人臉評分、人臉框捣郊、五個(gè)人臉關(guān)鍵點(diǎn)以及每個(gè)人臉像素的三維位置和對應(yīng)關(guān)系辽狈。
在WILDER FACE hard子集上,RetinaFace的性能比目前the state of the art的two-stage方法(ISRN)的AP高出1.1% (AP等于91.4%)呛牲。
在IJB-C數(shù)據(jù)集上刮萌,RetinaFace有助于提高ArcFace的驗(yàn)證精度(FAR=1e-6時(shí)TAR等于89:59%)。這表明更好的人臉定位可以顯著提高人臉識別娘扩。
通過使用輕量級backbone網(wǎng)絡(luò)着茸,RetinaFace可以在VGA分辨率的圖片上實(shí)時(shí)運(yùn)行
已經(jīng)發(fā)布了額外的注釋和代碼壮锻,以方便將來的研究
2、Related Work
圖像金字塔 vs .特征金字塔:滑動窗口范例涮阔,其中分類器應(yīng)用于密集的圖像網(wǎng)格猜绣,可以追溯到過去的幾十年。Viola-Jones是里程碑式工作敬特,它探索了級聯(lián)結(jié)構(gòu)掰邢,實(shí)時(shí)有效地從圖像金字塔中剔除假人臉區(qū)域,使得這種尺度不變的人臉檢測框架被廣泛采用伟阔。盡管圖像金字塔上的滑動窗口是主要的檢測范式辣之,隨著特征金字塔的出現(xiàn),多尺度特征圖上的滑動anchor迅速主導(dǎo)了人臉檢測减俏。****Two-stage vs single-stage:目前的人臉檢測方法繼承了一般目標(biāo)檢測方法的一些成果召烂,可分為兩類:Two-stage方法(如Faster R-CNN)和single-stageTwo-stage(如SSD和RetinaNet)。Two-stage方法采用了一種具有高定位精度的“proposal與細(xì)化”機(jī)制娃承。相比之下奏夫,single-stage方法密集采樣人臉位置和尺度,導(dǎo)致訓(xùn)練過程中positive和negative樣本極不平衡历筝。為了解決這種不平衡酗昼,廣泛采用了采樣(Training region-based object detectors with online hard example mining)和重加權(quán)(re-weighting)方法。與two-stage方法相比梳猪,single-stage方法效率更高麻削,召回率更高,但存在假陽性率更高和定位準(zhǔn)確性降低的風(fēng)險(xiǎn)春弥。Context Modelling:提升模型的上下文模塊推理能力以捕獲微小人臉呛哟,SSH和PyramidBox在特征金字塔上用context modules擴(kuò)大歐幾里德網(wǎng)格的感受野。為了提高CNNs的非剛性變換建模能力匿沛,可變形卷積網(wǎng)絡(luò)(deformable convolution network, DCN)采用了一種新的可變形層對幾何變換進(jìn)行建模扫责。WILDER FACE 2018[冠軍方案]表明,對于提高人臉檢測的性能而言逃呼,剛性(expansion)和非剛性(deformation)上下文建模是互補(bǔ)和正交的(orthogonal)鳖孤。
多任務(wù)學(xué)習(xí):在目前廣泛使用的方案是結(jié)合人臉檢測和人臉對齊,對齊后的人臉形狀為人臉分類提供了更好的特征抡笼。在Mask R-CNN中苏揣,通過添加一個(gè)并行分支來預(yù)測目標(biāo)Mask,顯著提高了檢測性能推姻。Densepose采用Mask-RCNN的結(jié)構(gòu)平匈,在每個(gè)選定區(qū)域內(nèi)獲得密集的part標(biāo)簽和坐標(biāo)。然而,[20,1]中的dense回歸分支是通過監(jiān)督學(xué)習(xí)訓(xùn)練的吐葱。此外街望,dense分支是一個(gè)小的FCN應(yīng)用于每個(gè)RoI預(yù)測像素到像素的密集映射。
3弟跑、RetinaFace
3.1. Multi-task Loss
對于任何訓(xùn)練的anchor i灾前,我最小化下面的多任務(wù)的 loss:
(1)人臉分類loss Lcls(pi,pi),這里的pi是anchor i為人臉的預(yù)測概率孟辑,對于pi * 是1是positive anchor哎甲,0代表為negative anchor。分類loss Lcls是softmax loss 在二分類的情況(人臉/非人臉)饲嗽。(2)人臉框回歸loss炭玫,Lbox(ti,ti),這里的ti={tx,ty,tw,th}貌虾,ti * ={tx ,ty ,tw * ,th }分別代表positive anchor相關(guān)的預(yù)測框和真實(shí)框(ground-truth box)的坐標(biāo)吞加。我們按照 [16]對回歸框目標(biāo)(中心坐標(biāo),寬和高)進(jìn)行歸一化尽狠,使用Lbox(ti,ti )=R(ti-ti )衔憨,這里R 是 Robust loss function(smooth-L1)(參考文獻(xiàn)16中定義)(3)人臉的landmark回歸loss Lpts(li,li ),這里li={l x1,l y1,...l x5,l y5},li ={l x1 ,l y1 ,...l x5 ,l y5 }代表預(yù)測的五個(gè)人臉關(guān)鍵點(diǎn)和基準(zhǔn)點(diǎn)(ground-truth)袄膏。五個(gè)人臉關(guān)鍵點(diǎn)的回歸也采用了基于anchor中心的目標(biāo)歸一化践图。(4)Dense回歸loss Lpixel (參考方程3)。loss調(diào)節(jié)參數(shù) λ1-λ3 設(shè)置為0.25,0.1和0.01沉馆,這意味著在監(jiān)督信號中码党,我們增加了邊界框和關(guān)鍵點(diǎn)定位的重要性。3.2. Dense Regression Branch****Mesh Decoder:我們直接使用[70,40]中的網(wǎng)格解碼器(mesh convolution and mesh up-sampling) 斥黑,這是一種基于快速局部譜濾波的圖卷積方法揖盘。為了實(shí)現(xiàn)進(jìn)一步的加速,我們還使用了類似于[70]中方法的聯(lián)合形狀和紋理解碼器锌奴,而不是只解碼形狀的兽狭。下面我們將簡要解釋圖卷積的概念,并概述為什么它們可以用于快速解碼缨叫。如圖3(a)所示椭符,二維卷積運(yùn)算是歐幾里德網(wǎng)格感受野內(nèi)的“核加權(quán)鄰域加和”荔燎。同樣耻姥,圖卷積也采用了圖3(b)所示的相同概念。然而有咨,鄰域距離是通過計(jì)算連接兩個(gè)頂點(diǎn)的最小邊數(shù)來計(jì)算的琐簇。我們遵循[70]來定義一個(gè)著色的臉部網(wǎng)格(mesh)G=(ν, ε), 其中ν∈R ^(n6) 是一組包含聯(lián)合形狀和紋理信息的人臉頂點(diǎn)集合, ε∈{0,1}^(n * n)是一個(gè)稀疏鄰接矩陣,它編碼了頂點(diǎn)之間的連接狀態(tài)婉商。圖拉普拉斯行列式定義為 L = D - ε ∈R ^(n * n)似忧,D ∈ R ^(n * n)其中是一個(gè)對角矩陣 。
遵循[10,40,70 ], 圖卷積的內(nèi)核g0可以表示為K 項(xiàng)的遞歸切比雪夫(Chebyshev)多項(xiàng)式
這里θ ∈ R^K 是一個(gè)切比雪夫系數(shù)向量丈秩,Tk∈ R^(n * n)是在縮放的拉普拉斯中(L~)中評估K項(xiàng)的切比雪夫多項(xiàng)式盯捌。
其中 W和H分別表示anchor crop I*i,j的寬度和高度。
4蘑秽、Experiments
4.1. Dataset
WIDER FACE數(shù)據(jù)集包括32203幅圖像和393703個(gè)人臉邊界框饺著,在尺度、姿態(tài)肠牲、表情幼衰、遮擋和光照方面具有高度差異性。通過隨機(jī)抽取61個(gè)場景類別缀雳,將WIDER FACE數(shù)據(jù)集分為訓(xùn)練(40%)渡嚣、驗(yàn)證(10%)和測試(50%)子集》视。基于EdgeBox的檢測率识椰,通過逐步合并困難樣本來定義三個(gè)難度等級(Easy、Medium和Hard)竖独。額外的標(biāo)注:見圖4和表1,我們定義五個(gè)級別的臉圖像質(zhì)量(根據(jù)在人臉上的難度去標(biāo)注Landmark)并在WIDER FACE的訓(xùn)練和驗(yàn)證子集上標(biāo)注五個(gè)人臉Landmark(即眼中心,鼻子和嘴角)裤唠。我們總共在訓(xùn)練集上標(biāo)注了84.6k個(gè)人臉,在驗(yàn)證集上標(biāo)注了18.5k個(gè)人臉莹痢。
4.2. Implementation details
特征金字塔:RetinaFace采用從P2到P6的特征金字塔層种蘸,其中P2到P5通過使用自頂向下和橫向連接(如[28,29])計(jì)算相應(yīng)的ResNet殘差階段(C2到C5)的輸出。P6是在C5處通過一個(gè)步長2的3x3卷積計(jì)算得到到竞膳。C1-C5是在ImageNet-11k數(shù)據(jù)集上預(yù)先訓(xùn)練好的ResNet-152[21]分類網(wǎng)絡(luò)航瞭,P6是用“Xavier”方法[17]隨機(jī)初始化的。上下文模塊:受 SSH [36] 和 PyramidBox [49]啟發(fā), 我們 還在五個(gè)特征金字塔層應(yīng)用單獨(dú)的上下文模塊來提高 感受野并增加剛性上下文建模的能力坦辟。從2018年 WIDER Face 冠軍方案中受到的啟發(fā), 我們也在橫向連接和使用可變形卷積網(wǎng)絡(luò)(DCN)的上下文模塊中替換所有 3x3的卷積刊侯,進(jìn)一步加強(qiáng)非剛性的上下文建模能力。 Loss Head:****對于negative acnhors锉走,只應(yīng)用分類損失滨彻。對于positive anchors,計(jì)算了多任務(wù)損失挪蹭。我們使用 一 個(gè)跨越不同特征圖亭饵,
在訓(xùn)練過程中秕豫,當(dāng)IoU大于0.5時(shí)朴艰,anchors匹配到ground-truth box,當(dāng)IoU小于0.3時(shí)匹配到background混移。不匹配的anchor在訓(xùn)練中被忽略祠墅。由于大多數(shù)anchor(> 99%)在匹配步驟后為負(fù),我們采用標(biāo)準(zhǔn)OHEM來緩解正歌径、負(fù)訓(xùn)練樣本之間的顯著不平衡毁嗦。更具體地說,我們根據(jù)損失值對負(fù)錨進(jìn)行排序回铛,并選擇損失最大的anchors狗准,這樣負(fù)樣本和正樣本之間的比例至少為3:1。數(shù)據(jù)增強(qiáng):由于WIDER FACE訓(xùn)練集中大約 有 20% 的小人臉 , 我們 遵循 [68, 49 ) 并從原始圖像隨機(jī)crop方形patches并調(diào)整這些 patches到 640640 產(chǎn)生更大的訓(xùn)練人臉茵肃。更具體地說腔长,在原始圖像的短邊[0.3,1]之間隨機(jī)裁剪正方形patches。對于crop邊界上的人臉验残,如果人臉框的中心在crop patches內(nèi)捞附,則保持人臉框的重疊部分。除了隨機(jī)裁剪您没,我們還通過0.5概率的隨機(jī)水平翻轉(zhuǎn)和光度顏色蒸餾來增加訓(xùn)練數(shù)據(jù)[68]鸟召。訓(xùn)練細(xì)節(jié):我們早四個(gè) NVIDIA Tesla P40 (24GB) GPUs上使用 SGD 優(yōu)化器 (momentum為0.9, 權(quán)重衰減為0.0005, batch size為84 )訓(xùn)練 RetinaFace 。學(xué)習(xí)速率從10e-3,在5個(gè)epoch后上升到10e-2氨鹏,然后在第55和第68個(gè)epochs時(shí)除以10欧募。訓(xùn)練過程在第80個(gè)epochs結(jié)束。測試細(xì)節(jié):對于WIDER FACE的測試喻犁,我們遵循[36,68]的標(biāo)準(zhǔn)做法槽片,采用flip以及多尺度(圖像的短邊在[500, 800, 1100, 1400, 1700])策略。使用IoU閾值為0.4肢础,將Box voting[15]應(yīng)用于預(yù)測的人臉boxes的并集还栓。4.3. Ablation Study省略4.4. Face box AccuracyRetinaFace與其他24個(gè)stage-of-the-art的人臉檢測算法對比。RetinaFace在所有的驗(yàn)證集和測試集都達(dá)到的最好的AP传轰,在驗(yàn)證集上的AP是96.9%(easy)剩盒,96.1%(Medium)和91.8%(hard)。在測試集的AP是96.3%,95.6%,91.4%.相比與當(dāng)前最好的方法(Improved selective refinement network for face detection)在困難的數(shù)據(jù)集(包含大量的小人臉)的AP對比(91.4% vs 90.3%)
在圖6中慨蛙,我們展示了在一張密集人臉自拍的定性結(jié)果辽聊。RetinaFace在報(bào)告的1,151張面孔中成功找到約900張臉(閾值為0.5)。除了精確的邊界框外期贫,在姿勢跟匆,遮擋和分辨率的變化下利用RetinaFace的預(yù)測五個(gè)人臉關(guān)鍵點(diǎn)也是非常強(qiáng)大。即使在遮擋嚴(yán)重的條件下出現(xiàn)密集面部定位失敗的情況下通砍,但在一些清晰而大的面部上的密集回歸結(jié)果還是不錯(cuò)的玛臂,甚至對表情變化大也能檢測出來。
4.5. Five Facial Landmark Accuracy
RetinaFace與MTCNN在五個(gè)人臉關(guān)鍵點(diǎn)定位上的定量比較封孙。
4.6. Dense Facial Landmark Accuracy我們評估了AFLW2000-3D數(shù)據(jù)集上密集人臉關(guān)鍵點(diǎn)定位的準(zhǔn)確性[75]迹冤,該數(shù)據(jù)集考慮(1)具有2D投影坐標(biāo)的68個(gè)關(guān)鍵點(diǎn)和(2)具有3D坐標(biāo)的所有關(guān)鍵點(diǎn)。
4.7. Face Recognition Accuracy表4虎忌,我們對比了廣泛使用的MTCNN和推薦的RetinaFace上人臉檢測和對齊對深度人臉識別(即ArcFace)的影響泡徙。這表明了(1)人臉檢測和對準(zhǔn)會嚴(yán)重影響人臉識別性能,并且(2)對于人臉識別應(yīng)用膜蠢,RetinaFace比MTCNN具有更強(qiáng)的基準(zhǔn)堪藐。
在圖9中,我們在每個(gè)圖例的末尾顯示了IJB-C數(shù)據(jù)集上的ROC曲線以及FAR = 1e-6的TAR挑围。我們采用兩種技巧(即翻轉(zhuǎn)測試和人臉檢測得分來權(quán)衡模板中的樣本)庶橱,以逐步提高人臉識別的準(zhǔn)確性。
4.8. Inference Efficiency
RetinaFace進(jìn)行人臉定位贪惹,除了使用ResNet-152(262MB苏章,AP 91.8% 在WIDER FACE hard set)的重模型外,還有MobileNet-0.25(1MB奏瞬,AP78.25 在WIDER FACE hard set)的輕模型枫绅。
5、Conclusions
我們研究了具有挑戰(zhàn)性的問題硼端,即同時(shí)進(jìn)行密集定位和圖像中任意比例尺的人臉對齊并淋,并據(jù)我們所知,我們是第一個(gè)single-stage解決方案(RetinaFace)珍昨。在當(dāng)前最具挑戰(zhàn)性的人臉檢測基準(zhǔn)測試中县耽,我們的解決方案優(yōu)于state of the art的方法句喷。此外,將RetinaFace與state-of-the-art的實(shí)踐相結(jié)合進(jìn)行人臉識別后兔毙,顯然可以提高準(zhǔn)確性唾琼。數(shù)據(jù)和模型已公開提供,以促進(jìn)對該主題的進(jìn)一步研究澎剥。
END
參考文獻(xiàn):
https://blog.csdn.net/weixin_40671425/article/details/97804981
論文地址:https://arxiv.org/pdf/1905.00641.pdf
源碼地址:(MXNet實(shí)現(xiàn))https://github.com/deepinsight/insightface/tree/master/RetinaFace
Pytorch實(shí)現(xiàn):https://github.com/biubug6/Pytorch_Retinaface
caffe實(shí)現(xiàn):https://github.com/wzj5133329/retinaface_caffe
人臉識別中的評價(jià)指標(biāo):https://blog.csdn.net/liuweiyuxiang/article/details/81259492