CV學(xué)習(xí)筆記(三十):人臉識(shí)別流程分析

*理論聯(lián)系實(shí)際嵌莉,記錄下讀《Deep Face Recognition: A Survey》的心得體會(huì)

一個(gè)完整的人臉識(shí)別流程應(yīng)該包含以下幾個(gè)模塊:

1:人臉的檢測: 定位圖片中存在人臉的位置

2:人臉的對(duì)齊: 對(duì)齊人臉到正則坐標(biāo)系的坐標(biāo)

3:人臉的識(shí)別:

①:活體的檢測

②:人臉的識(shí)別-面部姿態(tài)(處理姿態(tài),表情,遮擋等)锭硼,特征提取鉴未,人臉比對(duì)

上述流程中,第三步是整個(gè)系統(tǒng)的關(guān)鍵妻导。

一:人臉識(shí)別的四個(gè)發(fā)展階段

如圖所示增淹,回顧漫長的人臉識(shí)別的發(fā)展歷程奋构,大致可以劃分為4個(gè)階段

①:1964-1990:初步嘗試

這個(gè)階段是屬于人臉識(shí)別的探索階段,人們嘗試使用一些簡單的算法來初步嘗試人臉的機(jī)器自動(dòng)識(shí)別晌该,人類最早的研究工作至少可追朔到二十世紀(jì)五十年代在心理學(xué)方面的研究和六十年代在工程學(xué)方面的研究肥荔。這一階段主要是從感知和心理學(xué)角度探索人類識(shí)別人臉機(jī)理的,也有從視覺機(jī)理角度進(jìn)行研究的朝群。

②:1991~2000:快速發(fā)展

這一階段研究的重點(diǎn)在人臉識(shí)別所需要的面部特征燕耿。研究者用計(jì)算機(jī)實(shí)現(xiàn)了較高質(zhì)量的人臉灰度圖模型。這一階段工作的特點(diǎn)是識(shí)別過程全部依賴于操作人員姜胖,不是一種可以完成自動(dòng)識(shí)別的系統(tǒng)誉帅,以至于這個(gè)階段的人臉識(shí)別所需求的條件非常嚴(yán)苛,但是依然產(chǎn)生了一些極具影響力的算法和理論。

③:2000~2012:走向人機(jī)交互

這一階段可以理解為是上一階段的提升和改進(jìn)蚜锨,設(shè)計(jì)的系統(tǒng)可以對(duì)姿態(tài)档插,表情,光照踏志,遮擋等環(huán)境條件進(jìn)行處理阀捅,主要研究用幾何特征參數(shù)來表示人臉正面圖像。采用多維特征矢量表示人臉面部特征针余,并設(shè)計(jì)了基于這一特征表示法的識(shí)別系統(tǒng)饲鄙。實(shí)質(zhì)上這一階段的算法(SVM,Boosting),實(shí)質(zhì)上可以理解為帶著一層隱藏節(jié)點(diǎn)的淺層學(xué)習(xí),但是泛化能力依舊有限圆雁。這一階段忍级,人臉識(shí)別開始逐漸成熟,一些實(shí)用的系統(tǒng)開始誕生

④:2012~至今:快速發(fā)展

這一階段,人臉識(shí)別的主流算法開始轉(zhuǎn)為深度學(xué)習(xí)伪朽,深度學(xué)習(xí)的典型代表應(yīng)用便是人臉識(shí)別轴咱,大計(jì)算、大數(shù)據(jù)烈涮、大模型則是深度神經(jīng)網(wǎng)絡(luò)的三大支柱與基礎(chǔ)朴肺。第四階段大量實(shí)用的系統(tǒng)與成功的應(yīng)用案例出現(xiàn),許多現(xiàn)象級(jí)別的網(wǎng)絡(luò)結(jié)構(gòu)開始出現(xiàn)坚洽,許多新興的人臉識(shí)別公司也開始誕生戈稿。

二:人臉識(shí)別的算法流程

人臉的識(shí)別流程:面部姿態(tài)處理(處理姿態(tài),亮度讶舰,表情鞍盗,遮擋),特征提取跳昼,人臉比對(duì)般甲。

1:面部處理face processing

這部分主要對(duì)姿態(tài)(主要)、亮度鹅颊、表情敷存、遮擋進(jìn)行處理,可提升FR模型性能

兩種方式:

one to many:從單個(gè)圖像生成不同姿態(tài)的圖像堪伍,使模型學(xué)習(xí)到不同的姿態(tài)

many to one:從多個(gè)不同姿態(tài)的圖像中恢復(fù)正則坐標(biāo)系視角下的圖像历帚,用于受限條件

2:特征提取 feature extraction

特征提取網(wǎng)絡(luò)可分為backboneassembled兩類

主干網(wǎng)絡(luò)(Backbone network):一些通用的用于提取特征的網(wǎng)絡(luò)

組裝網(wǎng)絡(luò)(Assembled network):用于拼接在主干網(wǎng)絡(luò)前/后的用于特定訓(xùn)練目標(biāo)的網(wǎng)絡(luò)

Backbone Network

①:Mainstream architectures

主流的網(wǎng)絡(luò)架構(gòu)包括AlexNet,VGGNet杠娱,GoogleNet挽牢,ResNet,SENet等

? AlexNet:引入ReLU摊求,dropout禽拔,data augmentation等,第一次在圖像上有效使用Conv

? VGGNet:提出重復(fù)用簡單網(wǎng)絡(luò)塊堆疊;濾波器3x3減少權(quán)重量睹栖,增強(qiáng)表示能力

??GoogleNet:1x1跨通道整合信息硫惕,同時(shí)用于升降維減少參數(shù);并行結(jié)構(gòu)由網(wǎng)絡(luò)自行挑選最好的路徑野来;多個(gè)出口計(jì)算不同位置損失恼除,綜合考慮不同層次的信息

? ResNet:引入殘差塊,削弱層間聯(lián)系曼氛,提高模型容忍度豁辉;使得信息能跨層注入下游,恢復(fù)在信息蒸餾過程中的丟失的信息舀患;殘差塊部分解決梯度消失

?SENet:在上述網(wǎng)絡(luò)中嵌入Squeeze-and-Excitation塊徽级,通過1x1塊顯式地構(gòu)建通道間相互關(guān)系,能自適應(yīng)的校準(zhǔn)通道間的特征響應(yīng)聊浅。

Squeeze:全局平均池化得到1x1xC用于描述全局圖像餐抢,使淺層也能獲得全局感受野;

Excitation:使用FC-ReLU-FC-Sigmoid(類似門的作用)過程中得到各通道權(quán)重低匙,然后rescale到WxHxC旷痕。從全局感受野和其它通道獲得信息,SE塊可自動(dòng)根據(jù)每個(gè)通道的重要程度去提升有用的特征的權(quán)重顽冶,通過這個(gè)對(duì)原始特征進(jìn)行重標(biāo)定欺抗。

Special architectures

除了主流的最廣泛使用的網(wǎng)絡(luò)架構(gòu),還有一些特殊的模塊和技巧渗稍,如max-feature-map activation佩迟,bilinear CNN团滥,pairwise relational network等

Joint alignment-representation networks

這類模型將人臉檢測竿屹、人臉對(duì)齊等融合到人臉識(shí)別的pipeline中進(jìn)行端到端訓(xùn)練。比起分別訓(xùn)練各個(gè)部分的模型灸姊,這種端到端形式訓(xùn)練到的模型具有更強(qiáng)的魯棒性

②:Assembled Network

組裝網(wǎng)絡(luò)用于拼接在主干網(wǎng)前或后方拱燃,用于多輸入或多任務(wù)的場景中

Multi-input networks

在one-to-many這類會(huì)生成不同部位、姿態(tài)的多個(gè)圖像時(shí)力惯,這些圖片會(huì)輸入到一個(gè)multi-input的組裝子網(wǎng)絡(luò)碗誉,一個(gè)子網(wǎng)絡(luò)處理其中一張圖片。然后將各個(gè)輸出進(jìn)行聯(lián)結(jié)父晶、組合等哮缺,再送往后續(xù)網(wǎng)絡(luò)。

如下圖所示的多視點(diǎn)網(wǎng)絡(luò)Multi-view Deep Network (MvDN)進(jìn)行cross-view recognition(對(duì)不同視角下的樣本進(jìn)行分類)

multi-task networks

在某些情景中甲喝,人臉識(shí)別是主要任務(wù)尝苇,若需要同時(shí)完成姿態(tài)估計(jì)、表情估計(jì)、人臉對(duì)齊糠溜、笑容檢測淳玩、年齡估計(jì)等其余任務(wù)時(shí),可以使用multi-task組裝網(wǎng)非竿。

如下圖Deep Residual EquivAriant Mapping (DREAM)蜕着,用于特征層次的人臉對(duì)齊

3:損失函數(shù) loss function

①:Euclidean-distance-based loss:(上圖綠色)

基于歐幾里得距離損失是一種度量學(xué)習(xí)方法,它通過對(duì)輸入圖像提取特征將其嵌入歐幾里得空間红柱,然后減小組內(nèi)距離承匣、增大組間距離,包括contrastive loss豹芯,triplet loss悄雅,center loss和它們的變種

contrastive loss:

損失計(jì)算需要image pair,增加負(fù)例(兩張圖不同臉)距離铁蹈,減少正例(同臉)距離宽闲。它考慮的是正例、負(fù)例之間的絕對(duì)距離握牧,表達(dá)式為:

其中yij=1表示xi,xj是正例pair容诬,yij=0表示負(fù)例pair,f(.)表示特征嵌入函數(shù)

Triplet loss

該損失計(jì)算需要triplet pair沿腰,三張圖览徒,分別為anchor, negative, positive。最小化anchor和positve間距離颂龙,同時(shí)最大化anchor和negative間距離习蓬,表達(dá)式為

注意,數(shù)據(jù)集中大多數(shù)的人臉之間都很容易區(qū)分措嵌,容易區(qū)分的triplet pair算出來的L很小躲叼,導(dǎo)致收斂緩慢,因此triplet pair選擇的時(shí)候需要選擇難以區(qū)分的人臉圖像

Center loss

該損失在原損失的基礎(chǔ)上增加一個(gè)新的中心損失LC企巢,及每個(gè)樣本與它的類別中心之間的距離枫慷,通過懲罰樣本與距離間的距離來降低組內(nèi)距離

②:Angular/cosine-margin-based loss(黃色)

基于角度/余弦邊緣損失,它使得FR網(wǎng)絡(luò)學(xué)到的特征之間有更大的角度/余弦

Softmax

L-Softmax

令原始的Softmax loss中:

同時(shí)增大yi對(duì)應(yīng)的項(xiàng)的權(quán)重可得到Large-margin softmax浪规。該權(quán)重m引入了multiplicative angular/cosine margin

二分類的分類平面為

L-softmax存在問題:收斂比較困難或听,||W1||,||W2||通常也不等

A-softmax (SphereFace)

在L-softmax的基礎(chǔ)上,將權(quán)重L2正則化得到||W||=1笋婿,因此正則化后的權(quán)重落在一個(gè)超球體上

二分類的分類超平面為:

CosFace / ArcFace

與A-softmax相同思想誉裆,但CosFace/ArcFace引入的是additive angular/cosine margin

各類損失函數(shù)對(duì)比:

4:面部匹配 face matching

對(duì)面部認(rèn)證、面部識(shí)別任務(wù)缸濒,多數(shù)方法直接通過余弦距離或者L2距離直接計(jì)算兩個(gè)特征圖的相似性足丢,再通過閾值對(duì)比threshold comparison或者最近鄰NN判斷是否為同一人元镀。此外,也可以通過Metric learning或者稀疏表示分類器sparse-representation-based classifier進(jìn)行后處理霎桅,再進(jìn)行特征匹配

5:數(shù)據(jù)集

數(shù)據(jù)集的Depth栖疑、Breadth

Depth

不同人臉數(shù)較小,但每個(gè)人的圖像數(shù)量很大滔驶。Depth大的數(shù)據(jù)集可以使模型能夠更好的處理較大的組內(nèi)變化intra-class variations遇革,如光線、年齡揭糕、姿態(tài)萝快。

VGGface2(3.3M,9K)

Breadth

不同人臉數(shù)較大著角,但每個(gè)人的圖像數(shù)量較小揪漩。Breadth大的數(shù)據(jù)集可以使模型能夠更好的處理更廣范圍的人群。

MS-Celeb-1M(10M吏口,100K)奄容、MegaFace(Challenge 2,4.7M产徊,670K)

數(shù)據(jù)集的data noise

由于數(shù)據(jù)源和數(shù)據(jù)清洗策略的不同昂勒,各類數(shù)據(jù)集或多或少存在標(biāo)簽噪聲label noise,這對(duì)模型的性能有較大的影響舟铜。

數(shù)據(jù)集的data bias

大多數(shù)數(shù)據(jù)集是從網(wǎng)上收集得來戈盈,因此主要為名人,并且大多大正式場合谆刨。因此這些數(shù)據(jù)集中的圖像大多數(shù)是名人的微笑塘娶、帶妝照片,年輕漂亮痊夭。這與從日常生活中獲取的普通人的普通照片形成的數(shù)據(jù)集(Megaface)有很大的不同刁岸。

另外,人口群體分布不均也會(huì)產(chǎn)生data bias生兆,如人種难捌、性別膝宁、年齡鸦难。通常女性、黑人员淫、年輕群體更難識(shí)別合蔽。

6:評(píng)估任務(wù)及性能指標(biāo)

①:training protocols

subject-dependent protocol:所有用于測試的圖像中的ID已在訓(xùn)練集中存在,F(xiàn)R即一個(gè)特征可分的分類問題(不同人臉視為不同標(biāo)簽介返,為測試圖像預(yù)測標(biāo)簽)拴事。這一protocol僅適用于早期FR研究和小數(shù)據(jù)集沃斤。

subject-independent protocol:測試圖像中的ID可能未在訓(xùn)練集中存在。這一protocol的關(guān)鍵是模型需要學(xué)得有區(qū)分度的深度特征表示

②:Evaluation metric

Face verification:性能評(píng)價(jià)指標(biāo)通常為受試者操作特性曲線(ROC - Receiver operating characteric)刃宵,以及平均準(zhǔn)確度(ACC)

Close-set face identification:rank-N衡瓶,CMC (cumulative match characteristic)

Open-set face identification:

三:一些新的前景

①:Cross-Factor Face Recognition

Cross-Pose:正臉、側(cè)臉牲证,可使用one-to-many augmentation哮针、many-to-one normalizations、multi-input networks坦袍、multi-task learning加以緩解

②:Heterogenous Face Recognition

NIS-VIS FR:低光照環(huán)境中NIR (near-infrared spectrum 近紅外光譜)成像好十厢,因此識(shí)別NIR圖像也是一大熱門話題。但大多數(shù)數(shù)據(jù)集都是VIS (visual ligtht spectrum可見光光譜)圖像捂齐。-- 遷移學(xué)習(xí)

Low-Resolution FR:聚焦提高低分辨率圖像的FR性能

Phote-Sketch FR:聚焦人臉圖像蛮放、素描間的轉(zhuǎn)換。 -- 遷移學(xué)習(xí)奠宜、image2image

③:Multiple (or single) media Face Recognition

Low-Shot FR:實(shí)際場景中包颁,F(xiàn)R系統(tǒng)通常訓(xùn)練集樣本很少(甚至單張)

Set/Template-based FR

Video FR:兩個(gè)關(guān)鍵點(diǎn),1. 各幀信息整合压真,2. 高模糊徘六、高姿態(tài)變化、高遮擋

④:Face Recognition in Industry

3D FR

Partial FR:給定面部的任意子區(qū)域

Face Anti-attack:

FR for Mobile Device

四:參考資料

1:Deep Face Recognition: A Survey

https://arxiv.org/pdf/1804.06655.pdf

2:Deep Residual EquivAriant Mapping https://openaccess.thecvf.com/content_cvpr_2018/html/Cao_Pose-Robust_Face_Recognition_CVPR_2018_paper.html

3:Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks

https://arxiv.org/pdf/1703.1059

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末榴都,一起剝皮案震驚了整個(gè)濱河市待锈,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌嘴高,老刑警劉巖竿音,帶你破解...
    沈念sama閱讀 217,185評(píng)論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異拴驮,居然都是意外死亡春瞬,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,652評(píng)論 3 393
  • 文/潘曉璐 我一進(jìn)店門套啤,熙熙樓的掌柜王于貴愁眉苦臉地迎上來宽气,“玉大人,你說我怎么就攤上這事潜沦√蜒模” “怎么了?”我有些...
    開封第一講書人閱讀 163,524評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵唆鸡,是天一觀的道長涝影。 經(jīng)常有香客問我,道長争占,這世上最難降的妖魔是什么燃逻? 我笑而不...
    開封第一講書人閱讀 58,339評(píng)論 1 293
  • 正文 為了忘掉前任序目,我火速辦了婚禮,結(jié)果婚禮上伯襟,老公的妹妹穿的比我還像新娘猿涨。我一直安慰自己,他們只是感情好姆怪,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,387評(píng)論 6 391
  • 文/花漫 我一把揭開白布嘿辟。 她就那樣靜靜地躺著,像睡著了一般片效。 火紅的嫁衣襯著肌膚如雪红伦。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,287評(píng)論 1 301
  • 那天淀衣,我揣著相機(jī)與錄音昙读,去河邊找鬼。 笑死膨桥,一個(gè)胖子當(dāng)著我的面吹牛蛮浑,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播只嚣,決...
    沈念sama閱讀 40,130評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼沮稚,長吁一口氣:“原來是場噩夢(mèng)啊……” “哼!你這毒婦竟也來了册舞?” 一聲冷哼從身側(cè)響起蕴掏,我...
    開封第一講書人閱讀 38,985評(píng)論 0 275
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎调鲸,沒想到半個(gè)月后盛杰,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,420評(píng)論 1 313
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡藐石,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,617評(píng)論 3 334
  • 正文 我和宋清朗相戀三年即供,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片于微。...
    茶點(diǎn)故事閱讀 39,779評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡逗嫡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出株依,到底是詐尸還是另有隱情驱证,我是刑警寧澤,帶...
    沈念sama閱讀 35,477評(píng)論 5 345
  • 正文 年R本政府宣布勺三,位于F島的核電站雷滚,受9級(jí)特大地震影響需曾,放射性物質(zhì)發(fā)生泄漏吗坚。R本人自食惡果不足惜祈远,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,088評(píng)論 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望商源。 院中可真熱鬧车份,春花似錦、人聲如沸牡彻。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,716評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽庄吼。三九已至缎除,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間总寻,已是汗流浹背器罐。 一陣腳步聲響...
    開封第一講書人閱讀 32,857評(píng)論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留渐行,地道東北人轰坊。 一個(gè)月前我還...
    沈念sama閱讀 47,876評(píng)論 2 370
  • 正文 我出身青樓,卻偏偏與公主長得像祟印,于是被迫代替她去往敵國和親肴沫。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,700評(píng)論 2 354