一.人臉檢測/跟蹤
人臉檢測/跟蹤的目的是在圖像/視頻中找到各個人臉所在的位置和大小灌砖;對于跟蹤而言璧函,還需要確定幀間不同人臉間的對應關系。
1.Robust?Real-time?Object?Detection.?Paul?Viola,?Michael?Jones.?IJCV?2004.
入選理由:
Viola的人臉檢測工作使得人臉檢測真正變得實時可用基显。他們發(fā)表了一系列文章蘸吓,這篇是引用率最高的一篇。
2.Fast?rotation?invariant?multi-view?face?detection?based?on?real?Adaboost.?Bo?Wu,?Haizhou?Ai,?Chang?Huang,?Shihong?Lao.?AFGR?2004.
人選理由:
自viola之后续镇,有很多改進文章美澳,這篇文章只是其中之一销部。之所以選擇這篇摸航,是因為其貢獻點相對比較多:一是因為這篇文章第一次將real?adaboost應用于物體檢測制跟,二是其提出了一個比較成熟實用的多姿態(tài)人臉檢測框架,三是其提出的nest結構對cascade結構的改進確實有不錯的效果酱虎。
3.Tracking?in?Low?Frame?Rate?Video:?A?Cascade?Particle?Filter?with?Discriminative?Observers?of?Different?Life?Spans.?Yuan?Li,?Haizhou?Ai,?Yamashita?T.,?Shihong?Lao.?CVPR?2007.
入選理由:
人臉跟蹤是人臉識別中非常重要的模塊雨膨。這篇文章是比較好的將人臉檢測模型與跟蹤進行結合,將離線模型和在線模型結合的工作读串,而且獲得了CVPR?2007?Best?Student?Paper聊记,是中國大陸學生第一次獲此殊榮。
二.人臉特征點定位
人臉特征點定位的目的是在人臉檢測/跟蹤獲取的人臉區(qū)域的基礎上恢暖,進一步排监,確定臉部特征點(眼睛、嘴巴中心點杰捂、眼睛舆床、嘴巴輪廓特征點、器官輪廓特征點等)的位置嫁佳。人臉特征點定位的基本思路挨队,主要是將人臉局部器官的紋理特征和器官特征點之間的位置約束進行結合來進行處理。
4.Active?Shape?Models-Their?Training?and?Application.?T.?F.?COOTES,?C.?J.?TAYLOR,?D.?H.?COOPER,?AND?J.?GRAHA.?COMPUTER?VISION?AND?IMAGE?UNDERSTANDING.?1995.
入選理由:
早期的人臉特征點定位蒿往,很多工作主要集中在定位眼球中心點和嘴巴中心點等兩三個關鍵點上盛垦,但是,后來慢慢大家認為瓤漏,引入更多的點腾夯,并加入相互約束會提高定位精度和穩(wěn)定性。ASM是后來被大家所follow最多的將數(shù)十個臉部特征點的紋理和位置關系約束一起考慮來進行計算的模型蔬充,COOTES的這篇文章發(fā)表于1995年俯在,絕對是開先河之作,絕對經(jīng)典娃惯。
5.Boosted?Regression?Active?Shape?Models.?David?Cristinacce?and?Tim?Cootes.?BMVC,?2007.
入選理由:
ASM相關改進的文章非常多跷乐,最值得一提的當然是AAM(也是cootes最早提出)模型,除此之外還有一個非常重要的思路趾浅,就是改進原文章基于邊緣的紋理模型愕提。個人認為,這篇文章中所給出的基于回歸方式表示紋理模型的方式比基于分類表觀模型的方法更有前途皿哨,因為是cootes的文章浅侨,自然就更應該被推薦。
6.Face?Alignment?by?Explicit?Shape?Regression.?Xudong?Cao,?Yichen?Wei,?Fang?Wen,?Jian?Sun.?CVPR?2012.
入選理由:
這篇文章是上述提到的ASM相關改進的另外一個方向证膨,就是對形狀模型本身的改進如输。這篇文章沒有用PCA去約束形狀模型,而是基于訓練樣本的線性組合來約束形狀。而且不见,其在alignment的效果(LFPW測試集)上是目前看到最好的澳化,此外,這個方法的速度非澄人保快缎谷。由于是MSRA孫劍組的文章,確實應該被關注更多灶似。
三.人臉表示
人臉表示是指根據(jù)人臉特征點的位置列林,對人臉進行幾何校正并割取人臉區(qū)域(歸一化到固定大小)之后酪惭,得到最具有鑒別(區(qū)分)能力的特征的過程希痴。
7.Eigenfaces?for?recognition.?M.?Turk?and?A.?Pentland.?Journal?of?Cognitive?Neuroscience.?1991.
入選理由:
這需要理由嗎?基于PCA的特征臉是人臉識別最經(jīng)典的算法之一春感,雖然今天PCA在實際系統(tǒng)中更多的是用來降維润梯,而不是用來分類,但是這么經(jīng)典的方法還是要關注的甥厦。其實纺铭,基于LDA的方法也非常經(jīng)典,不過刀疙,考慮到篇幅有限舶赔,就不再列舉了。
8.Local?Gabor?Binary?Pattern?Histogram?Sequence?(LGBPHS):
A?Novel?Non-Statistical?Model?for?Face?Representation?and?Recognition
入選理由:
個人認為這可能是最接近于很多成熟商用系統(tǒng)思路的文章谦秧。在很多實際系統(tǒng)中竟纳,一個提取鑒別信息的框架就是PCA+LDA,用PDA進行降維避免LDA求解的矩陣奇異問題,用LDA提疚鲤;同時锥累,將各種原始特征進行鑒別特征提取后進行決策級融合,目前最常用的特征包括Gabor集歇,LBP等桶略。此外,對人臉進行分塊然后ensemble融合也是非常重要的提高系統(tǒng)效果的思路诲宇。
9.Blessing?of?Dimensionality:?High-dimensional?Feature?and?Its?Efficient?Compression?for?Face?Verification.?Dong?Chen.?Xudong?Cao.?Fang?Wen.?Jian?Sun.?CVPR?2013.
入選理由:
LFW是目前最接近實際數(shù)據(jù)的人臉識別庫际歼,雖然其測試協(xié)議有一些不盡合理的地方,但是如果能在LFW上面取得非常好的效果姑蓝,說明方法還是比較好的鹅心。而這篇MSRA?孫劍組發(fā)表在CVPR2013的文章,在LFW上面取得了93%的準確率(未引入外部數(shù)據(jù)的情況下)纺荧。文章中的一個是采用精確定位點作為參考對人臉進行多尺度旭愧、多局部區(qū)域的表示思路很值得借鑒颅筋,可以和各種表示方法結合。
10.输枯?
其實可以列在此處的論文非常多议泵,有各種子空間方法的改進,有各種特征提取方法用押,有各種基于metric?learning的方法肢簿,bunch?graph(將gabor應用于人臉識別的經(jīng)典工作)靶剑,稀疏表示的方法蜻拨,feature?learning?的方法等等。但是桩引,我都感覺不是特別滿意缎讼。我總覺得,人臉表示方面的工作還做得遠遠不夠坑匠,應該會有框架清晰簡潔血崭、易于實現(xiàn)、但效果絕佳的文章出現(xiàn)±遄疲現(xiàn)在的我會傾向于認為也許deep?learning是一個方向夹纫。
其實嘗試將deep?learning用在人臉識別上面的工作已經(jīng)有一些,但是結果都不是很驚艷(百度的工作沒有公開結果)设凹,我列上一篇不夠好但是效果勉強接近非deep?learning方法的一篇:
Deep?nonlinear?metric?learning?with?independent?subspace?analysis?for?face?verification.?X?Cai,?C?Wang,?B?Xiao,?X?Chen,?J?Zhou.?MM?2012.
供參考舰讹。
針對于移動端的神經(jīng)網(wǎng)絡結構,我覺得要關注的有兩個方面闪朱,一個是設計表達能力較強的網(wǎng)絡月匣,另一個是模型壓縮,關于模型壓縮的內(nèi)容可以參考我之前的文章奋姿,這里我想說的是網(wǎng)絡結構锄开。目前CNN主要分為卷積層和全連接層,而卷積層的計算量又很大称诗,所以我們考慮的尋找表達能力強并且計算量小的卷積萍悴,學術界和工業(yè)界已經(jīng)在這方面做了很多探索比如group?convolution,?depthwise?separable?convolution,?point-wise?convolution等等,具體可以參見網(wǎng)上資料或者是mobilenet和shufflenet寓免,我覺得手機端的網(wǎng)絡由于內(nèi)存等限制可以選擇10-20層的網(wǎng)絡退腥,并且不需要考慮ResNet之類的結構,如果能根據(jù)你的任務進一步修改是更好的再榄。此外移動端還需要的是一個有效的前向傳播框架諸如騰訊的NCNN和百度的MDL狡刘,我們也在其上做了進一步的優(yōu)化,目前測試結果比NCNN快五倍左右困鸥。
最近做了點人臉方面的工作嗅蔬,把自己的一些感受記錄在這里和大家分享下剑按。
我覺得人臉識別關鍵是為了得到泛化能力強的feature,而目前我比較關注的是移動端的人臉識別澜术,所以我認為人臉識別需要關注的點主要包括三個部分:數(shù)據(jù)集艺蝴,網(wǎng)絡結構,損失函數(shù)鸟废。下面我分開來說說
對于數(shù)據(jù)集來說我們一般認為是樣本越多越好猜敢,其實這句話對也不對,因為我們收集的數(shù)據(jù)集可能存在噪聲(有的類別中的樣本明顯不屬于這個類)和分布不平衡(有的類別樣本數(shù)很多盒延,有的類別樣本數(shù)很少)等情況缩擂,所以我們要做一些預處理,首先對于噪聲而言我們需要濾掉錯誤的樣本添寺,我們可以選取用外部數(shù)據(jù)或者是該數(shù)據(jù)集中的部分數(shù)據(jù)來計算樣本之間的樣本相似性來濾掉錯誤的樣本胯盯,需要注意的是要求樣本是比較干凈的。這里我們還可以保留一些預測錯誤但是其預測值比較高的樣本计露,原因我會再接下來說明博脑。還有一定程度的臟的數(shù)據(jù)對于訓練是有益的,我覺得可以看做是為了提高泛化能力吧票罐。
其次對于分布不平衡來說叉趣,常見的方法是降采樣和過采樣以及給不同的類別加權重等,但是上述方法有一定的局限性该押,降采樣和過采樣會導致重復計算和加大過擬合的可能性疗杉,而加權重的話需要不斷的人工調(diào)整,費時費力沈善。我采用的方法是加入一定比例的的long?tail?數(shù)據(jù)乡数,這樣對整個訓練來說是有益,但是這個比例也需要人工去實驗闻牡,[1]中針對分布不平衡問題在損失函數(shù)做了改進净赴,認為long?tail?data中類內(nèi)距離最遠的樣本為hard?sample,通過約束hard?sample來處理分布不平衡的問題罩润。
我認為數(shù)據(jù)平衡重要玖翅,但我們更應該去關注數(shù)據(jù)中的hard?sample,所以這里不同類別加權中也需要仔細考慮了割以。我們用softmax訓一個人臉模型金度,發(fā)現(xiàn)前期訓練收斂很快,但是到后期的時候大量樣本的準確率都在0.99以上严沥,這時回傳的梯度就很小了猜极,無法再指揮網(wǎng)絡訓練了,這時候我們就需要更為hard的樣本來提高模型的泛化能力消玄。加入hard?sample之后訓練的精度可能不會上升跟伏,但是泛化的能力會增強丢胚,所以訓練的時候不能只關注損失函數(shù)下降了多少。此外trplet?loss,?contrastive?loss等損失函數(shù)也包含了hard?sample的含義受扳,我會在之后的文章中解釋携龟。
人臉識別在未來的一些可能方向:
1.深度學習在人臉方面的應用,目前已經(jīng)看到deep?learning在人臉表示和人臉特征點定位方面的工作勘高,相信后續(xù)會有更多更好的工作出現(xiàn)峡蟋;
2.大規(guī)模人臉搜索相關的應用近來開始被大家關注(比如最近百度上線的人臉搜索),這些應用中除了需要傳統(tǒng)的人臉表示华望,還需要關注如何能夠快速準確地在大規(guī)模人臉數(shù)據(jù)庫中搜索到相似人臉蕊蝗,當然這部分工作可以借鑒其他視覺搜索中的方法,但人臉可能也會有自己的特殊性立美;
3.基于3D模型和具有深度信息的人臉識別的方法匿又,在允許使用特殊設備的實際應用中方灾,可以考慮用3D模型和深度信息來提高系統(tǒng)的穩(wěn)定性建蹄;
4.在做人臉識別實際系統(tǒng)時,可以更關注姿態(tài)裕偿、遮擋洞慎、表情變化對于識別效果的影響,對于人臉光照問題嘿棘,雖然之前學術界關注很多劲腿,但是對于實際數(shù)據(jù)(非實驗室采集的光照模擬數(shù)據(jù)),可能基于大規(guī)模訓練數(shù)據(jù)和feature?learning就可以比較好的解決鸟妙,反而是由于目前的人臉表示框架焦人,對于大的姿態(tài)變化,遮擋以及表情變化引起的表觀改變重父,很多情況下表現(xiàn)并不好花椭,可能需要重新改變目前的人臉表示方式,比如采用類似推薦論文9中的方式房午,采用多個局部模型而不是一個整體模型來進行表示矿辽,還可以考慮一些人臉姿態(tài)/表情矯正方法;
5.學術界的朋友郭厌,鑒于目前LFW上面已經(jīng)做到準確率95%(引入外部訓練數(shù)據(jù)且無約束訓練協(xié)議)袋倔,可以考慮創(chuàng)建一個更大的人臉庫(如果能達到真正意義上的大規(guī)模數(shù)據(jù)就更贊了),設計一個更加合理全面的評測協(xié)議折柠,這必將成為一個非常有影響力的工作宾娜;