今天分享的是IJCAI2018關(guān)于年齡預(yù)測的一個工作,即基于人臉來預(yù)測人的年齡库说。具體工作是:SSR-Net: A Compact Soft Stagewise Regression Network for Age Estimation搀绣。
1.關(guān)于人臉
在圖像識別領(lǐng)域里据忘,人臉技術(shù)非常有代表性,達到了極高的精準(zhǔn)度友雳,并且應(yīng)用最為廣泛流炕。人臉的基本問題包括人臉目標(biāo)檢測(即定位人臉的目標(biāo)區(qū)域)澎现,人臉比對(比如人臉和證件照比對是否同一人),人臉屬性(性別每辟、年齡昔头、顏值、是否戴眼鏡)影兽,人臉關(guān)鍵點等。
年齡是人臉屬性預(yù)測的一個topic莱革。其基本流程是:
2.摘要:
論文的工作是一個年齡預(yù)測模型峻堰,它的輸入是經(jīng)過人臉檢測得到的人臉目標(biāo)框讹开,輸出是預(yù)測的年齡結(jié)果。其要點包括:
網(wǎng)絡(luò)設(shè)計盡可能輕量化捐名,滿足端上應(yīng)用的時效性要求旦万。
用分類損失預(yù)測年齡的分段(bin),設(shè)計了一個可以平移和縮放的軟分類目標(biāo)镶蹋。
效果:網(wǎng)絡(luò)大小0.32M成艘,小于主流的mobile-net和dense-net,效果比以上兩者要好贺归。
3. 論文工作:
論文首先探討了年齡問題的4種損失函數(shù)及存在的問題:
1)? 回歸:樣本的隨機性和分布不均導(dǎo)致易過擬合淆两。
2)? 多年齡段分類:硬分類,分段邊界處理不好拂酣。
3)? 學(xué)習(xí)年齡分布:樣本不好標(biāo)記秋冰。
4)? Pair-wise的學(xué)習(xí):復(fù)雜度太高。
論文提出的改進方案是:
1)? 多層分段婶熬。由粗到細策略,每個階段執(zhí)行部分年齡分類,任務(wù)量少(Stagewise)剑勾,產(chǎn)生更少參數(shù)和更緊湊的模型。例如文中設(shè)計的3-stage赵颅,每個stage進行3分類虽另,第三stage可以分出3*3*3=27個bin。因為采用軟分類饺谬,所以每一個bin的區(qū)間不是固定值捂刺,而是有一定交疊的自適應(yīng)值。
預(yù)測出的年齡階段是融合各階段的分布
其中每一個bin的寬度
, ?這里i是bin的索引.
在訓(xùn)練時商蕴,最小化平均誤差函數(shù)叠萍,這里
,年齡預(yù)測損失函數(shù)為:
2)? 軟分類,引入動態(tài)范圍,讓每個bin可以平移和縮放绪商,且平移和縮放參數(shù)采用與input相關(guān)的自適應(yīng)值苛谷,能通過網(wǎng)絡(luò)進行學(xué)習(xí)。
具體的網(wǎng)絡(luò)實現(xiàn)了一個3-stage的2-stream網(wǎng)絡(luò)格郁,網(wǎng)絡(luò)設(shè)計非常緊湊腹殿。
2-stream是兩個平行的異構(gòu)網(wǎng)絡(luò),為了抽取異構(gòu)特征(2-stream網(wǎng)絡(luò)參數(shù)數(shù)量相同例书,激活函數(shù)和pooling方式不同)锣尉。
每個stage進行軟分類的縮放和平移量,以及每階段的預(yù)測分布p的產(chǎn)生方式如圖b中所示决采∽圆祝縮放系數(shù)是實數(shù)值,而平移量和預(yù)測分布是向量,因此做了不同的處理拇厢。
在最后的stage爱谁,模型的預(yù)測結(jié)果與真實值產(chǎn)生的誤差,會進行梯度回傳孝偎,同時軟分類的參數(shù)也會一起得到更新访敌。
4. 效果:
首先和較深的復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)(如VGG或res-net)相比,還是復(fù)雜模型的效果更好一些衣盾,但復(fù)雜模型大小一般在幾百M寺旺,無法在端上應(yīng)用。對比其他輕量級網(wǎng)絡(luò)势决,主要是和Mobile-net, dense-net相比阻塑,模型更小(0.32M)徽龟,效果更好叮姑。
局限性:人臉屬性的主流解決方案中,一般可以用一個分類器同時優(yōu)化多個人臉屬性目標(biāo)据悔,所以底層選擇mobile-net或dense-net更通用传透,SSR-net的網(wǎng)絡(luò)結(jié)構(gòu)和損失函數(shù)專門為年齡預(yù)測定制,通用性稍差一些极颓。
5.項目代碼和demo:
項目的github代碼地址如下:https://github.com/shamangary/SSR-Net
代碼中的Demo可以調(diào)用攝像頭進行幀維度的實時預(yù)測朱盐,目標(biāo)檢測用的是LBP和MTCNN(可選,MTCNN效果更佳)菠隆,支持對比mobile-net , dense-net的結(jié)果兵琳。代碼簡潔,非常容易跑通骇径。
實測時發(fā)現(xiàn)躯肌,隨著人臉的移動,預(yù)測數(shù)值波動比較大破衔,同一個人上一秒預(yù)測24歲清女,下一秒可能是35歲。視角晰筛,距離嫡丙,清晰度會對預(yù)測結(jié)果產(chǎn)生比較大的影響,也從另一個角度說明年齡預(yù)測很難做到非常精準(zhǔn)读第。
另外作者還提供了針對亞洲人臉優(yōu)化的一個model曙博,即在Megaage-Asian數(shù)據(jù)集上重新訓(xùn)練的版本。具體地址為:
https://github.com/b02901145/SSR-Net_megaage-asian