?作者 |?Doreen
01 背景介紹
隨著圖像改造技術在深度學習的支持下飛速發(fā)展,出現(xiàn)了各種各樣“換臉”的操作受扳。這些偽造的面部在程序的優(yōu)化下達到了以假亂真的效果,隨之也帶來了一些侵犯肖像權(quán)等潛在的問題崇堰。
早期的面部偽造探測技術主要集中于一些人工合成的特征(例如:眨眼升熊,不同的頭部姿勢等)俄烁,研究人員通過實驗發(fā)現(xiàn)真實面部和偽造面部在頻域上有差異,因此出現(xiàn)了利用頻率作為線索在深度學習框架下進行面部鑒偽级野。
雖然該類方法在訓練數(shù)據(jù)和測試數(shù)據(jù)屬于獨立同分布的情況下取得了理想的結(jié)果页屠,但在測試數(shù)據(jù)中出現(xiàn)不同場景下的面部试幽,其鑒別能力將大受影響缅糟。因此,一個普適的面部鑒偽方法成為了研究的焦點豪嚎。
目前廣泛使用的方法來源于圖像分類模型腐晾,強調(diào)了種類間的差異磁餐,但缺乏對真假面部的本質(zhì)差異的關注句惯。
針對這個問題拍嵌,作者提出了一個雙對比學習模型,通過在一定程度上增加偽造面部的不一致性提升了模型的泛化能力潜索。
02 方法
雙對比學習模型(Dual Contrastive Learning)的結(jié)構(gòu)圖如圖1所示臭增。
首先通過DVG(Data views Generation)進行數(shù)據(jù)增廣,生成不同視角下的輸入圖像帮辟。然后利用對比學習模塊對輸入圖像進行特征提取速址。最后分別利用Intra-Instance和Inter-Instance兩個模塊組織特征的分布來增加偽造面部的不一致性。
(1)數(shù)據(jù)增廣
與傳統(tǒng)對比學習模型采用的數(shù)據(jù)增廣方法(如水平翻轉(zhuǎn)由驹、隨機裁剪和高斯模糊等)不同,偽造面部探測的數(shù)據(jù)增廣要求盡可能減少與目標無關的因素昔园。因此蔓榄,作者提出了以下幾種方法進行數(shù)據(jù)增廣。
1.RandomPatch:?作者將輸入的面部圖像分成KxK個小塊默刚,然后對其隨機打亂順序甥郑。這樣做的目的是將焦點集中在偽造部分,而不是面部結(jié)構(gòu)荤西;
2. High-frequency enhancement:?鑒于高頻率特征能提升模型的泛化性能澜搅,因此作者將經(jīng)過空域富模型SRM (Spatial Rich Model)處理后的圖像特征與源圖像特征結(jié)合起來,強化了生成圖像的高頻信息邪锌;
3.Frame shift:?為了減少面部表情和運動對偽造特征提取的影響勉躺,作者將同一個視頻的不同幀圖像作為不同視角下的輸入圖像;
4. Corresponding mixup:?為了減少明顯偽造痕跡的同時盡可能挖掘偽造的本質(zhì)特征觅丰,作者在輸入偽造圖像時加入了源圖像的某些特征饵溅,從而生成了非常接近目標的偽造圖像。
將以上四種方法生成的圖像和利用傳統(tǒng)數(shù)據(jù)增廣的方法生成的圖像
分為
兩類妇萄。
(2)對比學習模型架構(gòu)
(3)基于Inter-Instance的對比學習
(4)基于Intra-Instance的對比學習
03 實驗
作者采用Dual Shot Face Detector框架在FaceForensics++(包含720個視頻用于訓練蜕企,以及280個視頻用于驗證或測試)、Celeb-DF(包含590個源視頻和5639個偽造視頻)冠句、DFDC(包含1133個源視頻和4080個偽造視頻)轻掩、DFD(包含363個源視頻和3068個偽造視頻)以及Wide Deepfake(包含3805個源面部圖像序列和3509個偽造面部圖像序列)這五個數(shù)據(jù)集上進行了測試。實驗中對每個視頻隨機采樣50幀圖像用于訓練和測試懦底。
為了驗證DCL的準確性唇牧,作者在以下三個方面對其進行了測試:
1. Cross-dataset評估
首先將模型在FF++數(shù)據(jù)集上進行訓練,然后令其在DFD、DFDC奋构、Wide Deepfake和Cele-DF數(shù)據(jù)集上進行測試壳影。作者將DCL與現(xiàn)有的方法進行了對比,結(jié)果如表1所示弥臼。
表1 cross-dataset驗證評估結(jié)果(圖片來自論文:Dual Contrastive Lear
從表1可知宴咧,DCL在AUC和EER兩個指標上幾乎領先所有現(xiàn)有方法的結(jié)果,尤其在Cele-DF數(shù)據(jù)集上的優(yōu)勢更明顯径缅。
2. Cross-manipulation評估
首先利用一種方法在一個數(shù)據(jù)集上進行訓練掺栅,然后用其它幾種方法在所有數(shù)據(jù)集上進行測試,結(jié)果如表2所示纳猪。
表2 cross-manipulation驗證評估結(jié)果(圖片來自論文:Dual Contrastive Learning for General Face Forgery Detection. https://arxiv.org/abs/2112.13522)
根據(jù)表2的結(jié)果可以看出氧卧,DCL在每種情況下的結(jié)果均優(yōu)于現(xiàn)有方法的結(jié)果。當在Deepfake數(shù)據(jù)集上訓練氏堤,在Faceswap數(shù)據(jù)集上測試時沙绝,DCL比其他方法在AUC指標上平均領先15%。
3.Multi-source manipulation評估
為了檢驗DCL的實用性鼠锈,作者用三種可控的方法在FF++數(shù)據(jù)集上進行訓練闪檬,然后在Deepfake數(shù)據(jù)集上進行測試,其結(jié)果如表3所示购笆。
表3 Multi-source manipulation驗證評估結(jié)果(圖片來自論文:Dual Contrastive Learning for General Face Forgery Detection. https://arxiv.org/abs/2112.13522)
從表3可以看出粗悯,DCL的表現(xiàn)普遍優(yōu)于現(xiàn)有的方法。相比LTW方法同欠,DCL在低質(zhì)量版本的FF++數(shù)據(jù)集上領先了5%样傍,說明DCL方法的泛化性能較好。
04 結(jié)論
為了進一步挖掘真實面部圖像與偽造面部圖像之間的本質(zhì)差別铺遂,作者構(gòu)造了一個雙對比學習模型DCL用于鑒別視頻中偽造的面部衫哥。
首先通過DVG模塊對輸入圖像進行數(shù)據(jù)增廣,豐富了輸入數(shù)據(jù)的多樣性娃循。然后利用inter-instance和intra-instance兩個對比學習模型減小了同一面部在不同視角下的圖像差異同時增加了偽造面部的多樣性炕檩。最后通過在5個公開數(shù)據(jù)集上將DCL與現(xiàn)有方式進行對比發(fā)現(xiàn)DCL在AUC、ACC兩個指標上基本領先于現(xiàn)有的方法捌斧。
DCL從本質(zhì)出發(fā)鑒別偽造圖像不僅有效地提升了模型的泛化能力笛质,而且為其他類型的鑒偽(如聲音鑒別等)提供了參考。
參考文獻
[1] Dual Contrastive Learning for General Face Forgery Detection.
https://arxiv.org/abs/2112.13522
私信我領取目標檢測與R-CNN/數(shù)據(jù)分析的應用/電商數(shù)據(jù)分析/數(shù)據(jù)分析在醫(yī)療領域的應用/NLP學員項目展示/中文NLP的介紹與實際應用/NLP系列直播課/NLP前沿模型訓練營等干貨學習資源捞蚂。