姓名:張鈺??學(xué)號:21011210154??學(xué)院:通信工程學(xué)院
【嵌牛導(dǎo)讀】Improving the Efficiency and Robustness of Deepfakes Detection through
Precise Geometric Features論文閱讀筆記
【嵌牛鼻子】通過精確的幾何特征提高Deepfakes檢測的效率和穩(wěn)健性
【嵌牛提問】如何實現(xiàn)偽造檢測嫂用,有何創(chuàng)新點
【嵌牛正文】
轉(zhuǎn)自:https://blog.csdn.net/qq_43687860/article/details/124848020
論文信息
題目:Improving the Efficiency and Robustness of Deepfakes Detection through
Precise Geometric Features-
作者團隊:
會議:CVPR-2021
背景與創(chuàng)新
背景:Deepfakes 是惡意技術(shù)的一個分支珍促,它將視頻中的目標人臉移植到原始人臉上这嚣,從而導(dǎo)致嚴重的問題稿静,如侵犯版權(quán)、信息失真甚至公眾恐慌 。先前對Deepfakes 視頻檢測的努力主要集中在外觀特征上,這些特征具有被復(fù)雜操作繞過的風險,也導(dǎo)致了高模型復(fù)雜度和對噪聲的敏感性后豫。如何挖掘被操縱視頻的時間特征并加以利用仍是一個未解決的問題。
-
創(chuàng)新:
- 作者提出了一個有效和健壯的框架LRNet突那,通過對精確的幾何特征進行時間建模來檢測Deepfakes視頻挫酿。
- 作者引入了一種新的標志校準模塊以提高幾何特征的精度和時間建模的有效性。
-
作者構(gòu)造了一個雙流遞歸神經(jīng)網(wǎng)絡(luò)(RNN)來充分利用時間特征愕难。與以前的方法相比早龟,作者提出的方法重量更輕量,更容易訓(xùn)練猫缭,并且在檢測高度壓縮或噪聲污染的視頻中表現(xiàn)出魯棒性葱弟。
原始和Deepfakes視頻序列的動作單元強度分析,AU表示構(gòu)成面部表情的個別面部肌肉的運動猜丹,作者選擇兩個最激烈的動作單元芝加,眼輪匝肌內(nèi)圈收緊和推動下唇向上∩渲希可以看到妖混,雖然假序列很真實無法從外觀上區(qū)分,但仍然可以在一些微妙的表情上分辨出它們的差異轮洋。
網(wǎng)絡(luò)結(jié)構(gòu)
作者提出的LRNet由四個部分組成:人臉預(yù)處理模塊制市、校準模塊、特征嵌入過程和RNN分類過程弊予。它通過檢測異常的面部運動模式和時間不連續(xù)性來暴露被操縱的面部祥楣。并且整個框架只需要訓(xùn)練RNNs部分。
要檢測的視頻被分成幀汉柒,并與精心設(shè)計的校準模塊一起通過預(yù)處理過程误褪,以獲得更加精確的面部標志序列,隨后嵌入過程將標志點嵌入到兩種類型的特征向量中碾褂,并使用雙流RNN來挖掘時間信息并判斷其真實性兽间。
- 人臉預(yù)處理:該模塊從人臉圖像中提取幾何信息,包括人臉檢測正塌,人臉標志點檢測和標志點對齊嘀略。首先恤溶,對視頻的每一幀進行人臉檢測,我們保留人臉的感興趣區(qū)域(ROI)帜羊。在裁剪出面部圖像后咒程,我們在圖像上檢測到 68 個面部標志,它們勾勒出面部的標志性輪廓讼育。最后帐姻,我們通過仿射變換將標志點對齊到預(yù)設(shè)位置。
-
面部點追蹤與標志校準:
Accuracy與Precision的比較奶段,紅點(上邊)準確A但不精確P饥瓷,它們抖動很大,即使它們是附著在輪廓上痹籍。綠點(下邊)不太準確P但很精確A扛伍,可以更好地描述動態(tài)特性。Accuracy代表低偏差词裤,Precision代表低方差刺洒,Precision更重要。
第一步通過LK操作來跟蹤標志點吼砂,也是一個前-后向檢查以消除不精確的預(yù)測逆航;第二步使用Kalman fifilter(卡爾曼)濾波器將有效預(yù)測與其相應(yīng)的檢測結(jié)果合并去噪,獲得更高精度的標定標志渔肩。
我們對前一幀執(zhí)行前向LK操作(綠色的箭頭和點)因俐,對后一幀回到前一幀的預(yù)測點執(zhí)行后向LK操作(藍色箭頭和點),在其原始點和后向LK點之間具有較大差異的預(yù)測點將被丟棄(虛線箭頭)周偎。
-
金字塔LK運算:它用來計算光流抹剩,即幀之間幾個特征點的移動。
考慮到LK運算對每塊的大小很敏感蓉坎,我們引入了金字塔LK運算澳眷,首先對圖像進行若干次下采樣(通常將其尺寸減半)以構(gòu)建其金字塔表示,并對其中相同patch大小的不同大小的圖像執(zhí)行簡單的LK操作蛉艾。
-
標記校準
LK操作會引入噪聲钳踊,這干擾了標記的穩(wěn)定性,所以設(shè)計了卡爾曼濾波器來整合來自檢測和預(yù)測的信息勿侯。校準模塊依賴于幀1的標志來校準幀2的標志拓瞪。
- 特征嵌入與RNN分類
為了執(zhí)行視頻級檢測,每個視頻樣本被分割成具有固定長度的片段酿箭,為了預(yù)測視頻复亏,對片段的預(yù)測標簽進行聚合
實驗
- 數(shù)據(jù)集:
- UADFV:49個原始視頻和49個篡改視頻。
- FF++:1000個視頻以及被操縱的版本缭嫡,原始缔御,輕度壓縮,重度壓縮
- Celeb-DF:5639個假視頻和540個真視頻妇蛀。
- DeeperForensics-1.0:1000個真實和對應(yīng)類似FF++的假視頻耕突。
- 實驗:
-
在不同數(shù)據(jù)集比較上比較,LRNet大小相對輕量并且不需要數(shù)據(jù)擴充评架,且在FF++上表現(xiàn)最好眷茁。
-
在不同數(shù)據(jù)集比較上比較,LRNet大小相對輕量并且不需要數(shù)據(jù)擴充评架,且在FF++上表現(xiàn)最好眷茁。
-
遇到視頻壓縮時不同方法在不同數(shù)據(jù)集的表現(xiàn)。
-
對視頻噪聲的魯棒性纵诞,作者提出的方法在面對噪聲時性能下降最少上祈。
-
Y表示使用作者提出的校準模塊檢測landmarks,N表示不檢測浙芙。
-
對作者提出的模塊進行消融實驗的結(jié)果登刺。