3月2日穷娱,風(fēng)靡一周多的“變臉”視頻軟件Avatarify從ios中國區(qū)商店下架绑蔫。在這一周多的換臉娛樂狂歡中,利用這個軟件制作的“螞蟻呀嘿”視頻火爆朋友圈和各大短視頻平臺泵额。大家紛紛上傳自己利用明星照片晾匠、卡通頭像乃至自己與朋友的合照制作的小視頻,收獲無數(shù)點贊(圖一)梯刚。如今凉馆,狂歡暫告一段落,是時候回頭審視這個“變臉”盛宴的始作俑者亡资,以及隱藏在其背后的澜共,且不被大多人關(guān)注的,數(shù)據(jù)偽造與泄露的隱憂锥腻。
Avatarify,程序員居家辦公的無聊之作
疫情期間瘦黑,世界上無數(shù)人被迫遠(yuǎn)程辦公京革,百無聊賴的生活和頻繁的視頻會議催生了大家的創(chuàng)意,Avatarify就是其中之一幸斥。Avatarify源自于單詞avatar匹摇,原意為“(神的)化身”,后被引申為網(wǎng)絡(luò)上代表使用者的用戶形象或用戶頭像甲葬,avatarify可直譯為“頭像化”廊勃,意為“使變得像你的頭像一樣”。這個軟件項目的初衷是用來改換使用者的視頻會議頭像经窖,和同事們開個小小的玩笑(圖二)坡垫。但隨著在代碼項目托管網(wǎng)站GitHub上日漸受到追捧,軟件功能也日益完善画侣,從最開始要求使用者安裝編譯環(huán)境與代碼并在高等級的顯卡上運(yùn)行冰悠,到推出Windows圖形界面和遠(yuǎn)程運(yùn)行模式,降低了技術(shù)和硬件的門檻配乱;如今又推出手機(jī)應(yīng)用溉卓,手指輕點便能將一張張靜止的人臉隨著音樂律動了起來。雖然“變臉”后的視頻并不完美宪卿,有些角度甚至還有些扭曲的诵,但不妨礙網(wǎng)友們被魔性的表情洗腦,紛紛上傳并轉(zhuǎn)發(fā)佑钾。類似的“變臉”技術(shù)常被稱為“深度偽造”(Deepfake)技術(shù)西疤,在近幾年的網(wǎng)絡(luò)上屢見不鮮,為何Avatarify能夠異軍突起休溶,它和之前流行過的“變臉”軟件又有什么不同呢代赁?
圖像動態(tài)化芭碍,讓靜止的圖像動起來
Avatarify實現(xiàn)的功能被稱為“人臉圖像動態(tài)化”徒役,與之前曾流行過的換臉軟件“ZAO”不同,后者將用戶上傳的人臉替換目標(biāo)視頻中的人臉窖壕,這樣的技術(shù)一般被稱為“人臉替換”(Face Swap)忧勿,而前者則是使用一段包含動作的視頻,稱為驅(qū)動視頻(driving video瞻讽,簡稱)鸳吸,驅(qū)動用戶上傳的源圖像(source image,簡稱
)使靜止的圖像按照視頻的方式動起來速勇,稱為“圖像動態(tài)化”(Image Animation)(圖三)晌砾。圖像動態(tài)化不僅可用于人臉圖像,理論上只要視頻和圖像素材中包含有相似的物體即可(圖四烦磁、圖五)养匈。
一階運(yùn)動模型磅轻,自監(jiān)督學(xué)習(xí)無需額外標(biāo)注數(shù)據(jù)
Avatarify的技術(shù)理論名為一階運(yùn)動模型(First Order Motion Model珍逸,簡稱FOMM),來源于一篇名為《圖像動態(tài)化的一階運(yùn)動模型》(First Order Motion Model for Image Animation)的論文聋溜,由意大利特倫托大學(xué)(University of Trento)的Aliaksandr Siarohin等人發(fā)表在NeurIPS 2019上谆膳。以往的人臉圖像動態(tài)化的相關(guān)工作往往需要大量的人臉訓(xùn)練圖像以及相應(yīng)的標(biāo)注信息,且訓(xùn)練好的模型只能應(yīng)用于特定人臉撮躁,而無法應(yīng)用到未知的人臉中漱病。而FOMM無需大量標(biāo)注數(shù)據(jù),且一旦利用人臉視頻等某一類數(shù)據(jù)完成模型訓(xùn)練把曼,該模型便可直接運(yùn)用在任何同類圖像數(shù)據(jù)上杨帽,無需額外處理。
FOMM包含兩個模塊嗤军,分別為運(yùn)動提取模塊(Motion module)與生成模塊(Generation module)注盈,運(yùn)動提取模塊求取稠密運(yùn)動場(Dense motion field)和遮擋映射(Occlusion map)
,稠密運(yùn)動場
作用于源圖像
叙赚,使其具有與驅(qū)動視頻幀
相同的動作老客;遮擋映射
用于標(biāo)記
到
的運(yùn)動發(fā)生后原先運(yùn)動物體遮擋的部分背景僚饭,該部分需要在生成模塊進(jìn)行圖像補(bǔ)全(Image inpainting);生成模塊利用運(yùn)動提取模塊學(xué)習(xí)到的運(yùn)動信息對源圖像
進(jìn)行變換胧砰,并對生成的圖像進(jìn)行補(bǔ)全和優(yōu)化鳍鸵。
1. 運(yùn)動提取模塊
運(yùn)動提取模塊包括兩個網(wǎng)絡(luò)模型偿乖,具體如下:
- 第一個網(wǎng)絡(luò)是一個無監(jiān)督關(guān)鍵點檢測模型,將源圖像
和驅(qū)動視頻幀
作為輸入哲嘲,輸出兩個圖像各
個關(guān)鍵點以及各關(guān)鍵點對應(yīng)的仿射變換(Affine transformation)汹想,計算得到
與
兩幀
個關(guān)鍵點之間對應(yīng)的稀疏運(yùn)動場(Sparse motion field)
,用來描述兩幀之間
個關(guān)鍵點的變換關(guān)系撤蚊。
- 第二個網(wǎng)絡(luò)將
個關(guān)鍵點及對應(yīng)的稀疏運(yùn)動場
作為輸入古掏,可以得到
個mask矩陣
和一個遮擋映射
。
可以看做是標(biāo)記了第k個關(guān)鍵點的周圍區(qū)域侦啸,該區(qū)域可以通過該關(guān)鍵點對應(yīng)的稀疏運(yùn)動場
進(jìn)行變換槽唾。再額外加上一個
標(biāo)記無需變換的區(qū)域,如背景等光涂。稀疏運(yùn)動場
與
結(jié)合便能得到稠密運(yùn)動場
庞萍,描述了兩幀所有對應(yīng)像素點的變換關(guān)系。
需要特別說明的是忘闻,由于和
的關(guān)鍵點差異可能會比較大钝计,作者于是創(chuàng)新性地引入了一個抽象的參考幀
,通過預(yù)測
和
來計算
齐佳,具體公式如下:
如此私恬,預(yù)測的問題就轉(zhuǎn)化為了預(yù)測
的問題,
為輸入圖像炼吴,比如
和
本鸣。FOMM利用
的關(guān)鍵點附近的一階泰勒展開來近似
,這也是文章名“一階運(yùn)動模型”的由來硅蹦。
假設(shè)為
上的關(guān)鍵點荣德,
為
上的關(guān)鍵點,即有
童芹。
在
的一階泰勒展開如下:
上式右邊第一項即為的一個關(guān)鍵點
涮瞻,第二項即為該關(guān)鍵點對應(yīng)的仿射變換。此二項即為圖像
輸入關(guān)鍵點檢測網(wǎng)絡(luò)后的輸出假褪。將
同樣進(jìn)行一階泰勒展開署咽,經(jīng)推導(dǎo)(詳見原文附錄)后得到:
其中,
這樣嗜价,就能唯一由
和
決定艇抠,而后兩者可由關(guān)鍵點檢測網(wǎng)絡(luò)得到幕庐。
2. 生成模塊
生成模塊并不直接對源圖像的像素進(jìn)行一一變換,而是先將
輸入一個下采樣卷積編碼器得到
的特征映射(feature map)家淤,使用
對該特征進(jìn)行變換异剥,注意遮擋映射
中標(biāo)記的遮擋部分不用進(jìn)行變換;將變換后的特征輸入后續(xù)的解碼器絮重,結(jié)合
的遮擋區(qū)域?qū)D像進(jìn)行補(bǔ)全并優(yōu)化冤寿。
3. 訓(xùn)練模型,提取運(yùn)動信息
FOMM模型采用自監(jiān)督訓(xùn)練方式青伤,利用驅(qū)動視頻的第一幀()與第
幀(
)作為運(yùn)動提取模塊的輸入督怜,即將
與
作為
和
,提取
到
的運(yùn)動信息狠角,將
變換為
号杠,并利用生成的幀
與原幀
計算訓(xùn)練損失。以這樣的方式訓(xùn)練FOMM便不需要額外的標(biāo)簽數(shù)據(jù)丰歌。
生成幀與原幀
之間的訓(xùn)練損失姨蟋,通過將兩幅圖片分別輸入VGG19網(wǎng)絡(luò),取其中5層的特征值計算平均
距離獲得立帖。該損失同時在四個圖像尺度上進(jìn)行計算眼溶,即將
與
下采樣至
,
,
和
四個尺寸并分別計算5層特征值的平均
距離,共20個訓(xùn)練損失項晓勇。此外堂飞,由于圖像關(guān)鍵點由無監(jiān)督關(guān)鍵點檢測網(wǎng)絡(luò)學(xué)習(xí)而來,特引入關(guān)鍵點不變性約束(equivariance constraint)绑咱,旨在確保原圖與變換后圖像關(guān)鍵點的一致性绰筛,提高關(guān)鍵點檢測準(zhǔn)確性。
4. FOMM總結(jié)
通過以上的解析羡玛,我們可以看出FOMM的有如下優(yōu)點:無需大量訓(xùn)練數(shù)據(jù)别智,無需標(biāo)注數(shù)據(jù),用于訓(xùn)練的視頻一旦訓(xùn)練完成可用于變換任一與視頻同類型圖片(如人臉視頻對應(yīng)人臉圖片)稼稿。這些優(yōu)點大大簡化了模型的訓(xùn)練流程,對不同的用戶上傳圖像有良好的可遷移性讳窟,其便捷程度也無怪乎能成為一款爆款A(yù)pp的核心算法让歼。
“變臉”狂歡,除了娛樂還有隱患
2019年8月丽啡,一款名為“ZAO”的換臉軟件登上各大手機(jī)應(yīng)用市場的排行榜谋右,大家紛紛用自己打臉扮演著經(jīng)典的電影橋段,一時間“換臉”視頻充斥中文互聯(lián)網(wǎng)的各個角落补箍。然而還沒火幾天改执,ZAO的霸王用戶協(xié)議便在社交網(wǎng)絡(luò)廣泛傳播啸蜜,其中規(guī)定用戶上傳的人臉內(nèi)容可被ZAO及關(guān)聯(lián)公司任意使用,風(fēng)險卻仍由用戶承擔(dān)辈挂。一時間眾人紛紛恐慌自己的臉被濫用衬横,ZAO也隨之從各大手機(jī)市場下架。彼時彼刻终蒂,恰如此時此刻蜂林。雖然ZAO與Avatarify的實現(xiàn)功能與底層技術(shù)都不盡相同,但同樣作為“變臉”軟件拇泣,它們的用戶面臨的風(fēng)險卻都不止于此噪叙。近年來,這樣的“變臉”技術(shù)漸漸興起霉翔,隔一段時間就能掀起一個爆款睁蕾,登上熱搜吸引一次眼球。它們還有一個更常見的名字债朵,叫作深度偽造惫霸。
深度偽造技術(shù),簡稱深偽,英文為Deepfake鞠柄,是深度學(xué)習(xí)(Deep learning)和偽造(fake)的結(jié)合奉狈。AI技術(shù)的蓬勃發(fā)展,帶來了諸如VAE硅卢、GAN等能夠生成逼真圖像的深度生成模型,而深度偽造技術(shù)便脫胎于此藏杖。起初将塑,生成一個不存在的人臉,或者交換圖中的兩個人臉蝌麸,只是相關(guān)研究人員的技術(shù)探索点寥,專業(yè)的算法知識、大量的計算資源和充足的運(yùn)算時間缺一不可来吩。然而隨著技術(shù)的發(fā)展敢辩,專業(yè)的算法被打包成一鍵式傻瓜操作的手機(jī)應(yīng)用,強(qiáng)大的云計算服務(wù)解放了本地計算資源和時間的限制弟疆,“變臉”的門檻逐漸消失了戚长,原本需要數(shù)天才能在頂級配置的計算機(jī)中得到的逼真結(jié)果,現(xiàn)在大家掏出手機(jī)便能制作怠苔。伴隨著病毒式的娛樂狂歡同廉,隱患也在悄然浮現(xiàn)。
Deepfake這一名稱最早來源于國外制作色情換臉視頻的社區(qū),該社區(qū)雖然由于涉及色情視頻迫肖、隱私侵犯等問題已經(jīng)被封禁锅劝,但色情換臉視頻仍舊是深度偽造技術(shù)最大的隱患,其以極低的成本就能造成當(dāng)事人名譽(yù)與心理上的極大傷害蟆湖;偽造政界或商界人士的公開講話故爵,傳播虛假觀點,有可能導(dǎo)致社會或市場的巨大震動帐姻,造成不必要的損失稠集;使用圖像動態(tài)化技術(shù)制作的諸如點頭、眨眼的視頻饥瓷,有可能騙過App或門禁系統(tǒng)的人臉認(rèn)證系統(tǒng)剥纷,導(dǎo)致財務(wù)失竊與信息丟失;更有甚者呢铆,利用偽造的視頻降低被偽造人親友的警惕性晦鞋,從而實施詐騙等違法犯罪活動。
拒絕隱患棺克,我們在行動
技術(shù)無罪悠垛,只有合理的監(jiān)管才能讓技術(shù)遠(yuǎn)離作惡。深度偽造技術(shù)問世以來娜谊,如何檢測真?zhèn)我曨l也便成為了關(guān)注的焦點确买。2020年11月,由中央網(wǎng)信辦纱皆、中國公安部指導(dǎo)湾趾,信通院參與協(xié)辦的中國人工智能·多媒體信息識別技術(shù)大賽在廈門舉行。本屆比賽首次加入了“視頻深度偽造”賽項派草,共34支來自高校搀缠、企業(yè)與事業(yè)單位的隊伍參與了比賽,最終排名前三的隊伍均達(dá)到了世界相似賽事的頂尖水平近迁,反映出各單位在深度偽造檢測領(lǐng)域的研究已頗有建樹艺普;目前《深度偽造視頻檢測平臺指標(biāo)要求和評估方法》正處于討論稿階段,其規(guī)范了測評深偽視頻檢測平臺的方法鉴竭,并制定了功能與性能評測的指標(biāo)歧譬,未來將作為團(tuán)體標(biāo)準(zhǔn)并以此開展測試;同時拓瞪,根據(jù)中國人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟發(fā)布的《可信AI操作指引》缴罗,參與開展可信AI試評估,規(guī)范AI應(yīng)用與AI平臺搜集與使用人臉數(shù)據(jù)的行為祭埂,確保人臉數(shù)據(jù)安全。信通院還向各單位征集“深偽”檢測系統(tǒng)工具,并提出以下幾點建議:
- 制作更大規(guī)模蛆橡、更多種類的深偽數(shù)據(jù)集
- 監(jiān)測國內(nèi)外深偽動態(tài)
- 建立“深度偽造云鑒”平臺
- 開展評估規(guī)范研制
- 舉辦技術(shù)沙龍舌界、賽事活動
技術(shù)在進(jìn)步,我們在為新的功能歡欣鼓舞時泰演,也要時刻留意隨之而來的挑戰(zhàn)呻拌。中國信通院積極參與深度偽造監(jiān)管體系的構(gòu)建,為保障數(shù)據(jù)安全與個人隱私貢獻(xiàn)力量睦焕,為可信的AI與網(wǎng)絡(luò)環(huán)境保駕護(hù)航藐握。