制作“螞蟻呀嘿”的“變臉”軟件Avatarify,它為何爆火脸候,又為何沉寂

3月2日穷娱,風(fēng)靡一周多的“變臉”視頻軟件Avatarify從ios中國區(qū)商店下架绑蔫。在這一周多的換臉娛樂狂歡中,利用這個軟件制作的“螞蟻呀嘿”視頻火爆朋友圈和各大短視頻平臺泵额。大家紛紛上傳自己利用明星照片晾匠、卡通頭像乃至自己與朋友的合照制作的小視頻,收獲無數(shù)點贊(圖一)梯刚。如今凉馆,狂歡暫告一段落,是時候回頭審視這個“變臉”盛宴的始作俑者亡资,以及隱藏在其背后的澜共,且不被大多人關(guān)注的,數(shù)據(jù)偽造與泄露的隱憂锥腻。


圖一嗦董、利用著名球星制作的“螞蟻呀嘿”視頻

Avatarify,程序員居家辦公的無聊之作

疫情期間瘦黑,世界上無數(shù)人被迫遠(yuǎn)程辦公京革,百無聊賴的生活和頻繁的視頻會議催生了大家的創(chuàng)意,Avatarify就是其中之一幸斥。Avatarify源自于單詞avatar匹摇,原意為“(神的)化身”,后被引申為網(wǎng)絡(luò)上代表使用者的用戶形象或用戶頭像甲葬,avatarify可直譯為“頭像化”廊勃,意為“使變得像你的頭像一樣”。這個軟件項目的初衷是用來改換使用者的視頻會議頭像经窖,和同事們開個小小的玩笑(圖二)坡垫。但隨著在代碼項目托管網(wǎng)站GitHub上日漸受到追捧,軟件功能也日益完善画侣,從最開始要求使用者安裝編譯環(huán)境與代碼并在高等級的顯卡上運(yùn)行冰悠,到推出Windows圖形界面和遠(yuǎn)程運(yùn)行模式,降低了技術(shù)和硬件的門檻配乱;如今又推出手機(jī)應(yīng)用溉卓,手指輕點便能將一張張靜止的人臉隨著音樂律動了起來。雖然“變臉”后的視頻并不完美宪卿,有些角度甚至還有些扭曲的诵,但不妨礙網(wǎng)友們被魔性的表情洗腦,紛紛上傳并轉(zhuǎn)發(fā)佑钾。類似的“變臉”技術(shù)常被稱為“深度偽造”(Deepfake)技術(shù)西疤,在近幾年的網(wǎng)絡(luò)上屢見不鮮,為何Avatarify能夠異軍突起休溶,它和之前流行過的“變臉”軟件又有什么不同呢代赁?


圖二扰她、在視頻會議上化身特斯拉CEO伊隆·馬斯克,驚艷你的同事

圖像動態(tài)化芭碍,讓靜止的圖像動起來

Avatarify實現(xiàn)的功能被稱為“人臉圖像動態(tài)化”徒役,與之前曾流行過的換臉軟件“ZAO”不同,后者將用戶上傳的人臉替換目標(biāo)視頻中的人臉窖壕,這樣的技術(shù)一般被稱為“人臉替換”(Face Swap)忧勿,而前者則是使用一段包含動作的視頻,稱為驅(qū)動視頻(driving video瞻讽,簡稱D)鸳吸,驅(qū)動用戶上傳的源圖像(source image,簡稱S)使靜止的圖像按照視頻的方式動起來速勇,稱為“圖像動態(tài)化”(Image Animation)(圖三)晌砾。圖像動態(tài)化不僅可用于人臉圖像,理論上只要視頻和圖像素材中包含有相似的物體即可(圖四烦磁、圖五)养匈。

圖三、人臉替換vs圖像動態(tài)化

圖四與圖五都伪、對人體全身姿態(tài)圖像和卡通畫馬的動態(tài)化呕乎,左邊的大圖為驅(qū)動視頻,右邊上一行為靜止的源圖像院溺,下一行為經(jīng)過圖像動態(tài)化后的結(jié)果楣嘁。圖片選自https://github.com/AliaksandrSiarohin/first-order-model

一階運(yùn)動模型磅轻,自監(jiān)督學(xué)習(xí)無需額外標(biāo)注數(shù)據(jù)

Avatarify的技術(shù)理論名為一階運(yùn)動模型(First Order Motion Model珍逸,簡稱FOMM),來源于一篇名為《圖像動態(tài)化的一階運(yùn)動模型》(First Order Motion Model for Image Animation)的論文聋溜,由意大利特倫托大學(xué)(University of Trento)的Aliaksandr Siarohin等人發(fā)表在NeurIPS 2019上谆膳。以往的人臉圖像動態(tài)化的相關(guān)工作往往需要大量的人臉訓(xùn)練圖像以及相應(yīng)的標(biāo)注信息,且訓(xùn)練好的模型只能應(yīng)用于特定人臉撮躁,而無法應(yīng)用到未知的人臉中漱病。而FOMM無需大量標(biāo)注數(shù)據(jù),且一旦利用人臉視頻等某一類數(shù)據(jù)完成模型訓(xùn)練把曼,該模型便可直接運(yùn)用在任何同類圖像數(shù)據(jù)上杨帽,無需額外處理。

FOMM包含兩個模塊嗤军,分別為運(yùn)動提取模塊(Motion module)生成模塊(Generation module)注盈,運(yùn)動提取模塊求取稠密運(yùn)動場(Dense motion field)\mathcal{\hat{T}}_{S \leftarrow D}和遮擋映射(Occlusion map)\mathcal{\hat{O}}_{S \leftarrow D},稠密運(yùn)動場\mathcal{\hat{T}}_{S \leftarrow D}作用于源圖像S叙赚,使其具有與驅(qū)動視頻幀D相同的動作老客;遮擋映射\mathcal{\hat{O}}_{S \leftarrow D}用于標(biāo)記SD的運(yùn)動發(fā)生后原先運(yùn)動物體遮擋的部分背景僚饭,該部分需要在生成模塊進(jìn)行圖像補(bǔ)全(Image inpainting);生成模塊利用運(yùn)動提取模塊學(xué)習(xí)到的運(yùn)動信息對源圖像S進(jìn)行變換胧砰,并對生成的圖像進(jìn)行補(bǔ)全和優(yōu)化鳍鸵。

圖六、一階運(yùn)動模型(First Order Motion Model尉间,簡稱FOMM)示意圖

1. 運(yùn)動提取模塊

運(yùn)動提取模塊包括兩個網(wǎng)絡(luò)模型偿乖,具體如下:

  1. 第一個網(wǎng)絡(luò)是一個無監(jiān)督關(guān)鍵點檢測模型,將源圖像S和驅(qū)動視頻幀D作為輸入哲嘲,輸出兩個圖像各K個關(guān)鍵點以及各關(guān)鍵點對應(yīng)的仿射變換(Affine transformation)汹想,計算得到SD兩幀K個關(guān)鍵點之間對應(yīng)的稀疏運(yùn)動場(Sparse motion field)\mathcal{T}_{S \leftarrow D},用來描述兩幀之間K個關(guān)鍵點的變換關(guān)系撤蚊。
  2. 第二個網(wǎng)絡(luò)將K個關(guān)鍵點及對應(yīng)的稀疏運(yùn)動場\mathcal{T}_{S \leftarrow D}作為輸入古掏,可以得到K+1個mask矩陣M_k和一個遮擋映射\mathcal{\hat{O}}_{S \leftarrow D}M_k可以看做是標(biāo)記了第k個關(guān)鍵點的周圍區(qū)域侦啸,該區(qū)域可以通過該關(guān)鍵點對應(yīng)的稀疏運(yùn)動場\mathcal{T}_{S \leftarrow D}進(jìn)行變換槽唾。再額外加上一個M_0標(biāo)記無需變換的區(qū)域,如背景等光涂。稀疏運(yùn)動場\mathcal{T}_{S \leftarrow D}M_k結(jié)合便能得到稠密運(yùn)動場\mathcal{\hat{T}}_{S \leftarrow D}庞萍,描述了兩幀所有對應(yīng)像素點的變換關(guān)系。

需要特別說明的是忘闻,由于DS的關(guān)鍵點差異可能會比較大钝计,作者于是創(chuàng)新性地引入了一個抽象的參考幀R,通過預(yù)測\mathcal{T}_{S \leftarrow R}\mathcal{T}_{D \leftarrow R}來計算\mathcal{T}_{S \leftarrow D}齐佳,具體公式如下:\mathcal{T}_{S \leftarrow D}=\mathcal{T}_{S \leftarrow R}\circ \mathcal{T}_{R \leftarrow D}=\mathcal{T}_{S \leftarrow R}\circ \mathcal{T}^{-1}_{D \leftarrow R}\tag {1}
如此私恬,預(yù)測\mathcal{T}_{S \leftarrow D}的問題就轉(zhuǎn)化為了預(yù)測\mathcal{T}_{X \leftarrow R}的問題,X為輸入圖像炼吴,比如SD本鸣。FOMM利用R的關(guān)鍵點附近的一階泰勒展開來近似\mathcal{T}_{X \leftarrow R},這也是文章名“一階運(yùn)動模型”的由來硅蹦。
假設(shè)pR上的關(guān)鍵點荣德,zX上的關(guān)鍵點,即有z=\mathcal{T}_{X \leftarrow R}(p)童芹。\mathcal{T}_{X \leftarrow R}(p)p_k的一階泰勒展開如下:\mathcal{T}_{X \leftarrow R}(p)=\mathcal{T}_{X \leftarrow R}(p_k) + \left(\frac5fjxfp7{dp}\mathcal{T}_{X \leftarrow R}(p)\Bigg|_{p=p_k} \right)(p-p_k)+o(||p-p_k||) \tag{2}
上式右邊第一項即為X的一個關(guān)鍵點z_k涮瞻,第二項即為該關(guān)鍵點對應(yīng)的仿射變換。此二項即為圖像X輸入關(guān)鍵點檢測網(wǎng)絡(luò)后的輸出假褪。將\mathcal{T}_{S \leftarrow D}同樣進(jìn)行一階泰勒展開署咽,經(jīng)推導(dǎo)(詳見原文附錄)后得到:\mathcal{T}_{S \leftarrow D}(z)\approx \mathcal{T}_{S \leftarrow R}(p_k)+J_k(z-\mathcal{T}_{D \leftarrow R}(p_k)) \tag{3}
其中,J_k=\left( \fracjrvlvjv{dp}\mathcal{T}_{S \leftarrow R}(p)\Bigg|_{p=p_k}\right)\left( \frac7zftzth{dp}\mathcal{T}_{D \leftarrow R}(p)\Bigg|_{p=p_k}\right)^{-1} \tag{4}
這樣嗜价,\mathcal{T}_{S \leftarrow D}就能唯一由\mathcal{T}_{S \leftarrow R}\mathcal{T}_{D \leftarrow R}決定艇抠,而后兩者可由關(guān)鍵點檢測網(wǎng)絡(luò)得到幕庐。

2. 生成模塊

生成模塊并不直接對源圖像S的像素進(jìn)行一一變換,而是先將S輸入一個下采樣卷積編碼器得到S的特征映射(feature map)家淤,使用\mathcal{\hat{T}}_{S \leftarrow D}對該特征進(jìn)行變換异剥,注意遮擋映射\mathcal{\hat{O}}_{S \leftarrow D}中標(biāo)記的遮擋部分不用進(jìn)行變換;將變換后的特征輸入后續(xù)的解碼器絮重,結(jié)合\mathcal{\hat{O}}_{S \leftarrow D}的遮擋區(qū)域?qū)D像進(jìn)行補(bǔ)全并優(yōu)化冤寿。

3. 訓(xùn)練模型,提取運(yùn)動信息

FOMM模型采用自監(jiān)督訓(xùn)練方式青伤,利用驅(qū)動視頻的第一幀(D_1)與第t幀(D_t)作為運(yùn)動提取模塊的輸入督怜,即將D_1D_t作為SD,提取D_1D_t的運(yùn)動信息狠角,將D_1變換為\hat{D}_t号杠,并利用生成的幀\hat{D}_t與原幀D_t計算訓(xùn)練損失。以這樣的方式訓(xùn)練FOMM便不需要額外的標(biāo)簽數(shù)據(jù)丰歌。

生成幀\hat{D}_t與原幀D_t之間的訓(xùn)練損失姨蟋,通過將兩幅圖片分別輸入VGG19網(wǎng)絡(luò),取其中5層的特征值計算平均L1距離獲得立帖。該損失同時在四個圖像尺度上進(jìn)行計算眼溶,即將\hat{D}_tD_t下采樣至256\times 256, 128\times 128, 64\times 6432\times 32四個尺寸并分別計算5層特征值的平均L1距離,共20個訓(xùn)練損失項晓勇。此外堂飞,由于圖像關(guān)鍵點由無監(jiān)督關(guān)鍵點檢測網(wǎng)絡(luò)學(xué)習(xí)而來,特引入關(guān)鍵點不變性約束(equivariance constraint)绑咱,旨在確保原圖與變換后圖像關(guān)鍵點的一致性绰筛,提高關(guān)鍵點檢測準(zhǔn)確性。

4. FOMM總結(jié)

通過以上的解析羡玛,我們可以看出FOMM的有如下優(yōu)點:無需大量訓(xùn)練數(shù)據(jù)别智,無需標(biāo)注數(shù)據(jù),用于訓(xùn)練的視頻一旦訓(xùn)練完成可用于變換任一與視頻同類型圖片(如人臉視頻對應(yīng)人臉圖片)稼稿。這些優(yōu)點大大簡化了模型的訓(xùn)練流程,對不同的用戶上傳圖像有良好的可遷移性讳窟,其便捷程度也無怪乎能成為一款爆款A(yù)pp的核心算法让歼。

“變臉”狂歡,除了娛樂還有隱患

2019年8月丽啡,一款名為“ZAO”的換臉軟件登上各大手機(jī)應(yīng)用市場的排行榜谋右,大家紛紛用自己打臉扮演著經(jīng)典的電影橋段,一時間“換臉”視頻充斥中文互聯(lián)網(wǎng)的各個角落补箍。然而還沒火幾天改执,ZAO的霸王用戶協(xié)議便在社交網(wǎng)絡(luò)廣泛傳播啸蜜,其中規(guī)定用戶上傳的人臉內(nèi)容可被ZAO及關(guān)聯(lián)公司任意使用,風(fēng)險卻仍由用戶承擔(dān)辈挂。一時間眾人紛紛恐慌自己的臉被濫用衬横,ZAO也隨之從各大手機(jī)市場下架。彼時彼刻终蒂,恰如此時此刻蜂林。雖然ZAO與Avatarify的實現(xiàn)功能與底層技術(shù)都不盡相同,但同樣作為“變臉”軟件拇泣,它們的用戶面臨的風(fēng)險卻都不止于此噪叙。近年來,這樣的“變臉”技術(shù)漸漸興起霉翔,隔一段時間就能掀起一個爆款睁蕾,登上熱搜吸引一次眼球。它們還有一個更常見的名字债朵,叫作深度偽造惫霸。
深度偽造技術(shù),簡稱深偽,英文為Deepfake鞠柄,是深度學(xué)習(xí)(Deep learning)和偽造(fake)的結(jié)合奉狈。AI技術(shù)的蓬勃發(fā)展,帶來了諸如VAE硅卢、GAN等能夠生成逼真圖像的深度生成模型,而深度偽造技術(shù)便脫胎于此藏杖。起初将塑,生成一個不存在的人臉,或者交換圖中的兩個人臉蝌麸,只是相關(guān)研究人員的技術(shù)探索点寥,專業(yè)的算法知識、大量的計算資源和充足的運(yùn)算時間缺一不可来吩。然而隨著技術(shù)的發(fā)展敢辩,專業(yè)的算法被打包成一鍵式傻瓜操作的手機(jī)應(yīng)用,強(qiáng)大的云計算服務(wù)解放了本地計算資源和時間的限制弟疆,“變臉”的門檻逐漸消失了戚长,原本需要數(shù)天才能在頂級配置的計算機(jī)中得到的逼真結(jié)果,現(xiàn)在大家掏出手機(jī)便能制作怠苔。伴隨著病毒式的娛樂狂歡同廉,隱患也在悄然浮現(xiàn)。
Deepfake這一名稱最早來源于國外制作色情換臉視頻的社區(qū),該社區(qū)雖然由于涉及色情視頻迫肖、隱私侵犯等問題已經(jīng)被封禁锅劝,但色情換臉視頻仍舊是深度偽造技術(shù)最大的隱患,其以極低的成本就能造成當(dāng)事人名譽(yù)與心理上的極大傷害蟆湖;偽造政界或商界人士的公開講話故爵,傳播虛假觀點,有可能導(dǎo)致社會或市場的巨大震動帐姻,造成不必要的損失稠集;使用圖像動態(tài)化技術(shù)制作的諸如點頭、眨眼的視頻饥瓷,有可能騙過App或門禁系統(tǒng)的人臉認(rèn)證系統(tǒng)剥纷,導(dǎo)致財務(wù)失竊與信息丟失;更有甚者呢铆,利用偽造的視頻降低被偽造人親友的警惕性晦鞋,從而實施詐騙等違法犯罪活動。

拒絕隱患棺克,我們在行動

技術(shù)無罪悠垛,只有合理的監(jiān)管才能讓技術(shù)遠(yuǎn)離作惡。深度偽造技術(shù)問世以來娜谊,如何檢測真?zhèn)我曨l也便成為了關(guān)注的焦點确买。2020年11月,由中央網(wǎng)信辦纱皆、中國公安部指導(dǎo)湾趾,信通院參與協(xié)辦的中國人工智能·多媒體信息識別技術(shù)大賽在廈門舉行。本屆比賽首次加入了“視頻深度偽造”賽項派草,共34支來自高校搀缠、企業(yè)與事業(yè)單位的隊伍參與了比賽,最終排名前三的隊伍均達(dá)到了世界相似賽事的頂尖水平近迁,反映出各單位在深度偽造檢測領(lǐng)域的研究已頗有建樹艺普;目前《深度偽造視頻檢測平臺指標(biāo)要求和評估方法》正處于討論稿階段,其規(guī)范了測評深偽視頻檢測平臺的方法鉴竭,并制定了功能與性能評測的指標(biāo)歧譬,未來將作為團(tuán)體標(biāo)準(zhǔn)并以此開展測試;同時拓瞪,根據(jù)中國人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟發(fā)布的《可信AI操作指引》缴罗,參與開展可信AI試評估,規(guī)范AI應(yīng)用與AI平臺搜集與使用人臉數(shù)據(jù)的行為祭埂,確保人臉數(shù)據(jù)安全。信通院還向各單位征集“深偽”檢測系統(tǒng)工具,并提出以下幾點建議:

  1. 制作更大規(guī)模蛆橡、更多種類的深偽數(shù)據(jù)集
  2. 監(jiān)測國內(nèi)外深偽動態(tài)
  3. 建立“深度偽造云鑒”平臺
  4. 開展評估規(guī)范研制
  5. 舉辦技術(shù)沙龍舌界、賽事活動

技術(shù)在進(jìn)步,我們在為新的功能歡欣鼓舞時泰演,也要時刻留意隨之而來的挑戰(zhàn)呻拌。中國信通院積極參與深度偽造監(jiān)管體系的構(gòu)建,為保障數(shù)據(jù)安全與個人隱私貢獻(xiàn)力量睦焕,為可信的AI與網(wǎng)絡(luò)環(huán)境保駕護(hù)航藐握。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
禁止轉(zhuǎn)載,如需轉(zhuǎn)載請通過簡信或評論聯(lián)系作者垃喊。
  • 序言:七十年代末猾普,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子本谜,更是在濱河造成了極大的恐慌初家,老刑警劉巖,帶你破解...
    沈念sama閱讀 222,681評論 6 517
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件乌助,死亡現(xiàn)場離奇詭異溜在,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)他托,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,205評論 3 399
  • 文/潘曉璐 我一進(jìn)店門掖肋,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人赏参,你說我怎么就攤上這事志笼。” “怎么了登刺?”我有些...
    開封第一講書人閱讀 169,421評論 0 362
  • 文/不壞的土叔 我叫張陵籽腕,是天一觀的道長。 經(jīng)常有香客問我纸俭,道長皇耗,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 60,114評論 1 300
  • 正文 為了忘掉前任揍很,我火速辦了婚禮郎楼,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘窒悔。我一直安慰自己呜袁,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 69,116評論 6 398
  • 文/花漫 我一把揭開白布简珠。 她就那樣靜靜地躺著阶界,像睡著了一般虹钮。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上膘融,一...
    開封第一講書人閱讀 52,713評論 1 312
  • 那天芙粱,我揣著相機(jī)與錄音,去河邊找鬼氧映。 笑死春畔,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的岛都。 我是一名探鬼主播律姨,決...
    沈念sama閱讀 41,170評論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼臼疫!你這毒婦竟也來了择份?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 40,116評論 0 277
  • 序言:老撾萬榮一對情侶失蹤多矮,失蹤者是張志新(化名)和其女友劉穎缓淹,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體塔逃,經(jīng)...
    沈念sama閱讀 46,651評論 1 320
  • 正文 獨居荒郊野嶺守林人離奇死亡讯壶,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,714評論 3 342
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了湾盗。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片伏蚊。...
    茶點故事閱讀 40,865評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖格粪,靈堂內(nèi)的尸體忽然破棺而出躏吊,到底是詐尸還是另有隱情,我是刑警寧澤帐萎,帶...
    沈念sama閱讀 36,527評論 5 351
  • 正文 年R本政府宣布比伏,位于F島的核電站,受9級特大地震影響疆导,放射性物質(zhì)發(fā)生泄漏赁项。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 42,211評論 3 336
  • 文/蒙蒙 一澈段、第九天 我趴在偏房一處隱蔽的房頂上張望悠菜。 院中可真熱鬧,春花似錦败富、人聲如沸悔醋。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,699評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽芬骄。三九已至猾愿,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間德玫,已是汗流浹背匪蟀。 一陣腳步聲響...
    開封第一講書人閱讀 33,814評論 1 274
  • 我被黑心中介騙來泰國打工椎麦, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留宰僧,地道東北人。 一個月前我還...
    沈念sama閱讀 49,299評論 3 379
  • 正文 我出身青樓观挎,卻偏偏與公主長得像琴儿,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子嘁捷,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,870評論 2 361

推薦閱讀更多精彩內(nèi)容