SfSNet[1]
工作目的
這個工作的目的就是輸入一張在真實世界中人臉圖像裕偿,在朗伯假設(shè)下匠童,將圖像分解為形狀,反射和光照三方面的信息亦歉。形狀信息就是法向圖恤浪,反射信息表示為反照率。光照信息表示成一個三通道肴楷,每個通道9參數(shù)的矩陣水由,總共27個光照參數(shù)。
背景知識
球諧光照:其中的光照信息使用的是球諧光照的表示方法赛蔫,球諧光照由于涉及較多數(shù)學(xué)知識砂客,所以我還沒有完全明白,不過我的簡單的理解就是它就像傅里葉變換中的正諧函數(shù)一樣呵恢,我們可以用正諧函數(shù)去組成任意的函數(shù)鞠值,那么在這里就是使用球諧函數(shù)去表示任意的光照信息。
Shape from shading:是一種單幅圖像恢復(fù)三維信息的一種方法渗钉。需要知道光源的方向彤恶,根據(jù)以下定理求某點的傾角。其中涉及坐標(biāo)系的變換鳄橘,先由光源信息將坐標(biāo)系變?yōu)楣庠醋鴺?biāo)系声离,在此坐標(biāo)系進行計算之后重新變回原坐標(biāo)系。
論文亮點
我們知道瘫怜,要訓(xùn)練這樣的模型术徊,不僅需要有人臉圖像,還要有該人臉圖像對應(yīng)的形狀鲸湃,反射率等信息赠涮。但是這樣的數(shù)據(jù)十分有限子寓。因為收集大量的人臉是沒問題的,但是該模型還需要和它相匹配的三維模型笋除,不僅如此别瞭,更需要記錄每張臉的反照率和每次拍攝時的光照參數(shù),這個就比較困難了株憾。該模型就是較好的將合成的數(shù)據(jù)(有標(biāo)簽)和真實人臉圖像(無標(biāo)簽)進行混合訓(xùn)練蝙寨。
在有標(biāo)簽的合成數(shù)據(jù)上訓(xùn)練一個簡單的基于跳躍連接的編碼解碼網(wǎng)絡(luò)。
將此網(wǎng)絡(luò)應(yīng)用于真實數(shù)據(jù)嗤瞎,以獲得形狀墙歪,反照率和光照估計。這些元素將在下一階段用作“偽監(jiān)督”贝奇。
用帶有標(biāo)簽的合成數(shù)據(jù)和帶有“偽監(jiān)督”標(biāo)簽的真實數(shù)據(jù)訓(xùn)練SfSNet虹菲。 損失除了法向,反照率和光照的監(jiān)督損失掉瞳,還有重建損失毕源,其旨在最小化原始圖像和重建圖像之間的誤差。
總的來說合成信息是讓網(wǎng)絡(luò)學(xué)習(xí)分解信息陕习,學(xué)習(xí)到的是較低頻的霎褐,由于是合成的,所以沒有皺紋等高頻信息就無法學(xué)習(xí)到该镣。 而真實數(shù)據(jù)由于有重建損失的存在使得網(wǎng)絡(luò)能夠?qū)W習(xí)到高頻信息冻璃,而“偽監(jiān)督”標(biāo)簽的存在使得真實圖像也能正確地進行圖像分解,從而達到改變光照的目的损合。
Deforming AE[2]
這是一種圖像的生成模型省艳,可以無人監(jiān)督的方式從外觀中解開形狀。與可變形模板范例一樣嫁审,形狀表示為規(guī)范坐標(biāo)系(“模板”)和觀察圖像之間的變形跋炕,而外觀則以變形不變的模板坐標(biāo)建模。我們介紹了允許在自動編碼器設(shè)置中部署此方法的新技術(shù)律适,并表明該方法可用于無監(jiān)督的分組圖像對齊辐烂。我們展示了人類,手和數(shù)字中的表達變形擦耀,面部操縱(例如形狀和外觀插值)以及無監(jiān)督地標(biāo)定位的實驗棉圈。我們還在模板坐標(biāo)中實現(xiàn)了一種更強大的無監(jiān)督解開形式涩堤,成功地將人臉圖像分解為陰影和反照率眷蜓,使我們能夠進一步操縱人臉圖像。
貢獻
介紹了變形自動編碼器架構(gòu)胎围,將可變形建模范例與無監(jiān)督深度學(xué)習(xí)結(jié)合在一起吁系。我們將模板到圖像的對應(yīng)任務(wù)視為預(yù)測平滑和可逆轉(zhuǎn)換的任務(wù)德召。如圖1所示,我們的網(wǎng)絡(luò)首先預(yù)測轉(zhuǎn)換場與模板對齊的外觀場汽纤。它隨后使合成的外觀變形以生成類似于其輸入的圖像上岗。這允許我們通過明確地模擬解碼期間圖像變形的影響來解開形狀和外觀。
探索了解碼器可以表示和預(yù)測變形的不同方式蕴坪。我們不是建立一個通用的變形模型肴掷,而是用一個非剛性場組成一個全局的,變形的場背传,它被合成為一個卷積解碼器網(wǎng)絡(luò)呆瞻。我們開發(fā)了一種方法,可以防止合成變形場中的自交径玖,并表明它簡化了訓(xùn)練并提高了準(zhǔn)確性痴脾。我們還表明,在可用時梳星,可以利用與類相關(guān)的信息來學(xué)習(xí)更好的變形模型:這會產(chǎn)生更清晰的圖像赞赖,并且可以用于學(xué)習(xí)共同考慮多個類的模型 - 例如所有MNIST數(shù)字。
表明了從變形中解開外觀對于建模和操縱圖像具有幾個優(yōu)點冤灾。與標(biāo)準(zhǔn)自動編碼器架構(gòu)相比前域,解纏結(jié)導(dǎo)致表達,姿勢或身份插值等任務(wù)的明顯更好的綜合結(jié)果韵吨。類似地话侄,我們表明變形的計算有助于進一步將外觀成分解開為內(nèi)在的陰影反照率分解,這允許我們通過對潛在著色坐標(biāo)的簡單操作重新著色学赛。
具體模型原理
未完待續(xù)……
參考文獻:
[1]. Sengupta S, Kanazawa A, Castillo C D, et al. SfSNet: Learning Shape, Reflectance and Illuminance of Faces in the Wild[J]. 2017.
[2]. Shu Z, Sahasrabudhe M, Guler A, et al. Deforming Autoencoders: Unsupervised Disentangling of Shape and Appearance[J]. 2018.