論文《Learning to Recover 3D Scene Shape from a Single Image》解讀
這篇文章是沈春華老師組的CVPR2021論文弧轧,最近提名了Best Paper雪侥。我沒做過場(chǎng)景重建,但是看到這篇文章依然非常有興趣精绎。下面是我的個(gè)人解讀速缨,有錯(cuò)誤的地方希望各位大佬指出。
動(dòng)機(jī): 雖然目前單張圖像深度重建任務(wù)有了長足的進(jìn)步代乃,但是即使是SOTA的方法依然無法用這些深度圖重建出準(zhǔn)確的三維形狀旬牲。原因在于深度圖漂移現(xiàn)象(Depth shift。induced by shift-invariant reconstruction losses used in mixed-data depth prediction training)和相機(jī)焦距的未知搁吓。
對(duì)上述論述進(jìn)行解釋原茅,如上圖所示,x,y,z表示頂點(diǎn)三維坐標(biāo)擎浴,u0,v0表示相機(jī)光軸重心位置员咽,f表示焦距,d表示深度圖贮预。深度圖d的偏移,會(huì)導(dǎo)致x,y,z的非均勻變化從而導(dǎo)致形狀畸變契讲;而f會(huì)導(dǎo)致x,y產(chǎn)生均勻變化仿吞,而z不變,這樣也會(huì)導(dǎo)致形狀的畸變捡偏。所以作者用兩階段的網(wǎng)絡(luò)去解決這個(gè)問題唤冈,首先用一個(gè)網(wǎng)絡(luò)預(yù)測(cè)深度圖,然后用第二個(gè)網(wǎng)絡(luò)去預(yù)測(cè)深度圖的偏移量和相對(duì)初始焦距的縮放因子银伟,而初始焦距在測(cè)試的時(shí)候使用的是固定值你虹。
背景:目前基于單張圖像的深度圖重建绘搞,在訓(xùn)練過程中因?yàn)槭褂昧藖碜杂诓煌瑪?shù)據(jù)集的數(shù)據(jù),所以其相機(jī)內(nèi)參各不相同傅物,這給深度圖重建的先驗(yàn)帶來了挑戰(zhàn)夯辖。而在測(cè)試過程中,相機(jī)的焦距通常不可獲得董饰,這會(huì)導(dǎo)致重建的三維的畸變更加明顯蒿褂。
方法:整體框架如下圖所示
(1)PCM 模塊
①訓(xùn)練:訓(xùn)練的時(shí)候,深度圖和焦距都是GT的卒暂,并且對(duì)它們進(jìn)行一個(gè)擾動(dòng)啄栓。對(duì)深度圖進(jìn)行[-0.25, 0.8]的偏移擾動(dòng),對(duì)焦距進(jìn)行[0.6, 1.25]范圍內(nèi)的縮放擾動(dòng)也祠。然后把生成的點(diǎn)云送入網(wǎng)絡(luò)中昙楚,分別預(yù)測(cè)出它們的深度偏移量Δd和αf,這兩個(gè)量要與它們的預(yù)先擾動(dòng)量Δ*d和α*f盡可能接近诈嘿。
②測(cè)試:測(cè)試的時(shí)候堪旧,從DPM模塊中得到的深度圖和一個(gè)猜測(cè)的固定值f送入網(wǎng)絡(luò)中,得到它們的偏移量和焦距所放量永淌,得到最后的深度圖和焦距崎场,進(jìn)而重建整個(gè)的三維形狀。
(2)DPM模塊
①Image-level normalized regression loss:由于深度圖訓(xùn)練數(shù)據(jù)來源于不同的數(shù)據(jù)集遂蛀,其深度圖標(biāo)簽的范圍不一致谭跨,如果僅僅采用min max normalization:(X-Min)/(Max-Min)有一些缺陷。它對(duì)離線點(diǎn)比較敏感李滴,比如一個(gè)深度圖當(dāng)中的最大值僅僅包含一個(gè)像素點(diǎn)螃宙,那么其它所有的深度值都會(huì)受它的影響。所以作者提出了下面的損失函數(shù):
②Pair-wise normal loss: 法向量是Geometry的很重要的特征所坯,它是深度圖一種很重要的互補(bǔ)模態(tài)信息谆扎,對(duì)于提升深度圖的質(zhì)量很有幫助。而僅僅對(duì)所有點(diǎn)的法向量進(jìn)行全局約束不能提升局部結(jié)構(gòu)重建的能力芹助。所以作者對(duì)局部法向量進(jìn)行約束堂湖,方法是在對(duì)預(yù)測(cè)和標(biāo)簽點(diǎn)云的Edge(法向量變化劇烈的區(qū)域)的兩側(cè)點(diǎn)云進(jìn)行采樣,如果平坦區(qū)域存在状土,則也對(duì)其進(jìn)行采樣:
③:深度圖多尺度梯度約束:
實(shí)驗(yàn):1.焦距的準(zhǔn)確性對(duì)深度圖預(yù)測(cè)有幫助嗎无蜂?
由于深度預(yù)測(cè)網(wǎng)絡(luò)DPM和PCM是分開訓(xùn)練的,所以是不會(huì)有幫助的蒙谓,而作者在論文中也沒有體現(xiàn)斥季。深度圖預(yù)測(cè)的結(jié)果如下圖:
2.PWN的消融實(shí)驗(yàn)?
訓(xùn)練全部數(shù)據(jù)比較耗時(shí)累驮,所以作者只在小部分?jǐn)?shù)據(jù)集上進(jìn)行了測(cè)試
可以看到還是有提升的酣倾,不過不是很明顯舵揭,和深度圖重建任務(wù)本身有關(guān)?
3.Image-level normalized regression loss躁锡?
4.3D shape 重建午绳?
提升非常明顯了。
可視化效果可以看出來稚铣,f的提升對(duì)于整體視覺的提升非常明顯箱叁,效果非常驚艷。
題外話:作者通過預(yù)測(cè)內(nèi)參f,在深度圖沒有大幅度提升的情況下惕医,對(duì)三維場(chǎng)景重建的性能有非常巨大的提升耕漱。文章的寫作也非常值得學(xué)習(xí),雖然管線結(jié)構(gòu)是先深度圖再PCM抬伺,但是方法和實(shí)驗(yàn)部分都是先突出f帶來的三維形狀重建的部分螟够。