Robust Consistent Video Depth Estimation 論文鏈接:https://arxiv.org/abs/2012.05901
摘要:我們提出了一種用于從單目視頻中估計(jì)一致的密集深度圖和相機(jī)姿態(tài)的算法图张。我們以卷積神經(jīng)網(wǎng)絡(luò)的形式集成了基于學(xué)習(xí)的深度先驗(yàn)知識(shí)撬即,該算法經(jīng)過訓(xùn)練可用于單圖像深度估計(jì)格郁,并通過幾何優(yōu)化來(lái)估計(jì)平滑的相機(jī)軌跡以及詳細(xì)而穩(wěn)定的深度重建亚亲。我們的算法結(jié)合了兩種互補(bǔ)技術(shù):(1)用于低頻大規(guī)模對(duì)準(zhǔn)的柔性變形樣條線和(2)用于精細(xì)深度細(xì)節(jié)的高頻對(duì)準(zhǔn)的幾何感知深度過濾。與現(xiàn)有方法相比题造,我們的方法不需要照相機(jī)姿勢(shì)作為輸入抑诸,并且可以實(shí)現(xiàn)強(qiáng)大的重建,以應(yīng)對(duì)包含大量噪聲弧械,抖動(dòng),運(yùn)動(dòng)模糊和滾動(dòng)快門變形的具有挑戰(zhàn)性的手持式手機(jī)拍攝空民。在深度和姿態(tài)估計(jì)方面刃唐,我們的方法在數(shù)量上都超過了Sintel基準(zhǔn)上的最新技術(shù),并且在各種wild數(shù)據(jù)集上都獲得了令人滿意的定性結(jié)果界轩。
注:本文的一個(gè)重要思想就是深度估計(jì)等價(jià)于重建画饥,從重建的角度來(lái)做深度估計(jì);
【介紹】
這篇文章的目的是為了在視頻場(chǎng)景下生成穩(wěn)定的深度估計(jì)結(jié)果浊猾,其提出的算法可以在一個(gè)單目視頻中估計(jì)出一致的深度圖和相機(jī)位姿抖甘。文章首先會(huì)使用MiDas為視頻中的單幀圖像做初始深度估計(jì)(主要用于提供深度scale參數(shù)),以及使用Ceres Library上計(jì)算相機(jī)的初始位姿信息葫慎。之后再在輸入的視頻序列上使用在線finetune形式交替進(jìn)行深度估計(jì)結(jié)果與相機(jī)位姿優(yōu)化衔彻。在上面的finetune優(yōu)化中使用到了一個(gè)幾何優(yōu)化過程去生成穩(wěn)定平滑地相機(jī)移動(dòng)軌跡(表征為相機(jī)關(guān)聯(lián)的內(nèi)外參數(shù))與深度細(xì)節(jié)保存完好且穩(wěn)定的深度結(jié)果。在上面提到的相機(jī)位姿優(yōu)化與最后深度估計(jì)生成過程包含兩個(gè)互補(bǔ)的技術(shù)(分別對(duì)低頻區(qū)域和高頻區(qū)域):
1)使用靈活的變化樣條函數(shù)去實(shí)現(xiàn)圖像內(nèi)低頻區(qū)域的區(qū)塊對(duì)齊幅疼;
2)使用一個(gè)幾何感知深度濾波器在不同的視頻幀上去對(duì)齊高頻的細(xì)節(jié)部分米奸。
相比之前的方法(《Consistent Video Depth Estimation》Consistent Video Depth Estimation)
1、首先爽篷, 以單目視頻為輸入悴晰,對(duì)一對(duì)(潛在的遠(yuǎn)距離)幀進(jìn)行采樣,并使用預(yù)先訓(xùn)練的單圖像深度估計(jì)模型估計(jì)深度,以獲得初始深度圖铡溪。
2漂辐、對(duì)這對(duì)圖像,使用光流法前后向一致性檢查建立對(duì)應(yīng)關(guān)系棕硫。接著髓涯,利用這些對(duì)應(yīng)關(guān)系和相機(jī)位置提取三維幾何約束。
3哈扮、將三維幾何約束分解為兩個(gè)損失:空間損失和視差損失纬纪。通過標(biāo)準(zhǔn)反向傳播,用這兩個(gè)損失對(duì)深度估計(jì)網(wǎng)絡(luò)的權(quán)重進(jìn)行微調(diào)滑肉,以最小化多幀幾何不一致性誤差包各。 在微調(diào)階段之后,我們從視頻中得到的最終深度估計(jì)結(jié)果是從微調(diào)模型中計(jì)算出來(lái)的靶庙。
總的來(lái)說(shuō)问畅,該Consistent Video Depth Estimation思想是結(jié)合各個(gè)方法的優(yōu)勢(shì)。使用已經(jīng)存在的單圖片深度估計(jì)網(wǎng)絡(luò)去估計(jì)可能的深度六荒,然后使用傳統(tǒng)的重建方法提取幾何約束來(lái)微調(diào)該網(wǎng)絡(luò)(即傳統(tǒng)的方法與基于學(xué)習(xí)的方法結(jié)合)护姆,所以這個(gè)網(wǎng)絡(luò)會(huì)產(chǎn)生幾何上一致性的深度圖。主要分為兩個(gè)階段:
預(yù)處理階段:從視頻幀中提取出幾何約束掏击,使用傳統(tǒng)的方法sfm卵皂,計(jì)算出內(nèi)外參,使用初始網(wǎng)絡(luò)產(chǎn)生初始深度圖铐料。
測(cè)試訓(xùn)練階段:微調(diào)網(wǎng)絡(luò)渐裂。
? ? ? ?但是相比之下該文章并不需要相機(jī)的位姿信息作為輸入豺旬,在文章算法中對(duì)其進(jìn)行預(yù)測(cè)钠惩。同時(shí)文章方法的設(shè)計(jì)是源自于Consistent Video Depth Estimation的。同時(shí)Consistent Video Depth Estimation存在以下局限性:
1.姿勢(shì)
該方法目前依賴 COLMAP族阅,來(lái)基于單目視頻估計(jì)相機(jī)位姿篓跛。而在難度較大的場(chǎng)景中,如相機(jī)平移有限及動(dòng)態(tài)模糊的情況下坦刀,COLMAP 可能無(wú)法生成靠譜的稀疏重建結(jié)果和相機(jī)位姿估計(jì)愧沟。
較大的位姿誤差也會(huì)對(duì)該方法的輸出結(jié)果造成極大的負(fù)面影響,因此這限制了該方法在此類視頻中的應(yīng)用鲤遥。
將基于學(xué)習(xí)的位姿估計(jì)和該研究提出的方法結(jié)合起來(lái)沐寺,或許是一個(gè)不錯(cuò)的研究方向。
2.動(dòng)態(tài)運(yùn)動(dòng)
該方法支持包含溫和運(yùn)動(dòng)的視頻盖奈,但如果運(yùn)動(dòng)較為激烈則該方法會(huì)出現(xiàn)問題混坞。
3.光流
該方法依賴 FlowNet2 來(lái)構(gòu)建幾何約束。使用前后向傳播一致性檢查并過濾掉不可靠的光流,但這也可能出現(xiàn)錯(cuò)誤究孕。這時(shí)該方法無(wú)法輸出正確的深度啥酱。研究者嘗試使用稀疏光流,但效果并不好厨诸。
4.速度
該方法利用視頻中所有幀提取幾何約束镶殷,因此不支持在線處理。例如微酬,對(duì)于一個(gè)包含 244 幀绘趋、708 個(gè)采樣光流對(duì)的視頻來(lái)說(shuō),該方法的測(cè)試時(shí)訓(xùn)練步耗時(shí)約 40 分鐘颗管。
【算法-Pipline】
上圖可知埋心,主要是以下三個(gè)部分:
1、使用MiDas作為單幀深度估計(jì)方法忙上,從而估計(jì)得到單幀圖像的初始深度信息拷呆。使用Ceres Library從視頻序列中去計(jì)算初始相機(jī)位姿;
2疫粥、使用finetune訓(xùn)練的形式從輸入的視頻序列中交替優(yōu)化深度估計(jì)結(jié)果與相機(jī)位姿信息茬斧,在相機(jī)位姿估計(jì)過程中使用樣條差值的形式實(shí)現(xiàn)深度對(duì)齊,從而使得相機(jī)位姿估計(jì)的結(jié)果穩(wěn)定梗逮;
3项秉、使用幾何感知的深度濾波器在多幀之間進(jìn)行濾波保留和優(yōu)化深度估計(jì)中的高頻信息;
《Robust Consistent Video Depth Estimation》論文筆記_m_buddy的博客-CSDN博客