https://arxiv.org/pdf/2006.02535.pdf
A Survey on Deep Learning Techniques for Stereo-based Depth Estimation
發(fā)表在TPAMI上
6學(xué)習(xí)多視角立體
多視圖立體(MVS)方法遵循與立體深度相同的管道撩嚼。早期的工作重點(diǎn)是計(jì)算多個(gè)patch 之間的相似性明肮。例如希停,Hartmann等人[47](圖6-(a))將立體匹配中使用的成對(duì)相關(guān)層替換為平均池層伙菜,以聚合n的學(xué)習(xí)特征≥ 2個(gè)輸入patch ,然后將輸出反饋給頂級(jí)網(wǎng)絡(luò)涣旨,該網(wǎng)絡(luò)返回匹配的分?jǐn)?shù)擦剑。使用這種方法,計(jì)算參考圖像上像素的最佳匹配需要n?1 d向前傳球杠输。(nd是深度級(jí)別的數(shù)量,n是圖像的數(shù)量秕衙。)這在計(jì)算上非常昂貴蠢甲,尤其是在處理高分辨率圖像時(shí)。
在單個(gè)正向過(guò)程中計(jì)算深度圖的技術(shù)在將來(lái)自多個(gè)視圖的信息饋送到網(wǎng)絡(luò)并聚合的方式上有所不同据忘。我們將其分為基于體積(第6.1節(jié))還是基于平面掃描體積(第6.2節(jié))鹦牛。后者不依賴于三維幾何體的中間體積表示。唯一的例外是Hou等人[115]的方法勇吊,該方法對(duì)輸入圖像的潛在表示進(jìn)行時(shí)間融合能岩。然而,這種方法需要時(shí)間有序的圖像萧福。表4提供了一個(gè)分類拉鹃,并比較了13種最先進(jìn)的MVS技術(shù)。
6.1體積表示法
MVS重建的主要問(wèn)題之一是如何高效地匹配多幅圖像的特征鲫忍。兩兩立體方法對(duì)圖像進(jìn)行校正膏燕,使對(duì)應(yīng)的搜索僅限于水平極線。這在MVS中是不可能的悟民,因?yàn)閳D像之間的視角差異很大坝辫。這是通過(guò)場(chǎng)景幾何體的體積表示[60],[116]解決的射亏。然后通過(guò)從所需視點(diǎn)投影生成深度圖近忙。對(duì)于給定的輸入圖像,使用已知的相機(jī)參數(shù)智润,從視點(diǎn)投射光線穿過(guò)每個(gè)圖像像素及舍。與該光線相交的體素被指定該像素的顏色[116]或?qū)W習(xí)特征[60]。現(xiàn)有方法在融合多個(gè)視圖信息的方式上有所不同:
(1) 融合特征網(wǎng)格窟绷。Kar等人[60](圖6-(c))使用遞歸神經(jīng)網(wǎng)絡(luò)(RNN)遞歸地融合反向投影的3D特征網(wǎng)格锯玛。生成的三維網(wǎng)格使用編碼器-解碼器進(jìn)行正則化。為了避免對(duì)圖像順序的依賴兼蜈,Kar等人[60]在訓(xùn)練期間隨機(jī)排列輸入圖像攘残,同時(shí)限制輸出相同。
(2) 融合成對(duì)成本为狸。Choi等人[117]使用加權(quán)和融合從每對(duì)圖像計(jì)算出的成本體積歼郭,其中每個(gè)體積的權(quán)重是從該成本體積計(jì)算出的置信圖。
(3) 融合重建的表面辐棒。Ji等人[116]使用3D CNN處理每一對(duì)體積網(wǎng)格病曾,該CNN對(duì)體素是否為曲面點(diǎn)進(jìn)行分類姊途。為了避免對(duì)所有可能的圖像對(duì)進(jìn)行詳盡的組合,Ji等人[116]了解了它們的相對(duì)重要性知态,使用由完全連接的層組成的網(wǎng)絡(luò)捷兰,根據(jù)它們的相對(duì)重要性自動(dòng)選擇幾個(gè)視圖對(duì)來(lái)重建多個(gè)體積網(wǎng)格,然后取它們的加權(quán)和负敏,生成最終的三維重建贡茅。
為了處理高分辨率的體網(wǎng)格,Ji等人[116]將整個(gè)空間分割成小的彩色體素立方體(CVC)其做,并逐立方體回歸曲面立方體顶考。雖然這減少了內(nèi)存需求,但它需要多次向前傳遞妖泄,從而增加了計(jì)算時(shí)間驹沿。Paschalidou等人[91]避免明確使用體積表示法。取而代之的是蹈胡,網(wǎng)格的每個(gè)體素投影到每個(gè)輸入視圖上渊季,然后計(jì)算每對(duì)視圖上相應(yīng)的學(xué)習(xí)特征之間的成對(duì)相關(guān)性,然后對(duì)所有視圖對(duì)進(jìn)行平均罚渐。對(duì)每個(gè)深度值重復(fù)此過(guò)程將導(dǎo)致每個(gè)像素上的深度分布却汉。該深度分布通過(guò)使用MRF(表示為可微函數(shù))進(jìn)行正則化,以實(shí)現(xiàn)端到端訓(xùn)練荷并。
就性能而言合砂,Ji等人[116]的體積法需要4小時(shí)才能在DTU數(shù)據(jù)集中獲得典型場(chǎng)景的完整重建[24]。Paschalidou等人[91]的方法在配備N(xiāo)vidia GTX Titan X GPU的英特爾i7計(jì)算機(jī)上完成同樣的任務(wù)大約需要25分鐘源织。最后翩伪,與早期融合的方法相比,進(jìn)行融合后重建的方法具有更高的重建誤差谈息。
6.2平面掃描體積表示法
這些方法直接從輸入估計(jì)深度圖缘屹,而不使用三維幾何體的中間體積表示。因此黎茎,它們的計(jì)算效率更高囊颅。要解決的主要挑戰(zhàn)是如何在一次正向傳遞中有效地匹配多個(gè)視圖中的功能当悔。這是通過(guò)使用平面掃描體積(PSV)[27]傅瞻、[66]、[90]盲憎、[93]嗅骄、[118]、[119]來(lái)實(shí)現(xiàn)的饼疙,即它們將輸入圖像[27]溺森、[66]慕爬、[118]或其學(xué)習(xí)的特征[90]、[93]屏积、[119]反向投影到不同深度值的平面中医窿,形成PSV,從中估計(jì)深度圖〈读郑現(xiàn)有的方法在特征提取和特征匹配塊處理PSV的方式上有所不同姥卢。
Flynn等人的網(wǎng)絡(luò)[66](圖6-(b))由nd分支組成,每個(gè)深度平面一個(gè)分支渣聚。d?網(wǎng)絡(luò)的第h分支將參考圖像和位于深度d的其他圖像的PSV平面作為輸入独榴。這些圖像被打包在一起,并饋送到兩級(jí)網(wǎng)絡(luò)奕枝。第一階段計(jì)算參考圖像和位于深度d的所有PSV平面之間的匹配特征棺榔。第二階段使用卷積層模擬深度平面之間的交互。網(wǎng)絡(luò)的最后一個(gè)塊是每像素softmax over depth隘道,它返回每像素最可能的深度值症歇。該方法要求已知每個(gè)視圖的視圖數(shù)量和相機(jī)參數(shù)。
Huang等人[27]的方法(圖6-(d))從兩兩匹配步驟開(kāi)始谭梗,其中計(jì)算參考圖像和每個(gè)輸入圖像之間的cost volumes 当船。對(duì)于給定的一對(duì)(I1,Ii)默辨,i=2德频,n、 Ii首先被反投影到PSV中缩幸。然后壹置,暹羅網(wǎng)絡(luò)計(jì)算I1和每個(gè)PSV飛機(jī)之間的匹配cost volumes 。使用編碼器-解碼器網(wǎng)絡(luò)將這些卷聚合為單個(gè)cost volumes表谊。這稱為卷內(nèi)聚合钞护。最后,使用最大池層將多個(gè)內(nèi)部卷聚合為單個(gè)內(nèi)部卷爆办,然后使用該內(nèi)部卷預(yù)測(cè)深度圖难咕。
與Flynn等人[66]不同,Huang等人[27]的方法不需要固定數(shù)量的輸入視圖距辆,因?yàn)榫酆鲜鞘褂贸貋?lái)執(zhí)行的余佃。事實(shí)上,在訓(xùn)練和運(yùn)行時(shí)跨算,視圖的數(shù)量可能會(huì)有所不同爆土。與[27]、[66]不同的是诸蚕,Yao等人[93]的MVSNet使用相機(jī)參數(shù)將學(xué)習(xí)到的特征反向投影到參考相機(jī)的3D平截頭體中步势,該平截頭體被切割成平行的正面平面氧猬,每個(gè)深度值對(duì)應(yīng)一個(gè)。然后坏瘩,該方法根據(jù)基于像素方差的度量生成匹配代價(jià)體盅抚,最后使用通用的3D U網(wǎng)絡(luò)對(duì)匹配代價(jià)體進(jìn)行正則化,以估計(jì)深度圖倔矾。Luo等人[119]通過(guò)兩種方式將MVSNet[93]擴(kuò)展到P-MVSNet泉哈。首先,在將原始cost volumes 輸入正則化網(wǎng)絡(luò)之前破讨,使用可學(xué)習(xí)的分片聚合函數(shù)對(duì)其進(jìn)行處理丛晦。這提高了噪聲數(shù)據(jù)的匹配魯棒性和準(zhǔn)確性。其次提陶,PMVSNet使用混合各向同性三維UNet烫沙,而不是使用通用的三維UNet網(wǎng)絡(luò)進(jìn)行正則化。平面掃描體積在深度和空間方向上基本上是各向異性的隙笆,但它們通常由各向同性成本體積近似锌蓄,這可能是有害的。事實(shí)上撑柔,人們可以沿著匹配cost volumes 的深度方向推斷出相應(yīng)的深度圖瘸爽,但不能沿著其他方向獲得相同的信息。Luo等人[119]利用這一事實(shí)铅忿,通過(guò)提出的具有各向同性和各向異性3D卷積的混合3D U網(wǎng)剪决,來(lái)指導(dǎo)匹配置信體積的正則化。
使用PSV的主要優(yōu)點(diǎn)是檀训,無(wú)需提供校正圖像柑潦。換句話說(shuō),相機(jī)參數(shù)是隱式編碼的峻凫。然而渗鬼,為了計(jì)算PSV,需要提前提供內(nèi)部和外部攝像機(jī)參數(shù)荧琼,或者使用例如[27]中的運(yùn)動(dòng)結(jié)構(gòu)技術(shù)來(lái)估計(jì)譬胎。此外,這些方法需要提前設(shè)置視差范圍及其離散化命锄。此外堰乔,它們通常會(huì)導(dǎo)致復(fù)雜的網(wǎng)絡(luò)架構(gòu)。Wang等人[120]提出了一種輕量級(jí)的架構(gòu)累舷。它將參考圖像和成本體積堆疊在一起浩考,使用參考圖像和其他圖像之間的絕對(duì)差值計(jì)算,但深度平面不同被盈,并將它們提供給具有跳過(guò)連接的編碼器-解碼器網(wǎng)絡(luò)析孽,以估計(jì)三種不同分辨率下的逆深度。Wang等人[120]使用視圖選擇規(guī)則只怎,該規(guī)則選擇具有足夠角度或平移差的幀袜瞬,然后使用所選幀計(jì)算cost volumes 。
最后身堡,請(qǐng)注意邓尤,Won等人[30]也使用特征反投影從寬基線多視圖立體設(shè)置進(jìn)行全向深度估計(jì)。該方法使用球形映射和球形成本體積贴谎。
7.訓(xùn)練端到端立體匹配方法
訓(xùn)練過(guò)程旨在找到使損失函數(shù)L(W汞扎;D,?Θ)最小化的網(wǎng)絡(luò)參數(shù)W擅这,其中D?是估計(jì)的差異澈魄,Θ是監(jiān)督線索。損失函數(shù)被定義為數(shù)據(jù)項(xiàng)L1(D仲翎,?Θ痹扇,W)和正則化或平滑項(xiàng)L2(D,W?)的總和溯香,前者測(cè)量基礎(chǔ)真值和估計(jì)的視差之間的差異鲫构,后者對(duì)解施加局部或全局約束。監(jiān)督線索的類型定義了監(jiān)督的程度(第7.1節(jié))玫坛,可以使用3D真值(第7.1.1節(jié))進(jìn)行監(jiān)督结笨,使用輔助線索進(jìn)行自監(jiān)督(第7.1.2節(jié)),或弱監(jiān)督(第7.1.3節(jié))湿镀。一些方法使用額外的線索禀梳,以約束解決方案的形式,來(lái)提高準(zhǔn)確性和性能(第7.2節(jié))肠骆∷阃荆基于深度學(xué)習(xí)的技術(shù)的主要挑戰(zhàn)之一是它們推廣到新領(lǐng)域的能力。第7.3節(jié)回顧了解決該問(wèn)題的方法蚀腿。最后嘴瓤,第7.4節(jié)回顧了學(xué)習(xí)網(wǎng)絡(luò)架構(gòu)的方法
7.1監(jiān)督方法
7.1.1三維監(jiān)測(cè)方法
對(duì)監(jiān)督方法進(jìn)行訓(xùn)練,使損失函數(shù)最小化莉钙,該損失函數(shù)測(cè)量真值視差和估計(jì)視差之間的誤差廓脆。其形式如下:
其中:dx a?dx分別是地面真值和像素x處的估計(jì)視差。D是距離的度量磁玉,可以是L2停忿、L1[61]、[62]蚊伞、[99]席赂、[121]吮铭、平滑L1[64]或平滑L1,但使用雙參數(shù)魯棒函數(shù)ρ(·)[72]颅停、[122]進(jìn)行近似谓晌。C(x)∈ [0,1]是x處估計(jì)視差的置信度癞揉。設(shè)置C(x)=1纸肉,閾值C=0,?x相當(dāng)于忽略置信度圖喊熟。H(x)是重邊函數(shù)柏肪,如果x等于1≥ 0,否則為0芥牌。Φ(·)是標(biāo)識(shí)函數(shù)或日志函數(shù)烦味。后者避免了過(guò)度調(diào)整網(wǎng)絡(luò)以適應(yīng)巨大的差異。
有些文件限制了等式中的總和胳泉。(6) 僅覆蓋有效像素或感興趣區(qū)域拐叉,例如前景或可見(jiàn)像素[123],以避免異常值扇商。其他人凤瘦,例如Yao等人[93],將損失分為兩部分案铺,一部分是初始差異蔬芥,另一部分是細(xì)化差異。然后將總損失定義為兩個(gè)損失的加權(quán)和控汉。
7.1.2自監(jiān)督方法
自監(jiān)督方法最初用于光流估計(jì)[124]笔诵,[125],在缺乏足夠的地面真值訓(xùn)練數(shù)據(jù)的情況下姑子,已被提出作為一種可能的解決方案乎婿。這些方法主要依賴于圖像重建損失,利用投影幾何街佑,以及當(dāng)同一場(chǎng)景的多幅圖像可用時(shí)的空間和時(shí)間一致性谢翎。其基本原理是,如果估計(jì)的視差圖盡可能接近地面真值沐旨,則參考圖像與任何其他圖像之間的差異也會(huì)最小化车摄,但未使用估計(jì)的深度圖投影到參考圖像上耘斩。一般損失函數(shù)的形式如下:
式中?Iref酵熙,它是Iright鉴吹,但使用估計(jì)的視差未旋轉(zhuǎn)到Iref上,D是距離的度量。映射函數(shù)Φ可以是:
?身份[68]闷供、[70]烟央、[126]、[127]这吻。在這種情況下吊档,失去Eqn篙议。(7) 被稱為光度學(xué)或圖像重建損失唾糯。
?到特征空間的映射[68],即Φ(Iref)=f鬼贱,其中f是學(xué)習(xí)的特征映射移怯。
?圖像的梯度,即Φ(Iref)=?與光度損失相比这难,Iref對(duì)光照和采集條件的變化不那么敏感舟误。
距離D可以是L1或L2距離。一些論文[70]還使用了更復(fù)雜的度量標(biāo)準(zhǔn)姻乓,例如Iref和?Iref中patch 之間的結(jié)構(gòu)差異[128]嵌溢。
雖然基于立體的監(jiān)控方法不需要真值感3D標(biāo)簽,但它們依賴于訓(xùn)練期間校準(zhǔn)立體對(duì)的可用性蹋岩。
7.1.3弱監(jiān)督方法
如果對(duì)大量地面真深度數(shù)據(jù)進(jìn)行訓(xùn)練赖草,有監(jiān)督的視差估計(jì)方法可以獲得令人滿意的結(jié)果。然而剪个,手動(dòng)獲取真值深度數(shù)據(jù)極其困難且昂貴秧骑,并且容易產(chǎn)生噪音和不準(zhǔn)確。弱監(jiān)督方法依靠輔助信號(hào)來(lái)減少人工標(biāo)記的數(shù)量扣囊。尤其是乎折,Tonioni等人[129]將使用傳統(tǒng)立體匹配技術(shù)對(duì)深度估計(jì)網(wǎng)絡(luò)進(jìn)行微調(diào)的深度估計(jì)用作監(jiān)控信號(hào)。由于此類深度數(shù)據(jù)可能稀疏侵歇、嘈雜且容易出錯(cuò)骂澄,他們提出了一種置信度引導(dǎo)的損失,該損失會(huì)懲罰被認(rèn)為不可靠的地面真值深度值惕虑。它是使用Eqn定義的坟冲。(6) 將D(·)設(shè)置為L(zhǎng)1距離,c>0枷遂。Kuznietsov等人[130]使用稀疏真值深度進(jìn)行監(jiān)督學(xué)習(xí)樱衷,同時(shí)使用直接圖像對(duì)齊/重投影損失,在立體設(shè)置中強(qiáng)制使用深度網(wǎng)絡(luò)生成照片一致的密集深度圖酒唉。這兩種方法依賴于一種特殊的視差估計(jì)器矩桂。為了避免這種情況,Zhou等人[131]提出了一種迭代方法,從隨機(jī)初始化的網(wǎng)絡(luò)開(kāi)始侄榴。在每次迭代中雹锣,它計(jì)算從左到右圖像的匹配,以及從右到左圖像的匹配癞蚕。然后蕊爵,它選擇高置信度匹配項(xiàng),并將其作為標(biāo)記數(shù)據(jù)添加桦山,以便在后續(xù)迭代中進(jìn)行進(jìn)一步訓(xùn)練攒射。利用等式n的左右一致性計(jì)算置信度。(12).
7.2加入額外線索
有幾項(xiàng)工作結(jié)合了額外的線索和約束恒水,以提高視差估計(jì)的質(zhì)量会放。示例包括平滑度[70]、左右一致性[70]钉凌、最大深度[70]和比例不變梯度損失[121]咧最。此類線索還可以是輔助信息的形式,例如用于指導(dǎo)視差估計(jì)網(wǎng)絡(luò)的語(yǔ)義線索御雕。下面矢沿,我們將討論其中一些作品。
(1) 平滑度酸纲。
通常捣鲸,可以假設(shè)相鄰像素具有相似的視差值。這種平滑度約束可以通過(guò)最小化:
?在x處預(yù)測(cè)的視差與在x周?chē)硞€(gè)預(yù)定義鄰域Nx內(nèi)每個(gè)像素y處預(yù)測(cè)的視差之間的絕對(duì)差值:這里福青,N是像素總數(shù)摄狱。
?一階梯度的大小? 在估計(jì)的視差圖[68]中:
估計(jì)視差的二階梯度的大小[127],[132]:
由圖像的二階梯度加權(quán)的估計(jì)視差圖的二階梯度[70]:
(2) 一致性无午。
Zhong等人[70]介紹了循環(huán)一致性損失媒役,其構(gòu)造如下∠艹伲考慮左圖像Ilef T和利用右圖像上定義的視差圖將右圖像翹曲到左圖像坐標(biāo)的合成圖像ILEF T酣衷。通過(guò)使用左圖像的差異將左圖像扭曲到右圖像坐標(biāo),然后使用右圖像的差異將其扭曲回左圖像次泽,也可以生成第二個(gè)合成的左圖像?Ilef t穿仪。左圖的三個(gè)版本提供了兩個(gè)約束條件:Ilef t=~Ilef t和Ilef t=~Ilef t,它們可用于調(diào)整視差圖意荤。Godard等人[133]引入了左右一致性項(xiàng)啊片,這是循環(huán)一致性的線性近似。丟失試圖使左視圖視差圖與投影的右視圖視差圖相等玖像。定義如下:
式中紫谷,d是右側(cè)圖像的視差,但被重新投影到左側(cè)圖像的坐標(biāo)上。
(3) 最大深度啟發(fā)法笤昨∽媲可能有多種翹曲功能可以實(shí)現(xiàn)類似的翹曲損失,尤其是對(duì)于無(wú)紋理區(qū)域瞒窒。為了在這些區(qū)域提供強(qiáng)大的規(guī)則化捺僻,Zhong等人[70]使用最大深度啟發(fā)式(MDH)[134]定義為所有深度/差異的總和:
(4) 尺度不變梯度損失[121]。定義如下:
其中A={1,2,4,8,16}崇裁,x=(i匕坯,j),fi寇壳,j≡ f(i醒颖,j)妻怎,以及
這種損失會(huì)影響相鄰像素之間的相對(duì)深度誤差壳炎。這種損失刺激網(wǎng)絡(luò)比較每個(gè)像素在本地鄰域內(nèi)的深度值。它強(qiáng)調(diào)深度不連續(xù)性逼侦,刺激銳利邊緣匿辩,并增加均勻區(qū)域內(nèi)的平滑度。
(5) 結(jié)合語(yǔ)義線索榛丢。
一些論文結(jié)合了其他線索铲球,如法線[135]、分割[68]和邊緣[76]圖晰赞,以指導(dǎo)視差估計(jì)稼病。這些可以在一開(kāi)始就提供,例如掖鱼,使用[76]中的單獨(dú)方法進(jìn)行估計(jì)然走,或者與視差圖一起進(jìn)行估計(jì)。Qi等人[135]提出了一種機(jī)制戏挡,使用深度圖來(lái)優(yōu)化正態(tài)估計(jì)的質(zhì)量芍瑞,使用正態(tài)圖來(lái)優(yōu)化深度估計(jì)的質(zhì)量。這是使用雙流網(wǎng)絡(luò)完成的:深度到法線網(wǎng)絡(luò)用于使用初始深度估計(jì)進(jìn)行法線圖細(xì)化褐墅,而法線到深度網(wǎng)絡(luò)用于使用估計(jì)的法線圖進(jìn)行深度細(xì)化拆檬。
Yang等人[68]和Song等人[76]通過(guò)將語(yǔ)義圖(在[68]的情況下是分割遮罩,在[76]的情況下是邊緣特征)與3Dcost volumes 疊加妥凳,來(lái)整合語(yǔ)義竟贯。Yang等人[68]通過(guò)使用定義為重建誤差、平滑度項(xiàng)和分割誤差加權(quán)和的損失函數(shù)逝钥,聯(lián)合訓(xùn)練視差估計(jì)網(wǎng)絡(luò)和分割網(wǎng)絡(luò)屑那。Song等人[76]進(jìn)一步將邊緣線索納入邊緣感知平滑度損失中,以懲罰平坦區(qū)域的劇烈深度變化。此外齐莲,為了允許對(duì)象邊界處的深度不連續(xù)性痢站,基于從邊緣檢測(cè)子網(wǎng)絡(luò)獲得的梯度圖定義了邊緣感知平滑度損失,這在語(yǔ)義上比原始像素強(qiáng)度的變化更有意義选酗。
Wu等人[79]介紹了一種將多尺度4Dcost volumes 與使用分割子網(wǎng)絡(luò)獲得的語(yǔ)義特征相融合的方法阵难。該方法使用左右圖像的特征作為語(yǔ)義分割網(wǎng)絡(luò)的輸入,類似于PSPNet[136]芒填。然后呜叫,從分割網(wǎng)絡(luò)分類層的輸出中獲得每個(gè)圖像的語(yǔ)義特征。通過(guò)將每個(gè)一元語(yǔ)義特征與其對(duì)應(yīng)的一元語(yǔ)義特征在每個(gè)視差水平上從相反的立體圖像連接起來(lái)殿衰,獲得4D語(yǔ)義代價(jià)量朱庆。空間金字塔cost volumes 和語(yǔ)義cost volumes 都被送入三維多成本聚合模塊闷祥,該模塊使用編碼器-解碼器和三維特征融合模塊娱颊,以成對(duì)方式將它們聚合為單個(gè)三維cost volumes ,從最小的體積開(kāi)始凯砍。
總之箱硕,將語(yǔ)義特征添加到代價(jià)體中可以改進(jìn)精細(xì)細(xì)節(jié)的重建,尤其是在對(duì)象邊界附近悟衩。
7.3領(lǐng)域適應(yīng)和遷移學(xué)習(xí)
用于深度估計(jì)的深度架構(gòu)受到域轉(zhuǎn)移問(wèn)題的嚴(yán)重影響剧罩,當(dāng)對(duì)與訓(xùn)練階段使用的圖像有顯著差異的圖像執(zhí)行推理時(shí),域轉(zhuǎn)移問(wèn)題會(huì)阻礙其有效性座泳。例如惠昔,當(dāng)在室內(nèi)和室外環(huán)境之間移動(dòng)、從合成數(shù)據(jù)移動(dòng)到真實(shí)數(shù)據(jù)時(shí)(參見(jiàn)圖7)挑势,或者在不同的室外/室內(nèi)環(huán)境之間移動(dòng)镇防,以及更改相機(jī)模型/參數(shù)時(shí),可以觀察到這一點(diǎn)薛耻。因此营罢,在一個(gè)領(lǐng)域(例如,通過(guò)使用合成數(shù)據(jù))上訓(xùn)練的深度學(xué)習(xí)網(wǎng)絡(luò)在應(yīng)用于另一個(gè)領(lǐng)域(例如饼齿,真實(shí)數(shù)據(jù))時(shí)會(huì)受到影響饲漾,導(dǎo)致對(duì)象邊界模糊,以及在不適定區(qū)域(例如對(duì)象遮擋缕溉、重復(fù)模式和無(wú)紋理區(qū)域)中出現(xiàn)錯(cuò)誤考传。這些被稱為泛化故障[137]。
有人提出了幾種策略來(lái)解決這個(gè)領(lǐng)域偏見(jiàn)問(wèn)題证鸥。它們可以分為兩類:通過(guò)微調(diào)進(jìn)行的自適應(yīng)(第7.3.1節(jié))和通過(guò)數(shù)據(jù)轉(zhuǎn)換進(jìn)行的自適應(yīng)(第7.3.2節(jié))僚楞。在這兩種情況下勤晚,自適應(yīng)都可以離線或在線。
7.3.1通過(guò)微調(diào)進(jìn)行自適應(yīng)
這類方法通過(guò)首先對(duì)來(lái)自特定域的圖像(如[22]中的合成圖像)訓(xùn)練網(wǎng)絡(luò)泉褐,然后對(duì)來(lái)自目標(biāo)域的圖像進(jìn)行微調(diào)赐写,來(lái)執(zhí)行域自適應(yīng)。一個(gè)主要的困難是從目標(biāo)域?yàn)榱Ⅲw或多視圖圖像收集準(zhǔn)確的真值深度膜赃。在實(shí)際應(yīng)用中挺邀,依靠主動(dòng)傳感器(如激光雷達(dá))獲取此類有監(jiān)督的標(biāo)記數(shù)據(jù)是不可行的。因此跳座,最近的作品端铛,例如[129]、[137]疲眷、[138]依靠現(xiàn)成的立體算法以無(wú)監(jiān)督的方式獲得真值視差/深度標(biāo)簽禾蚕,以及最先進(jìn)的置信度來(lái)確定現(xiàn)成立體算法測(cè)量的正確性。后者在[129]狂丝、[138]中用于區(qū)分可靠和不可靠的視差測(cè)量换淆,選擇前者并微調(diào)預(yù)訓(xùn)練模型,例如DispNet[22]美侦,使用更小且稀疏的點(diǎn)集产舞,就像它們是地面真值標(biāo)簽一樣。
Pang等人[137]也使用了與[129]菠剩、[138]類似的方法來(lái)解決泛化問(wèn)題。然而耻煤,該方法利用了尺度多樣性具壮,即對(duì)立體對(duì)進(jìn)行上采樣,通過(guò)對(duì)在輸入的多個(gè)分辨率下獲得的預(yù)測(cè)進(jìn)行迭代優(yōu)化哈蝇,使模型能夠以亞像素精度的局部方式執(zhí)行立體匹配棺妓。
注意,用于視差估計(jì)的自監(jiān)督和弱監(jiān)督技術(shù)炮赦,例如[133]怜跑、[139]、[140]吠勘、[141]也可用于離線域自適應(yīng)性芬。特別是,如果目標(biāo)域的立體對(duì)可用剧防,則可以使用重投影損耗以無(wú)監(jiān)督的方式對(duì)這些技術(shù)進(jìn)行微調(diào)植锉,見(jiàn)第7.1.2和7.1.3節(jié)。
雖然有效峭拘,但這些離線適應(yīng)技術(shù)降低了方法的可用性俊庇,因?yàn)橛脩裘看谓佑|新領(lǐng)域時(shí)都需要訓(xùn)練模型狮暑。因此,最近幾篇論文發(fā)展了在線適應(yīng)技術(shù)辉饱。例如搬男,Tonioni等人[84]通過(guò)將自適應(yīng)轉(zhuǎn)換為一個(gè)持續(xù)學(xué)習(xí)過(guò)程來(lái)解決域轉(zhuǎn)移問(wèn)題,通過(guò)這個(gè)過(guò)程彭沼,立體網(wǎng)絡(luò)可以根據(jù)相機(jī)在實(shí)際部署過(guò)程中收集的圖像在線演化止后。這是以無(wú)監(jiān)督的方式實(shí)現(xiàn)的,方法是計(jì)算當(dāng)前幀上的錯(cuò)誤信號(hào)溜腐,通過(guò)單個(gè)反向傳播迭代更新整個(gè)網(wǎng)絡(luò)译株,并移動(dòng)到下一對(duì)輸入幀。為了保持足夠高的幀速率挺益,Tonioni等人[84]提出了一種輕量級(jí)歉糜、快速且模塊化的架構(gòu),稱為MADNet望众,它允許對(duì)整個(gè)網(wǎng)絡(luò)的子部分進(jìn)行相互獨(dú)立的訓(xùn)練匪补。這使得視差估計(jì)網(wǎng)絡(luò)能夠適應(yīng)看不見(jiàn)的環(huán)境,而無(wú)需以大約25 fps的速度進(jìn)行監(jiān)控烂翰,同時(shí)實(shí)現(xiàn)與DispNetC相當(dāng)?shù)木萚22]夯缺。類似地,Zhong等人[142]使用視頻序列從隨機(jī)初始化開(kāi)始在線訓(xùn)練深層網(wǎng)絡(luò)甘耿。他們?cè)谀P椭惺褂肔STM來(lái)利用預(yù)測(cè)期間的時(shí)間信息踊兜。
鐘等人等人〔142〕和ToNIII等人〔84〕分別考慮在線適應(yīng)與初始訓(xùn)練。另一方面佳恬,Tonioni等人[143]將適應(yīng)程序與學(xué)習(xí)目標(biāo)結(jié)合起來(lái)捏境,以獲得一組適合在線適應(yīng)的初始參數(shù),即它們可以快速適應(yīng)看不見(jiàn)的環(huán)境毁葱。這是使用[144]的模型不可知元學(xué)習(xí)框架實(shí)現(xiàn)的垫言,這是一個(gè)明確的學(xué)習(xí)適應(yīng)框架,使立體方法能夠以無(wú)監(jiān)督的方式快速倾剿、持續(xù)地適應(yīng)新的目標(biāo)領(lǐng)域筷频。
7.3.2通過(guò)數(shù)據(jù)轉(zhuǎn)換進(jìn)行調(diào)整
這類方法將一個(gè)域的數(shù)據(jù)轉(zhuǎn)換為與另一個(gè)域的數(shù)據(jù)在樣式上相似。例如前痘,Atapour Abarghoue等人[145]提出了一種兩階段的方法凛捏。第一階段使用合成數(shù)據(jù)訓(xùn)練深度估計(jì)模型。第二階段是訓(xùn)練如何將合成圖像的風(fēng)格轉(zhuǎn)換為現(xiàn)實(shí)世界的圖像际度。通過(guò)這樣做葵袭,首先將真實(shí)圖像的樣式轉(zhuǎn)換為與合成數(shù)據(jù)的樣式相匹配,然后將其輸入到基于合成數(shù)據(jù)訓(xùn)練的深度估計(jì)網(wǎng)絡(luò)中乖菱。Zheng等人[146]通過(guò)將合成圖像轉(zhuǎn)換為更逼真的圖像坡锡,并使用它們來(lái)訓(xùn)練深度估計(jì)網(wǎng)絡(luò)蓬网,實(shí)現(xiàn)了相反的效果。趙等人(147)考慮合成到真實(shí)[146 ]和現(xiàn)實(shí)合成[145 ]鹉勒,[148 ]翻譯帆锋。兩位翻譯人員以對(duì)抗性的方式接受訓(xùn)練,使用對(duì)抗性損失和循環(huán)一致性損失禽额。也就是說(shuō)锯厢,合成圖像在轉(zhuǎn)換為真實(shí)圖像并轉(zhuǎn)換回合成域時(shí),應(yīng)該與原始圖像相似脯倒。
雖然這些方法已用于單目深度估計(jì)实辑,但它們適用于(多視圖)立體匹配方法。
7.4學(xué)習(xí)網(wǎng)絡(luò)架構(gòu)
許多深入評(píng)估的研究工作都花在手動(dòng)優(yōu)化網(wǎng)絡(luò)架構(gòu)上藻丢,但如果也能從數(shù)據(jù)中學(xué)習(xí)到最佳網(wǎng)絡(luò)架構(gòu)及其參數(shù)呢剪撬?Saika等人[149]展示了如何使用和擴(kuò)展現(xiàn)有的AutoML技術(shù)[150],以有效地優(yōu)化基于立體的深度估計(jì)的大規(guī)模U-Netlike編碼器-解碼器架構(gòu)悠反。傳統(tǒng)的AutoML技術(shù)具有極端的計(jì)算需求残黑,限制了它們?cè)谛∫?guī)模分類任務(wù)中的使用。Saika等人[149]將可微架構(gòu)搜索(DART)[151]應(yīng)用于編碼器-解碼器架構(gòu)斋否。它的主要思想是擁有一個(gè)包含所有架構(gòu)選擇的大型網(wǎng)絡(luò)梨水,并通過(guò)優(yōu)化選擇該網(wǎng)絡(luò)的最佳部分。這可以簡(jiǎn)化為一個(gè)連續(xù)的優(yōu)化問(wèn)題茵臭,再加上常規(guī)的網(wǎng)絡(luò)訓(xùn)練疫诽,這將導(dǎo)致一個(gè)雙層優(yōu)化問(wèn)題。在[22]的改進(jìn)版本[75]的DispNet上進(jìn)行的實(shí)驗(yàn)表明笼恰,與[75]的基線DispNet相比踊沸,自動(dòng)優(yōu)化的DispNet(AutoDispNet)在參數(shù)數(shù)量大致相同的情況下產(chǎn)生了更好的性能。論文還表明社证,自動(dòng)優(yōu)化的好處將延續(xù)到大型堆疊網(wǎng)絡(luò)。
8討論和比較
表3和表4分別比較了本文中調(diào)查的方法在標(biāo)準(zhǔn)數(shù)據(jù)集上的性能评凝,如KITTI2015(成對(duì)立體匹配方法)和DTU追葡、SUN3D和ETH3D(多視圖立體匹配方法)。這些方法中的大多數(shù)都是在這些公開(kāi)數(shù)據(jù)集的子集上進(jìn)行訓(xùn)練的奕短。一個(gè)好的視差估計(jì)方法宜肉,一旦經(jīng)過(guò)適當(dāng)?shù)挠?xùn)練,不僅在公開(kāi)的基準(zhǔn)上翎碑,而且在任意的新圖像上谬返,都應(yīng)該獲得良好的性能。它們不應(yīng)該在每次使用領(lǐng)域發(fā)生變化時(shí)都需要重新訓(xùn)練或微調(diào)日杈。在本節(jié)中遣铝,我們將了解其中一些方法如何在新的看不見(jiàn)的圖像上執(zhí)行佑刷。我們將首先在第8.1節(jié)中描述評(píng)估協(xié)議、將使用的圖像以及評(píng)估指標(biāo)酿炸。然后瘫絮,我們將在第8.2節(jié)和第8.3節(jié)中討論這些方法的性能。
8.1評(píng)估協(xié)議
我們考慮幾個(gè)關(guān)鍵的方法填硕,并評(píng)估他們的性能在立體匹配子集的AdoLaskPE數(shù)據(jù)集(34)麦萤,并在一個(gè)內(nèi)部收集的四幅圖像集。這一選擇背后的動(dòng)機(jī)是雙重的扁眯。首先壮莹,ApolloScape數(shù)據(jù)集由在戶外自動(dòng)駕駛環(huán)境中拍攝的立體圖像組成。因此姻檀,它表現(xiàn)出與不受控制的復(fù)雜和變化的光照條件以及嚴(yán)重遮擋有關(guān)的若干挑戰(zhàn)命满。第二,數(shù)據(jù)集是新穎的施敢,現(xiàn)有的方法沒(méi)有經(jīng)過(guò)訓(xùn)練或暴露于該數(shù)據(jù)集周荐。因此,它可以用來(lái)評(píng)估這些方法如何推廣到新的場(chǎng)景中僵娃。在這個(gè)數(shù)據(jù)集中概作,通過(guò)從激光雷達(dá)中積累3D點(diǎn)云,并將3D CAD模型擬合到單獨(dú)移動(dòng)的汽車(chē)上默怨,獲得了真值差異讯榕。我們還使用了四幅尺寸分別為W=640和H=480的內(nèi)部圖像,見(jiàn)圖9匙睹,這是專門(mén)為挑戰(zhàn)這些方法而設(shè)計(jì)的愚屁。其中兩幅是真實(shí)場(chǎng)景:一幅是由停車(chē)場(chǎng)中的自行車(chē)組成的自行車(chē)場(chǎng)景,另一幅是由辦公室家具組成的室內(nèi)辦公桌場(chǎng)景痕檬。我們使用一個(gè)移動(dòng)的立體相機(jī)來(lái)捕捉多個(gè)立體對(duì)霎槐,并從運(yùn)動(dòng)構(gòu)造(SfM)來(lái)構(gòu)建場(chǎng)景的三維模型。然后梦谜,我們從真實(shí)相機(jī)的視點(diǎn)渲染深度圖丘跌。高度可靠地估計(jì)深度的區(qū)域?qū)⒈挥米髡嬷怠JO碌膬蓮垐D片是合成的唁桩,但看起來(lái)很真實(shí)闭树。它們包括具有復(fù)雜結(jié)構(gòu)的對(duì)象,例如植物等薄結(jié)構(gòu)荒澡、顏色或紋理均勻且圖案重復(fù)的大表面报辱,這給基于立體的深度估計(jì)算法帶來(lái)了一些挑戰(zhàn)。
我們測(cè)試了發(fā)表在9篇論文(2018年至2019年)中的16種基于立體匹配的方法单山,見(jiàn)下文碍现。我們使用作者提供的網(wǎng)絡(luò)權(quán)重幅疼。
(1) AnyNet[88]:它是一個(gè)四階段網(wǎng)絡(luò),以從粗到細(xì)的方式構(gòu)建3Dcost volumes 鸵赫。第一階段通過(guò)搜索小視差范圍來(lái)估計(jì)低分辨率視差圖衣屏。后續(xù)階段使用殘差學(xué)習(xí)來(lái)估計(jì)細(xì)化的視差圖。
(2) DeepPruner[83]:它將深度學(xué)習(xí)與PatchMatch[101]相結(jié)合辩棒,通過(guò)自適應(yīng)地刪減可能較大的對(duì)應(yīng)搜索空間來(lái)加速推理狼忱。已經(jīng)提出了兩種變體:DeepPruner(最佳)和DeepPruner(快速),前者將成本降低了4倍一睁,后者將成本降低了8倍钻弄。
(3) DispNet3[75],是DispNet[22]的一個(gè)改進(jìn)版本者吁,其中遮擋和視差圖是聯(lián)合估計(jì)的窘俺。
(4) GANet[85]:它將正則化塊中的大量3D卷積層替換為(1)兩個(gè)3D卷積層,(2)半全局聚合層(SGA)和(3)局部引導(dǎo)聚合層(LGA)复凳。SGA和LGA層捕獲局部和整體圖像成本相關(guān)性瘤泪。它們旨在提高具有挑戰(zhàn)性的區(qū)域(如遮擋、大的無(wú)紋理/反射區(qū)域和薄結(jié)構(gòu))的精確度育八。
(5) HighResNet[32]:為了在對(duì)高分辨率圖像進(jìn)行操作時(shí)同時(shí)優(yōu)化空間分辨率和深度分辨率对途,該方法使用從粗到精的層次結(jié)構(gòu)以增量方式搜索對(duì)應(yīng)關(guān)系。其分層設(shè)計(jì)還允許隨時(shí)按需報(bào)告差異髓棋。
(6) PSMNet[64]:它逐步規(guī)范化了低分辨率4Dcost volumes 实檀,根據(jù)特征金字塔進(jìn)行估算。
(7) iResNet[63]:初始視差和學(xué)習(xí)的特征用于計(jì)算特征恒常性映射按声,該映射衡量立體匹配的正確性膳犹。然后將初始視差圖和特征恒常性圖送入子網(wǎng)絡(luò)進(jìn)行視差細(xì)化。
(8) Unpadpt[129]:這是一種無(wú)監(jiān)督的自適應(yīng)方法签则,可以在沒(méi)有任何基本事實(shí)信息的情況下進(jìn)行微調(diào)须床。它首先使用KITTI 2012訓(xùn)練數(shù)據(jù)集對(duì)DispNet-Corr1D[22]進(jìn)行訓(xùn)練,然后將網(wǎng)絡(luò)調(diào)整為KITTI 2015和Middlebury 2014渐裂。
(9) SegStereo[68]:這是一種無(wú)監(jiān)督視差估計(jì)方法侨颈,使用分割模板來(lái)指導(dǎo)視差估計(jì)。分割圖和視差圖都是通過(guò)端到端網(wǎng)絡(luò)聯(lián)合估計(jì)的芯义。
方法(1)至(7)由真值深度圖監(jiān)督,而方法(8)和(9)是自監(jiān)督的妻柒。我們使用以下定義的總均方根誤差(RMSE)來(lái)比較它們?cè)谶\(yùn)行時(shí)的精度:
Bad-n誤差定義為估計(jì)視差偏離真值超過(guò)n個(gè)像素的像素百分比扛拨。我們使用n∈ {0.5, 1, 2, 3, 4, 5}. Bad-n誤差考慮了誤差的分布和傳播,因此可以更好地了解方法的準(zhǔn)確性举塔。除了準(zhǔn)確性绑警,我們還報(bào)告了運(yùn)行時(shí)的計(jì)算時(shí)間和內(nèi)存占用求泰。”
8.2計(jì)算時(shí)間和內(nèi)存占用
從表5中计盒,我們可以區(qū)分三種方法渴频;慢速方法,例如PSMNet[64]北启、DeepPruner(最佳)和(快速)[83]以及GANet[85]卜朗,需要1秒以上的時(shí)間來(lái)估計(jì)一個(gè)視差圖。它們?cè)谶\(yùn)行時(shí)還需要3GB到10GB(對(duì)于DispNet3[75])的內(nèi)存咕村。因此场钉,這些方法很難在移動(dòng)平臺(tái)上部署。平均速度方法懈涛,例如AnyNet[88]和iResNet[63]逛万,在大約一秒鐘內(nèi)生成視差圖。最后批钠,快速方法宇植,例如HighResNet[32],所需時(shí)間不到0.1秒埋心。一般來(lái)說(shuō)指郁,使用3Dcost volumes的方法比使用4Dcost volumes的方法更快,占用的內(nèi)存更少踩窖。然而坡氯,有兩個(gè)例外:iResNet[63]和DeepPruner[83],它們使用3Dcost volumes洋腮,但在運(yùn)行時(shí)需要大量?jī)?nèi)存箫柳。雖然iResNet處理大小為W=640、H=480的圖像需要不到一秒的時(shí)間啥供,因?yàn)樗褂?D卷積來(lái)調(diào)整成本悯恍,但DeepPruner[83]需要超過(guò)3秒的時(shí)間。我們還觀察到伙狐,HighResNet[32]使用4Dcost volumes 涮毫,但采用分層方法按需產(chǎn)生差異,在計(jì)算時(shí)間方面非常有效贷屎,因?yàn)樗恍枰?7毫秒罢防,比使用3Dcost volumes 的AnyNet[88]快近8倍。還要注意的是唉侄,AnyNet[88]可以在移動(dòng)設(shè)備上運(yùn)行咒吐,因?yàn)樗膬?nèi)存效率很高。
8.3重建精度
表5顯示了第8.1節(jié)所述每種方法的平均RMSE。我們報(bào)告了由141幅看起來(lái)或多或少像KITTI2012圖像的基線子集(以下簡(jiǎn)稱基線)和另一個(gè)由33幅具有挑戰(zhàn)性照明條件的圖像組成的子集(以下簡(jiǎn)稱挑戰(zhàn))的結(jié)果恬叹。在這里候生,我們主要關(guān)注不同方法之間的相對(duì)比較,因?yàn)橛^察到的一些高誤差可能是由于ApolloScape[34]數(shù)據(jù)集中獲取基本事實(shí)的方式绽昼,而不是方法本身唯鸭。
我們觀察到,這些方法在這兩個(gè)子集上的表現(xiàn)幾乎相同硅确。然而目溉,與KITTI2012和KITTI2015等標(biāo)準(zhǔn)數(shù)據(jù)集上報(bào)告的誤差相比,大于8像素的重建誤差非常重要疏魏。這表明停做,當(dāng)訓(xùn)練和測(cè)試之間存在顯著的領(lǐng)域差距時(shí),重建精度會(huì)受到顯著影響大莫。
我們還在圖10的Bad-n曲線上觀察到相同的趨勢(shì)蛉腌,在所有方法中,超過(guò)25%的像素的重建誤差大于5個(gè)像素只厘。Bad-n曲線顯示烙丛,前景像素的誤差較大,即對(duì)應(yīng)于汽車(chē)的像素羔味,超過(guò)55%的像素的誤差大于3像素(背景像素的誤差為35%)河咽。有趣的是,表5和圖10顯示赋元,大多數(shù)方法實(shí)現(xiàn)了類似的重建精度忘蟹。唯一的例外是iResNet[63]在Kitti2015和ROB[152]上進(jìn)行了訓(xùn)練,這兩個(gè)版本的像素?cái)?shù)分別超過(guò)90%和55%搁凸,誤差大于5個(gè)像素媚值。在所有的方法中,只有不到5%的像素的誤差小于2像素护糖。這表明褥芒,實(shí)現(xiàn)亞像素精度仍然是未來(lái)研究的一個(gè)重要挑戰(zhàn)。
請(qǐng)注意嫡良,SegStereo[68]是一種自監(jiān)督的方法锰扶,其性能與許多監(jiān)督方法相似或更好。此外寝受,Tonioni等人[129]的無(wú)監(jiān)督自適應(yīng)方法采用了在KITTI 2012上訓(xùn)練的基線DispNet-Corr1D網(wǎng)絡(luò)[22]坷牛,并將其適應(yīng)KITTI 2015和Middlebury 2014,在前景區(qū)域?qū)崿F(xiàn)了最佳性能之一很澄。
關(guān)于估計(jì)差異的視覺(jué)質(zhì)量漓帅,見(jiàn)圖11锨亏,我們觀察到大多數(shù)方法都能夠恢復(fù)樹(shù)木的整體形狀,但無(wú)法重建細(xì)節(jié)忙干,尤其是樹(shù)葉。在平坦區(qū)域和物體邊界附近浪藻,重建誤差很高捐迫。此外,如圖11-(b)所示爱葵,高反射材料和惡劣的照明條件仍然是這些方法的一大挑戰(zhàn)施戴。補(bǔ)充材料提供了關(guān)于圖9的四對(duì)立體匹配的更多結(jié)果。
9.未來(lái)的研究方向
基于立體的深度估計(jì)的深度學(xué)習(xí)方法已經(jīng)取得了很好的效果萌丈。然而赞哗,這一主題仍處于初級(jí)階段,有待進(jìn)一步發(fā)展辆雾。在本節(jié)中肪笋,我們將介紹一些當(dāng)前的問(wèn)題,并強(qiáng)調(diào)未來(lái)研究的方向度迂。
(1) 攝像機(jī)參數(shù)藤乙。
本文介紹的大多數(shù)基于立體的技術(shù)都需要經(jīng)過(guò)校正的圖像。多視圖立體技術(shù)使用平面掃描體積或反向投影圖像/特征惭墓。圖像校正和PSV都需要已知的攝像機(jī)參數(shù)坛梁,這在野外很難估計(jì)。許多論文試圖通過(guò)聯(lián)合優(yōu)化相機(jī)參數(shù)和3D場(chǎng)景的幾何結(jié)構(gòu)來(lái)解決單目深度估計(jì)和3D形狀重建的這個(gè)問(wèn)題[153]腊凶。
(2) 照明條件和復(fù)雜的材料特性划咐。惡劣的光照條件和復(fù)雜的材料特性仍然是當(dāng)前大多數(shù)方法面臨的挑戰(zhàn),例如圖11-(b)钧萍。將目標(biāo)識(shí)別褐缠、高級(jí)場(chǎng)景理解和低級(jí)特征學(xué)習(xí)相結(jié)合是解決這些問(wèn)題的一個(gè)有希望的途徑。
(3) 空間和深度分辨率划煮。目前的大多數(shù)技術(shù)不處理高分辨率的輸入圖像送丰,通常生成低空間和深度分辨率的深度圖。深度分辨率特別有限弛秋,使得這些方法無(wú)法重建薄結(jié)構(gòu)器躏,例如植被和頭發(fā),以及距離相機(jī)很遠(yuǎn)的結(jié)構(gòu)蟹略。盡管細(xì)化模塊可以提高估計(jì)深度圖的分辨率登失,但與輸入圖像的分辨率相比,增益仍然很小挖炬。這一點(diǎn)最近已通過(guò)分層技術(shù)得到解決揽浙,該技術(shù)通過(guò)限制中間結(jié)果的分辨率,允許按需報(bào)告差異[32]。在這些方法中馅巷,低分辨率深度地圖可以實(shí)時(shí)生成膛虫,因此可以在移動(dòng)平臺(tái)上使用,而高分辨率地圖需要更多的計(jì)算時(shí)間钓猬。實(shí)時(shí)生成高空間和深度分辨率的精確地圖仍然是未來(lái)研究的挑戰(zhàn)稍刀。
(4) 實(shí)時(shí)處理。大多數(shù)用于視差估計(jì)的深度學(xué)習(xí)方法使用3D和4Dcost volumes 敞曹,這些cost volumes 使用2D和3D卷積進(jìn)行處理和正則化账月。它們?cè)趦?nèi)存需求和處理時(shí)間方面都很昂貴。開(kāi)發(fā)輕量級(jí)的澳迫、隨后快速的端到端深度網(wǎng)絡(luò)仍然是未來(lái)研究的一個(gè)具有挑戰(zhàn)性的途徑局齿。
(5) 差異范圍。現(xiàn)有技術(shù)統(tǒng)一離散視差范圍橄登。這導(dǎo)致了多個(gè)問(wèn)題抓歼。特別是,盡管重建誤差在視差空間中可能很小示绊,但在深度空間中可能會(huì)導(dǎo)致米的誤差锭部,尤其是在遠(yuǎn)距離。緩解這種情況的一種方法是在日志空間中均勻地對(duì)視差和深度進(jìn)行分類面褐。此外拌禾,改變差異范圍需要對(duì)網(wǎng)絡(luò)進(jìn)行再訓(xùn)練。將深度視為一個(gè)連續(xù)體可能是未來(lái)研究的一個(gè)有希望的途徑展哭。
(6) 訓(xùn)練湃窍。
深度網(wǎng)絡(luò)嚴(yán)重依賴于使用真值標(biāo)簽標(biāo)注的訓(xùn)練圖像的可用性。這對(duì)于深度/差異重建來(lái)說(shuō)是非常昂貴且勞動(dòng)密集的匪傍。因此您市,這些方法的性能及其泛化能力可能會(huì)受到顯著影響,包括將模型過(guò)度擬合到特定領(lǐng)域的風(fēng)險(xiǎn)∫酆猓現(xiàn)有技術(shù)通過(guò)設(shè)計(jì)不需要3D標(biāo)注的損失函數(shù)茵休,或通過(guò)使用領(lǐng)域適應(yīng)和轉(zhuǎn)移學(xué)習(xí)策略來(lái)緩解這一問(wèn)題。然而手蝎,前者需要經(jīng)過(guò)校準(zhǔn)的攝像機(jī)榕莺。領(lǐng)域適應(yīng)技術(shù),尤其是無(wú)監(jiān)督的領(lǐng)域適應(yīng)技術(shù)[138]棵介,最近吸引了更多的關(guān)注钉鸯,因?yàn)橛辛诉@些技術(shù),人們可以用容易獲得的合成數(shù)據(jù)和真實(shí)世界的數(shù)據(jù)進(jìn)行訓(xùn)練邮辽。他們還以無(wú)監(jiān)督的方式在運(yùn)行時(shí)適應(yīng)不斷變化的環(huán)境唠雕,只要收集到新的圖像贸营。早期的結(jié)果非常令人鼓舞,因此預(yù)計(jì)未來(lái)會(huì)出現(xiàn)類似ImageNet但用于3D重建的大型數(shù)據(jù)集岩睁。
(7) 從數(shù)據(jù)中自動(dòng)學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)钞脂、激活功能及其參數(shù)。現(xiàn)有的研究大多集中在設(shè)計(jì)新的網(wǎng)絡(luò)結(jié)構(gòu)和新的訓(xùn)練方法來(lái)優(yōu)化其參數(shù)笙僚。直到最近芳肌,一些論文才開(kāi)始關(guān)注自動(dòng)學(xué)習(xí)最優(yōu)架構(gòu)。早期的嘗試肋层,例如[149],側(cè)重于簡(jiǎn)單的架構(gòu)翎迁。我們期望在未來(lái)看到更多關(guān)于自動(dòng)學(xué)習(xí)復(fù)雜視差估計(jì)結(jié)構(gòu)及其激活函數(shù)的研究栋猖,例如,使用神經(jīng)進(jìn)化理論[154]汪榔,[155]蒲拉,這將免除手動(dòng)網(wǎng)絡(luò)設(shè)計(jì)的需要。
10結(jié)論
本文綜述了利用深度學(xué)習(xí)技術(shù)進(jìn)行立體深度估計(jì)的最新進(jìn)展痴腌。盡管這些技術(shù)還處于起步階段雌团,但它們正在取得最先進(jìn)的成果。自2014年以來(lái)士聪,我們進(jìn)入了一個(gè)新時(shí)代锦援,數(shù)據(jù)驅(qū)動(dòng)和機(jī)器學(xué)習(xí)技術(shù)在基于圖像的深度重建中發(fā)揮著核心作用。我們已經(jīng)看到剥悟,從2014年到2019年灵寺,在主要的計(jì)算機(jī)視覺(jué)黍聂、計(jì)算機(jī)圖形學(xué)和機(jī)器學(xué)習(xí)會(huì)議和期刊上發(fā)表了150多篇關(guān)于該主題的論文跑揉。即使在本次提交的最后階段蛛淋,也有更多的新論文發(fā)表鹃答,這使得人們很難跟蹤最近的發(fā)展炕柔,更重要的是趴梢,了解它們的差異和相似之處酣藻,尤其是對(duì)于該領(lǐng)域的新來(lái)者笑窜。因此藐鹤,這項(xiàng)及時(shí)的調(diào)查可以作為讀者在這個(gè)快速發(fā)展的研究領(lǐng)域中導(dǎo)航的指南瓤檐。
最后,本次調(diào)查還未涉及幾個(gè)相關(guān)主題教藻。例如距帅,Han等人[153]最近調(diào)查了使用深度學(xué)習(xí)的基于圖像的3D對(duì)象重建,以及基于單目和視頻的深度估計(jì)括堤,鑒于在過(guò)去5到6年中發(fā)表了大量關(guān)于該主題的論文碌秸,這需要單獨(dú)的調(diào)查論文绍移。其他主題包括光度立體匹配和主動(dòng)立體匹配[156],[157]讥电,這超出了本文的范圍蹂窖。