https://arxiv.org/pdf/2006.02535.pdf
A Survey on Deep Learning Techniques for Stereo-based Depth Estimation
發(fā)表在TPAMI上
從RGB圖像估計深度是一個長期存在的不適定問題恒水,計算機視覺、圖形學和機器學習界已經(jīng)研究了幾十年饲齐。在現(xiàn)有的技術(shù)中钉凌,由于立體匹配與人類雙目系統(tǒng)的緊密聯(lián)系,立體匹配仍然是文獻中使用最廣泛的技術(shù)之一捂人。傳統(tǒng)上御雕,基于立體的深度估計是通過匹配多幅圖像的手工特征來實現(xiàn)的矢沿。盡管進行了大量的研究,但這些傳統(tǒng)技術(shù)仍然存在高紋理區(qū)域酸纲、大均勻區(qū)域和遮擋捣鲸。受其在解決各種2D和3D視覺問題方面日益成功的推動,基于立體的深度估計的深度學習吸引了社區(qū)越來越多的興趣闽坡,2014年至2019年間栽惶,該領(lǐng)域發(fā)表了150多篇論文。這一新一代方法在性能上實現(xiàn)了重大飛躍疾嗅,實現(xiàn)了自動駕駛和增強現(xiàn)實等應(yīng)用外厂。在本文中,我們將對這一不斷發(fā)展的新研究領(lǐng)域進行全面調(diào)查代承,總結(jié)最常用的管道汁蝶,并討論其優(yōu)點和局限性÷坫玻回顧到目前為止所取得的成就掖棉,我們還推測了基于深度學習的立體深度估計研究的未來。
一幅或多幅RGB圖像的深度估計是一個長期存在的不適定問題意荤,在機器人技術(shù)啊片、自動駕駛、對象識別和場景理解玖像、3D建模和動畫紫谷、增強現(xiàn)實、工業(yè)控制和醫(yī)療診斷等領(lǐng)域有著廣泛的應(yīng)用捐寥。這個問題已經(jīng)被廣泛研究了幾十年笤昨。在文獻中提出的所有技術(shù)中,由于立體匹配與人類雙目系統(tǒng)的緊密聯(lián)系握恳,立體匹配傳統(tǒng)上是最受探索的技術(shù)瞒窒。
第一代基于立體的深度估計方法通常依賴于使用精確校準的相機拍攝的多幅圖像中的匹配像素。雖然這些技術(shù)可以取得很好的效果乡洼,但它們在許多方面仍然有限崇裁。例如,在處理遮擋束昵、無特征區(qū)域或具有重復(fù)圖案的高紋理區(qū)域時拔稳,它們不適用。有趣的是锹雏,作為人類巴比,我們善于利用先驗知識解決此類不適定的反問題。例如,我們可以很容易地推斷出物體的大致尺寸轻绞、它們的相對位置采记,甚至它們與我們眼睛的大致相對距離。我們之所以能夠做到這一點政勃,是因為之前看到的所有物體和場景都使我們能夠建立先驗知識唧龄,并開發(fā)3D世界的心理模型。第二代方法試圖通過將問題描述為學習任務(wù)來利用這些先驗知識稼病。計算機視覺中深度學習技術(shù)[1]的出現(xiàn)选侨,加上大型訓(xùn)練數(shù)據(jù)集的可用性不斷增加,導(dǎo)致了第三代能夠恢復(fù)丟失維度的方法然走。盡管這些方法是最新的,但在與計算機視覺和圖形學相關(guān)的各種任務(wù)中戏挡,它們已經(jīng)顯示出令人興奮和有希望的結(jié)果芍瑞。
在這篇文章中,我們提供了一個全面和結(jié)構(gòu)化的審查褐墅,最近的進展立體圖像為基礎(chǔ)的深度估計使用深度學習技術(shù)拆檬。這些方法使用兩個或多個由空間分布的RGB攝像機拍攝的圖像1。我們收集了150多篇論文妥凳,這些論文于2014年1月至2019年12月發(fā)表在領(lǐng)先的計算機視覺竟贯、計算機圖形學和機器學習會議和期刊上。我們的目標是幫助讀者在這個新興的領(lǐng)域中導(dǎo)航逝钥,這個領(lǐng)域在過去幾年中獲得了巨大的發(fā)展勢頭屑那。本文的主要貢獻如下:;
?據(jù)我們所知艘款,這是第一篇使用深度學習技術(shù)調(diào)查基于立體的深度估計的文章持际。我們對過去六年在主要會議和期刊上發(fā)表的150多篇論文進行了全面綜述。
?我們提供了最先進的綜合分類法哗咆。我們首先描述常見的管道蜘欲,然后討論每個管道中方法的異同。
?我們對問題的所有方面進行了全面回顧和深入分析晌柬,包括訓(xùn)練數(shù)據(jù)姥份、網(wǎng)絡(luò)架構(gòu)及其對重建性能、訓(xùn)練策略和泛化能力的影響年碘。
?我們使用公開的數(shù)據(jù)集和內(nèi)部圖像澈歉,對一些關(guān)鍵方法的特性和性能進行了比較總結(jié)。選擇后者是為了測試這些方法在全新場景中的表現(xiàn)盛泡。本文的其余部分組織如下闷祥;第2節(jié)闡述了這個問題并制定了分類法。第3節(jié)概述了用于訓(xùn)練和測試基于立體的深度重建算法的各種數(shù)據(jù)集。第4節(jié)重點介紹了使用深度學習架構(gòu)來學習如何匹配圖像中的像素的作品凯砍。第5節(jié)回顧了用于立體匹配的端到端方法箱硕,而第6節(jié)討論了如何將這些方法擴展到多視圖立體情況。第7節(jié)重點介紹了訓(xùn)練程序悟衩,包括損失函數(shù)的選擇和監(jiān)督程度剧罩。第8節(jié)討論了關(guān)鍵方法的性能。最后座泳,第9節(jié)討論了未來可能的研究方向惠昔,第10節(jié)總結(jié)了本文的主要貢獻。
2范圍和分類
設(shè)I={Ik挑势,k=1镇防,…,n}是n的集合≥ 1同一3D場景的RGB圖像潮饱,使用內(nèi)部和外部參數(shù)可能已知或未知的攝像頭拍攝来氧。目標是估計一個或多個深度圖,這些深度圖可以來自與輸入[2]香拉、[3]啦扬、[4]、[5]相同的視點凫碌,也可以來自新的任意視點[6]扑毡、[7]、[8]盛险、[9]瞄摊、[10]。本文主要研究基于立體的深度估計的深度學習方法枉层,即在立體匹配的情況下n=2泉褐,在多視圖立體(MVS)的情況下n>2。單目和基于視頻的深度估計方法超出了本文的范圍鸟蜡,需要單獨調(diào)查膜赃。
基于學習的深度重建可以總結(jié)為學習一個預(yù)測器fθ的過程,該預(yù)測器fθ可以從一組圖像I中推斷出一個盡可能接近未知深度圖D的深度圖D?揉忘。換句話說跳座,我們尋求找到一個函數(shù)fθ,使得L(I)=D(fθ(I)泣矛,D)最小化疲眷。這里,θ是一組參數(shù)您朽,d(·狂丝,·)是真實深度圖d和重建深度圖fθ(I)之間距離的特定度量换淆。重建目標L也稱為損失函數(shù)。
我們可以區(qū)分兩大類方法几颜。第一節(jié)(第4節(jié))中的方法模仿傳統(tǒng)的立體匹配技術(shù)[11]倍试,通過明確學習如何匹配或?qū)?yīng)輸入圖像中的像素。然后蛋哭,可以將這種對應(yīng)轉(zhuǎn)換為光流或視差圖县习,然后將其轉(zhuǎn)換為參考圖像中每個像素處的深度。預(yù)測器f由三個模塊組成:特征提取模塊谆趾、特征匹配和成本聚合模塊以及視差/深度估計模塊躁愿。每個模塊都獨立于其他模塊進行訓(xùn)練。
第二類方法(第5節(jié))使用可端到端訓(xùn)練的管道解決立體匹配問題沪蓬。已經(jīng)提出了兩類主要的方法彤钟。早期的方法將深度估計表述為一個回歸問題。換句話說怜跑,深度圖直接從輸入中回歸样勃,而無需在視圖中明確匹配特征。雖然這些方法在運行時簡單且快速性芬,但它們需要大量的訓(xùn)練數(shù)據(jù),這是很難獲得的剧防。第二類中的方法模仿傳統(tǒng)的立體匹配管道植锉,將問題分解為由可微塊組成的階段,從而允許端到端訓(xùn)練峭拘。雖然大量文獻集中在兩兩立體方法上俊庇,但有幾篇論文也討論了多視角立體的情況,這些將在第6節(jié)中進行綜述鸡挠。
在所有方法中辉饱,可以使用細化模塊[2]、[3]拣展、[12]彭沼、[13]和/或漸進重建策略進一步細化估計的深度圖,其中每次新圖像可用時都會細化重建备埃。
最后姓惑,基于深度學習的立體方法的性能不僅取決于網(wǎng)絡(luò)結(jié)構(gòu),還取決于它們所訓(xùn)練的數(shù)據(jù)集(第3節(jié))和用于優(yōu)化其參數(shù)的訓(xùn)練程序(第7節(jié))按脚。后者包括損失函數(shù)和監(jiān)督模式的選擇于毙,可以使用三維標注、弱監(jiān)督或自監(jiān)督進行完全監(jiān)督辅搬。我們將在后續(xù)章節(jié)中討論所有這些方面唯沮。
3個數(shù)據(jù)集
表1總結(jié)了一些用于訓(xùn)練和測試基于深度學習的深度估計算法的數(shù)據(jù)集。下面,我們將根據(jù)這些數(shù)據(jù)集的大小介蛉、空間和深度分辨率萌庆、它們提供的深度標注類型,以及許多基于深度學習的算法所面臨的領(lǐng)域差距(或移位)問題來討論這些數(shù)據(jù)集甘耿。
[if !supportLists](1)?[endif]數(shù)據(jù)集大小踊兜。
2016年之前出現(xiàn)的第一批數(shù)據(jù)集規(guī)模較小,因為難以創(chuàng)建真值3D標注佳恬。一個例子是兩個KITTI數(shù)據(jù)集[15]捏境,[21],其中包含200個立體匹配對及其相應(yīng)的視差真值毁葱。它們已被廣泛用于訓(xùn)練和測試基于patch 的CNN垫言,用于立體匹配算法(見第4節(jié)),該算法具有較小的感受野倾剿。因此筷频,單個立體匹配對可以產(chǎn)生數(shù)千個訓(xùn)練樣本识颊。然而剖笙,在端到端架構(gòu)(第5節(jié)和第6節(jié))中酪穿,立體匹配對只對應(yīng)于一個樣本刊咳。端到端網(wǎng)絡(luò)有大量的參數(shù)检号,因此需要大量的數(shù)據(jù)集來進行有效的訓(xùn)練蚌堵。雖然收集大型圖像數(shù)據(jù)集非常容易芍秆,例如都伪,通過使用NYU2[17]最欠、ETH3D[25]示罗、SUN3D[19]和ETH3D[25]中的視頻序列,用3D標簽對其進行標注非常耗時芝硬。最近的工作蚜点,例如AppoloScape[34]和A2D2[35],使用激光雷達獲取密集的3D標注拌阴。
文獻中廣泛使用了數(shù)據(jù)增強策略绍绘,例如對可用的圖像應(yīng)用幾何變換和光度變換。然而皮官,還有一些其他策略是特定于深度估計的脯倒。這包括從各種(隨機)視點、姿勢和光照條件捺氢,從3D CAD模型藻丢、2D和2.5D視圖中人工合成和渲染。還可以在真實圖像的頂部覆蓋渲染的3D模型摄乒。該方法已用于生成[22]的FlyingThings3D悠反、Monkaa和Driving數(shù)據(jù)集残黑,以及用于對全方位圖像的MVS進行基準測試的OmniThings和OmniHouse數(shù)據(jù)集[30],[31]斋否。Huang等人[27]遵循了類似的想法梨水,但使用視頻游戲中的場景生成MVS Synth,這是一個寫實的合成數(shù)據(jù)集茵臭,為基于學習的多視點立體算法而準備疫诽。
主要的挑戰(zhàn)是,生成包含各種真實世界外觀和運動的大量合成數(shù)據(jù)并非易事[36]旦委。因此奇徒,許多作品通過在沒有3D監(jiān)控的情況下訓(xùn)練深層網(wǎng)絡(luò),克服了對真值深度信息的需求缨硝,見第7.1節(jié)摩钙。其他人使用傳統(tǒng)的深度估計和運動結(jié)構(gòu)(SfM)技術(shù)生成3D標注。例如查辩,Li等人[28]使用現(xiàn)代結(jié)構(gòu)運動和多視圖立體(MVS)方法胖笛,結(jié)合多視圖互聯(lián)網(wǎng)照片集,創(chuàng)建了大規(guī)模超深度數(shù)據(jù)集宜岛,通過更大的訓(xùn)練數(shù)據(jù)集大小提高了深度估計精度长踊。該數(shù)據(jù)集還自動增加了使用語義分割生成的順序深度關(guān)系。
(2) 空間和深度分辨率萍倡。
視差/深度信息可以是與輸入圖像具有相同或更低分辨率的圖形式之斯,也可以是參考圖像中某些位置的稀疏深度值形式。大多數(shù)現(xiàn)有數(shù)據(jù)集的空間分辨率較低遣铝。然而,近年來莉擒,人們越來越關(guān)注高分辨率圖像的立體匹配酿炸。高分辨率數(shù)據(jù)集的一個例子是Yang等人[32]的HR-VS和HRRS,其中每個分辨率為1918×2424的RGB對都用相同分辨率的深度圖進行標注涨冀。然而填硕,數(shù)據(jù)集僅包含800對立體圖像,這對于端到端訓(xùn)練來說相對較小鹿鳖。其他數(shù)據(jù)集扁眯,如ApolloScape[34]和A2D2[35]包含3130×960量級的高分辨率圖像,以及超過100個小時的立體駕駛視頻(以ApolloScape為例)翅帜,專門設(shè)計用于測試自動駕駛算法姻檀。
(3) 歐幾里得深度vs.序數(shù)深度。
有些論文(例如MegaDepth[28])沒有用精確的深度值(即歐幾里德深度值)手動標注圖像涝滴,而是提供順序標注绣版,即像素x1與像素x2更近胶台、更遠或處于相同深度。序數(shù)標注比歐幾里德標注更簡單杂抽,實現(xiàn)速度更快诈唬。事實上,由于序數(shù)深度對深度估計的不精確性不太敏感缩麸,因此使用傳統(tǒng)的立體匹配算法可以準確地獲得深度
(4) 域名缺口铸磅。
雖然人工擴充訓(xùn)練數(shù)據(jù)集可以豐富現(xiàn)有的訓(xùn)練數(shù)據(jù)集,但真實數(shù)據(jù)和合成數(shù)據(jù)之間的條件差異導(dǎo)致的領(lǐng)域轉(zhuǎn)移可能會導(dǎo)致在應(yīng)用于真實環(huán)境時的精確度較低杭朱。在第7.3節(jié)中阅仔,我們將討論文獻中如何解決這個領(lǐng)域轉(zhuǎn)移問題。
4立體匹配深度
基于立體的深度重建方法獲取n=2個RGB圖像痕檬,并生成一個視差圖D霎槐,該圖使形式的能量函數(shù)最小化:
這里,x和y是圖像像素梦谜,Nx是x鄰域內(nèi)的一組像素丘跌。Eqn的第一項。(1) 是匹配成本唁桩。當使用校正立體對時闭树,C(x,dx)測量將左圖像的像素x=(i荒澡,j)與像素y=(i报辱,j)匹配的成本? 右圖像的dx)。在這種情況下单山,dx=D(x)∈ [dmin碍现,dmax]是像素x處的視差。然后可以通過三角測量推斷深度米奸。當視差范圍被劃分為nd視差級別時昼接,C變成大小為W×H×nd的3D成本體積。在更一般的多視圖立體匹配情況下悴晰,即n≥ 2慢睡,成本C(x,dx)測量深度dx的參考圖像上x的逆似然铡溪。Eqn的第二項漂辐。(1) 是一個正則化術(shù)語,用于施加約束棕硫,例如平滑度和左右一致性髓涯。
傳統(tǒng)上,這個問題是通過使用四個構(gòu)建塊的流水線來解決的[11]饲帅,見圖1:(1)特征提取复凳,(2)跨圖像的特征匹配瘤泪,(3)視差計算,(4)視差細化和后處理育八。前兩個區(qū)塊構(gòu)成cost volumes C对途。第三個區(qū)塊將cost volumes 正則化,然后通過最小化等式N進行查找髓棋。(1) 实檀,這是對視差圖的初步估計。最后一個塊對初始視差圖進行細化和后處理按声。
本節(jié)重點介紹如何使用基于深度學習的方法實現(xiàn)這些單獨的模塊膳犹。表2總結(jié)了最先進的方法。
4.1學習特征提取和匹配
立體匹配的早期深度學習技術(shù)取代了手工制作的功能(圖A)具有習得的特征[37]签则、[38]须床、[39]、[42]渐裂。他們使用兩個patch 豺旬,一個以左圖上的像素x=(i,j)為中心柒凉,另一個以像素y=(i族阅,j)為中心? d) 在右圖上(帶d)∈ {0,…膝捞,nd})坦刀,使用CNN計算它們相應(yīng)的特征向量,然后對它們進行匹配(圖蔬咬?的塊B)鲤遥,使用標準相似性度量,如L1林艘、L2和相關(guān)度量渴频,或使用頂級網(wǎng)絡(luò)學習的度量,生成相似性得分C(x北启,d)。這兩個組成部分可以單獨或聯(lián)合進行訓(xùn)練拔第。
4.1.1基本網(wǎng)絡(luò)架構(gòu)
[if !supportLists][37]咕村、?[endif][38]、[39]蚊俺、[42]中介紹的基本網(wǎng)絡(luò)架構(gòu)如圖2-(a)所示懈涛,由兩個CNN編碼分支組成,它們充當描述符計算模塊泳猬。第一個分支在左圖的像素x=(i批钠,j)周圍獲取一個patch 宇植,并輸出一個表征該patch 的特征向量。第二個分支在像素y=(i埋心,j)周圍取一個patch ? d) 指郁,d在哪里∈ [dmin,dmax]是一個候選人差異拷呆。Zbontar和LeCun[39]以及后來的Zbontar等人[42]使用由四個卷積層組成的編碼器闲坎,見圖2-(a)。除最后一層外茬斧,每一層后面都有一個ReLU單元腰懂。Zagoruyko和Komodakis[37]以及Han等人[38]使用了類似的架構(gòu),但增加了:
?除最后一層外项秉,每層之后的最大池和子采樣绣溜,見圖2-(b)。因此娄蔼,與[39]怖喻、[42]相比,該網(wǎng)絡(luò)能夠解釋更大的patch 大小和更大的視點變化贷屎。
?每個特征提取分支末端的空間金字塔池(SPP)模塊[37]罢防,以便網(wǎng)絡(luò)可以處理任意大小的patch ,同時生成固定大小的特征唉侄,見圖2-(c)咒吐。它的作用是通過空間池將最后一個卷積層的特征聚合到一個固定大小的特征網(wǎng)格中。該模塊的設(shè)計方式是属划,池區(qū)域的大小隨輸入的大小而變化恬叹,以確保輸出特征網(wǎng)格的大小與輸入patch 或圖像的大小無關(guān)。因此同眯,該網(wǎng)絡(luò)能夠處理任意大小的patch /圖像绽昼,并在不改變其結(jié)構(gòu)或重新訓(xùn)練的情況下計算相同維度的特征向量。
然后將學習到的特征反饋給top模塊须蜗,該模塊返回相似性分數(shù)硅确。它可以實現(xiàn)為標準的相似性度量,例如L2距離明肮、余弦距離和(標準化的)相關(guān)距離(或內(nèi)積)菱农,如[39],[42]中的MC CNN fast(MC CNN fst)架構(gòu)柿估。L2距離上的相關(guān)的主要優(yōu)點是循未,它可以使用一層2D[51]或1D[22]卷積運算來實現(xiàn),稱為相關(guān)層秫舌。相關(guān)層不需要訓(xùn)練的妖,因為濾波器實際上是由網(wǎng)絡(luò)的第二個分支計算的特征绣檬。因此,相關(guān)層在文獻[22]嫂粟、[39]娇未、[41]、[42]赋元、[44]中被廣泛使用忘蟹。
最近的工作沒有使用手工制作的相似性度量,而是使用由完全連接(FC)層[37]搁凸、[38]媚值、[42]、[46]护糖、[49]組成的決策網(wǎng)絡(luò)褥芒,可以實現(xiàn)為1×1卷積、完全卷積層[47]或卷積層嫡良,然后是完全連接層锰扶。決策網(wǎng)絡(luò)與特征提取模塊聯(lián)合訓(xùn)練,以評估兩個圖像塊之間的相似性寝受。Han等人[38]使用由三個完全連接的層和一個softmax組成的頂層網(wǎng)絡(luò)坷牛。Zagoruyko和Komodakis[37]使用兩個線性全連接層(每個層有512個隱藏單元),由一個ReLU激活層隔開很澄,而Zbontar等人[42]的MC CNN acrt網(wǎng)絡(luò)使用最多五個全連接層京闰。在所有情況下,由特征編碼模塊的兩個分支計算的特征首先被連接甩苛,然后被饋送到頂層網(wǎng)絡(luò)蹂楣。另一方面,Hartmann等人[47]在將多個patch 的特征輸入決策網(wǎng)絡(luò)之前讯蒲,使用均值池對它們進行聚合痊土。通過合并而不是連接進行聚合的主要優(yōu)點是,前者可以處理任意數(shù)量的patch 墨林,而無需改變網(wǎng)絡(luò)的架構(gòu)或?qū)ζ溥M行重新訓(xùn)練赁酝。因此,它適用于計算多路徑相似性旭等。
使用決策網(wǎng)絡(luò)而不是手工制作的相似性度量赞哗,可以從數(shù)據(jù)中學習適當?shù)南嗨菩远攘浚皇且婚_始就強加一個辆雾。它比使用相關(guān)層更精確,但速度要慢得多月劈。
4.1.2網(wǎng)絡(luò)架構(gòu)變體
自引入以來度迂,基線架構(gòu)以多種方式進行了擴展藤乙,以便:(1)使用殘差網(wǎng)絡(luò)(ResNet)[46]改進訓(xùn)練;(2)在不損失分辨率或計算效率的情況下擴大網(wǎng)絡(luò)的接收范圍[48]惭墓,[49]坛梁,[52],(3)處理多尺度特征[37]腊凶,[40]划咐,(4)減少向前傳球的次數(shù)[37],[44]钧萍,(5)通過學習相似性而不明確學習特征來簡化訓(xùn)練過程[37]褐缠。
4.1.2.1 ConvNet與ResNet的對比:
Zbontar等人[39]、[42]和Han等人[38]在特征提取塊中使用標準卷積層风瘦,Shaked和Wolf[46]添加了具有多級加權(quán)殘差連接的殘差塊队魏,以便于訓(xùn)練非常深的網(wǎng)絡(luò)。其特殊性在于万搔,網(wǎng)絡(luò)自行學習如何調(diào)整添加的跳過連接的貢獻胡桨。經(jīng)證明,這種架構(gòu)優(yōu)于Zbontar等人[39]的基本網(wǎng)絡(luò)瞬雹。
4.1.2.2擴大網(wǎng)絡(luò)的接收范圍:
學習特征的規(guī)模由(1)輸入塊的大小昧谊,(2)網(wǎng)絡(luò)的感受野,以及(3)每個層中使用的卷積濾波器和池操作的內(nèi)核大小來定義酗捌。雖然增加內(nèi)核大小可以捕獲圖像像素之間更多的全局交互呢诬,但這會導(dǎo)致較高的計算成本。此外意敛,在[39]馅巷、[42]中使用的傳統(tǒng)合并會降低分辨率,并可能導(dǎo)致精細細節(jié)的丟失草姻,這不適用于密集的對應(yīng)關(guān)系估計钓猬。
為了在不損失分辨率或增加計算時間的情況下擴大感受野,一些技術(shù)撩独,例如[52]敞曹,使用擴展卷積,即大卷積濾波器综膀,但帶有孔澳迫,因此計算效率高。其他技術(shù)剧劝,例如[48]橄登、[49],使用放置在網(wǎng)絡(luò)中不同位置的空間金字塔池(SPP)模塊,見圖2-(c-e)拢锹。例如谣妻,Park等人[48]引入FW-CNN進行立體匹配,在決策網(wǎng)絡(luò)的末端附加了一個SPP模塊卒稳,見圖2-(d)蹋半。因此,感受野可以擴大充坑。然而减江,對于參考圖像中的每個像素,需要計算完全連接的層和池操作的nd次捻爷,其中nd是視差水平的數(shù)量辈灼。為了避免這種情況,Ye等人[49]將SPP模塊放在每個特征計算分支的末尾役衡,見圖茵休。2-(c)和(e)。這樣手蝎,每個patch 只計算一次榕莺。此外,Ye等人[49]將多個具有不同窗口大小的一步池應(yīng)用于不同的層棵介,然后連接它們的輸出以生成特征圖钉鸯,見圖2-(e)。
4.1.2.3學習多尺度特征:
到目前為止所描述的方法可以通過使用多流網(wǎng)絡(luò)(每個斑塊大小一個流)[37]邮辽,[40]來擴展唠雕,以在多個尺度上學習特征,見圖3吨述。Zagoruyko和Komodakis[37]提出了一種雙流網(wǎng)絡(luò)岩睁,它本質(zhì)上是由兩個暹羅網(wǎng)絡(luò)組成的網(wǎng)絡(luò),在輸出端由一個頂部網(wǎng)絡(luò)組合而成揣云,見圖3-(a)捕儒。第一個暹羅網(wǎng)絡(luò)稱為中央高分辨率流,接收以感興趣像素為中心的兩個32×32patch 邓夕。第二個網(wǎng)絡(luò)稱為環(huán)繞低分辨率流刘莹,接收兩個64×64patch 作為輸入,但向下采樣到32×32焚刚。然后將兩個流的輸出連接起來点弯,并饋送到頂級決策網(wǎng)絡(luò),該網(wǎng)絡(luò)返回匹配分數(shù)矿咕。Chen等人[40]使用了一種類似的方法抢肛,但在將兩個流計算出的特征輸入頂級決策網(wǎng)絡(luò)之前狼钮,它不是將它們聚合在一起,而是在每個流上附加一個頂級網(wǎng)絡(luò)捡絮,以產(chǎn)生匹配分數(shù)燃领。然后通過投票將這兩個分數(shù)相加,見圖3-(b)锦援。
多流架構(gòu)的主要優(yōu)點是,它可以在一次向前傳遞中計算多個尺度的特征剥悟。然而灵寺,它要求每個刻度有一條流,如果需要兩個以上的刻度区岗,這是不實際的略板。
4.1.2.4減少向前傳球的次數(shù):
使用到目前為止描述的方法,從一對立體圖像推斷原始cost volumes 是使用類似于移動窗口的方法來執(zhí)行的慈缔,該方法將需要多個前向過程叮称,每像素nd個前向過程,其中nd是視差水平的數(shù)量藐鹤。然而瓤檐,由于相關(guān)性是高度可并行的,向前傳遞的次數(shù)可以顯著減少娱节。例如挠蛉,Luo等人[44]通過使用連體網(wǎng)絡(luò)將前向傳遞的次數(shù)減少到每像素一次,該網(wǎng)絡(luò)的第一個分支在像素周圍取一個patch 肄满,而第二個分支則取一個更大的patch 谴古,擴展到所有可能的差異。左分支的輸出是單個64D表示稠歉,右分支的輸出是nd×64掰担。然后,相關(guān)層計算長度為nd的向量怒炸,其中?th元素是將左側(cè)圖像上的像素x與像素x匹配的成本? 在校正后的右圖上顯示d带饱。
Zagoruyko和Komodakis[37]表明,兩個特征提取子網(wǎng)絡(luò)的輸出只需要每像素計算一次横媚,而不需要為考慮中的每個視差重新計算纠炮。這可以通過傳播全分辨率圖像而不是小patch ,在單個正向過程中對整個圖像完成灯蝴。此外恢口,通過將完全連接的層替換為1×1內(nèi)核的卷積層,可以在單個正向過程中計算由精確架構(gòu)(即MC CNNAccr)中的完全連接層組成的頂層網(wǎng)絡(luò)的輸出穷躁。然而耕肩,它仍然需要為考慮中的每個差距向前傳球一次因妇。
4.1.2.5無特征學習的相似性學習:
特征提取和相似度計算網(wǎng)絡(luò)的聯(lián)合訓(xùn)練統(tǒng)一了特征學習和度量學習步驟。Zagoruyko和Komodakis[37]提出了另一種沒有直接功能概念的架構(gòu)猿诸,見圖2-(f)婚被。在這種架構(gòu)中,左梳虽、右patch 被打包在一起址芯,并共同饋送到一個雙通道網(wǎng)絡(luò)中呢袱,該網(wǎng)絡(luò)由卷積層和ReLU層以及一組完全連接的層組成杈曲。該網(wǎng)絡(luò)不計算特征,而是直接輸出輸入patch 對之間的相似性畦徘。Zagoruyko和Komodakis[37]表明禀挫,這種結(jié)構(gòu)很容易訓(xùn)練旬陡。然而,由于整個網(wǎng)絡(luò)需要每像素運行nd次语婴,因此在運行時成本很高描孟。
4.1.3訓(xùn)練程序
本節(jié)描述的網(wǎng)絡(luò)由特征提取塊和特征匹配塊組成。由于目標是學習如何匹配patch 砰左,這兩個模塊將以有監(jiān)督的方式(第4.1.3.1節(jié))或弱監(jiān)督的方式(第4.1.3.2節(jié))聯(lián)合訓(xùn)練匿醒。
4.1.3.1監(jiān)督訓(xùn)練:
現(xiàn)有的監(jiān)督訓(xùn)練方法使用由正面和負面示例組成的訓(xùn)練集。每個正(分別為負)示例是一對菜职,由另一幅圖像中的參考patch 及其匹配patch (分別為非匹配patch )組成青抛。訓(xùn)練要么一次舉一個正面或負面的例子,并調(diào)整相似性[37]酬核、[38]蜜另、[40]、[41]嫡意,要么在每一步都舉一個正面和負面的例子举瑰,并最大化相似性之間的差異,因此蔬螟,旨在使正對的兩個patch 比負對的兩個patch 更相似[39]此迅、[43]、[45]旧巾。后一種模式被稱為三重對比學習耸序。
Zbontar等人[39],[42]使用KITTI2012[15]或Middlebury[20]數(shù)據(jù)集的基本真相差異鲁猩。對于每個已知的視差坎怪,該方法提取一個負對和一個正對作為訓(xùn)練示例。因此廓握,該方法能夠從KITTI2012[15]中提取2500多萬個訓(xùn)練樣本搅窿,從Middlebury數(shù)據(jù)集[20]中提取3800多萬個訓(xùn)練樣本嘁酿。Chen等人[40]、Zagoruyku和Komodakis[37]以及Han等人[38]也使用了這種方法男应。通過使用數(shù)據(jù)增強技術(shù)闹司,可以進一步增加訓(xùn)練數(shù)據(jù)量,例如翻轉(zhuǎn)patch 并在不同方向上旋轉(zhuǎn)它們沐飘。
雖然有監(jiān)督的學習工作很好游桩,神經(jīng)網(wǎng)絡(luò)模型的復(fù)雜性需要非常大的標記訓(xùn)練集,這是硬的或昂貴的收集實際應(yīng)用(例如耐朴,考慮Mars景觀的立體重建)众弓。即使有如此大的數(shù)據(jù)集,真值通常也會從深度傳感器中產(chǎn)生隔箍,并且通常包含降低監(jiān)督學習有效性的噪聲[53]。這可以通過使用隨機擾動[39]或合成數(shù)據(jù)[22]脚乡、[54]增加訓(xùn)練集來緩解蜒滩。然而,合成過程是手工制作的奶稠,沒有考慮到特定于立體匹配系統(tǒng)和目標場景的規(guī)律性俯艰。
損失函數(shù)。
訓(xùn)練有監(jiān)督的立體匹配網(wǎng)絡(luò)以最小化匹配損失锌订,匹配損失是測量每個訓(xùn)練樣本的真值和預(yù)測匹配分數(shù)之間差異的函數(shù)竹握。可以使用(1)L1距離[40]辆飘、[42]啦辐、[46]、(2)鉸鏈損失[42]蜈项、[46]或(3)交叉熵損失[44]來定義芹关。
4.1.3.2弱監(jiān)督學習:
弱監(jiān)督技術(shù)利用一個或多個立體約束來減少手動標記的數(shù)量。Tulyakov等人〔50〕考慮多實例學習(MIL)結(jié)合立體匹配約束和關(guān)于場景的粗略信息來訓(xùn)練與地面實況不可用的數(shù)據(jù)集的立體匹配網(wǎng)絡(luò)紧卒。與監(jiān)督技術(shù)不同侥衬,監(jiān)督技術(shù)需要成對的匹配和非匹配patch ,訓(xùn)練集由N個三元組組成跑芳。每個三元組包括:(1)在參考圖像的水平線上提取的W個參考patch 轴总,(2)從右側(cè)圖像的相應(yīng)水平線上提取的W個正patch ,以及(3)從右側(cè)圖像的另一水平線上提取的W個負patch 博个,即與參考patch 不匹配的patch 怀樟。因此,訓(xùn)練集可以從立體對中自動構(gòu)建坡倔,而無需手動標記漂佩。
然后利用五個約束對該方法進行訓(xùn)練:極線約束脖含、視差范圍約束、唯一性約束投蝉、連續(xù)性(平滑度)約束和順序約束养葵。然后,他們定義了使用這些約束的不同子集的三種損失瘩缆,即:
?多實例學習(MIL)損失关拒,使用極線和視差范圍約束。從這兩個約束條件中庸娱,我們知道每個非遮擋參考斑塊在已知的索引間隔內(nèi)都有一個匹配的正斑塊着绊,但沒有一個匹配的負斑塊。因此熟尉,對于每個參考patch 归露,最佳參考正匹配的相似性應(yīng)大于最佳參考負匹配的相似性。
?Construction 損失斤儿,增加了MIL方法的唯一性約束剧包。它告訴我們匹配的陽性斑塊是唯一的。因此往果,對于每個patch 疆液,最佳匹配的相似性應(yīng)該大于次優(yōu)匹配的相似性。
?Construction DP使用所有約束陕贮,但使用動態(tài)規(guī)劃找到最佳匹配堕油。
該方法已被用于訓(xùn)練一個以兩個patch 為輸入并預(yù)測相似性度量的深層暹羅神經(jīng)網(wǎng)絡(luò)。標準數(shù)據(jù)集的基準測試表明肮之,性能與MC CNN fst[39]上公布的結(jié)果一樣好或更好掉缺,后者使用相同的網(wǎng)絡(luò)架構(gòu),但使用完全標記的數(shù)據(jù)進行訓(xùn)練戈擒。
4.2正則化和視差估計
一旦估計了原始cost volumes 攀圈,就可以通過去掉等式n的正則化項來估計差異。(1) 峦甩,或相當于圖1的塊C赘来,并采用argmin、softargmin或亞像素圖近似值(圖1的塊D)凯傲。然而犬辰,根據(jù)圖像特征計算的原始cost volumes 可能會受到噪聲污染,例如冰单,由于非朗伯曲面幌缝、對象遮擋或重復(fù)模式的存在。因此诫欠,估計的深度圖可能會有噪聲涵卵。因此浴栽,一些方法通過使用傳統(tǒng)的基于MRF的立體框架進行成本-體積正則化來克服這個問題[39],[40]轿偎,[44]典鸡。在這些方法中,初始cost volumes C被輸入到全局[11]或半全局[55]匹配器以計算視差圖坏晦。半全局匹配在精度和計算要求之間提供了良好的折衷萝玷。在這種方法中,方程n的光滑項昆婿。(1) 定義如下:
其中dxy=dx?dy球碉、α1和α2是選擇的正權(quán)重,因此α2>α1仓蛆,δ是Kronecker delta函數(shù)睁冬,當括號中的條件滿足時,它給出1看疙,否則為0痴突。為了解決這個優(yōu)化問題,SGM能量被分解成多個能量E狼荞,每個能量沿著路徑s定義。能量被單獨最小化帮碰,然后聚合相味。x處的差異是使用贏家通吃策略計算的,該策略包括所有方向的總成本:
該方法需要設(shè)置方程n的兩個參數(shù)α1和α2殉挽。(2). Seki等人[56]沒有手動設(shè)置它們丰涉,而是提出了SGM網(wǎng)絡(luò),這是一種經(jīng)過訓(xùn)練的神經(jīng)網(wǎng)絡(luò)斯碌,可以在每個圖像像素處提供這些參數(shù)一死。與[39]中的手動調(diào)整方法相比,它們獲得了更好的懲罰傻唾。
SGM方法使用聚合方案組合多個一維掃描線優(yōu)化的成本投慈,存在兩個主要問題:(1)作為該算法核心的掃描線優(yōu)化方法導(dǎo)致的條紋偽影可能導(dǎo)致不準確的結(jié)果,(2)高分辨率圖像或資源受限的設(shè)備可能會導(dǎo)致高內(nèi)存占用冠骄。因此伪煤,Schonberger等人[57]將融合步驟重新定義為在圖像中每個像素的所有掃描線優(yōu)化方案中選擇最佳方案的任務(wù)。他們使用每像素隨機森林分類器來解決這個問題凛辣。
Poggi等人[58]學習加權(quán)聚合抱既,其中每個1D掃描線優(yōu)化的權(quán)重是使用使用傳統(tǒng)技術(shù)[59]或深度神經(jīng)網(wǎng)絡(luò)計算的置信圖定義的,見第5.5節(jié)扁誓。
5立體匹配的端到端深度
最近的工作使用端到端訓(xùn)練的管道來解決立體匹配問題防泵。已經(jīng)提出了兩類主要的方法蚀之。早期的方法,例如FlowNetSimple[51]和DispNetS[22]捷泞,使用單個編碼器-解碼器足删,將左右圖像堆疊成一個6D體積,并回歸視差圖肚邢。這些方法不需要顯式的特征匹配模塊壹堰,運行時速度很快。然而骡湖,它們需要大量的訓(xùn)練數(shù)據(jù)贱纠,這是很難獲得的。第二類中的方法模擬傳統(tǒng)的立體匹配管道响蕴,將問題分為幾個階段谆焊,每個階段由可微塊組成,從而允許端到端訓(xùn)練浦夷。下面辖试,我們將詳細回顧這些技術(shù)。圖4提供了最先進的分類法劈狐,而表3比較了基于這種分類法的28種關(guān)鍵方法罐孝。
5.1特征學習
特征學習網(wǎng)絡(luò)遵循與圖中描述的結(jié)構(gòu)相同的結(jié)構(gòu)。2和3肥缔。但是莲兢,不是處理單個patch ,而是在一個正向過程中處理整個圖像续膳,生成與輸入圖像相同或更低分辨率的特征圖改艇。已使用兩種策略在圖像中啟用匹配功能:
(1) 由n個分支組成的多分支網(wǎng)絡(luò),其中n是輸入圖像的數(shù)量坟岔。每個分支生成一個特征映射谒兄,描述其輸入圖像的特征[22]、[60]社付、[61]承疲、[62]、[63]鸥咖、[64]纪隙、[65]。這些技術(shù)假設(shè)輸入圖像已被校正扛或,因此對相應(yīng)的搜索僅限于沿水平掃描線進行绵咱。
(2) 由nd分支組成的多分支網(wǎng)絡(luò),其中nd是視差級別的數(shù)量。第d分支機構(gòu)悲伶,1≤ D≤ nd艾恼,處理兩個圖像的堆棧,如圖2-(f)所示麸锉;第一個圖像是參考圖像钠绍。第二幅是右圖,但被重新投影到第d個深度平面[66]花沉。每個分支生成一個相似性特征映射柳爽,該映射描述了參考圖像和重新投影到給定深度平面上的右圖像之間的相似性。雖然這些技術(shù)不會對圖像進行校正碱屁,但它們假定攝像機的內(nèi)在和外在參數(shù)是已知的磷脯。此外,如果不更新網(wǎng)絡(luò)架構(gòu)并對其進行再訓(xùn)練娩脾,就無法改變差異級別的數(shù)量赵誓。
在這兩種方法中,特征提取模塊使用完全卷積(ConvNet)網(wǎng)絡(luò)(如VGG)或殘差網(wǎng)絡(luò)(如resnet)[67]柿赊。后者有助于訓(xùn)練非常深入的人際網(wǎng)絡(luò)[68]俩功。它們還可以通過使用擴展卷積(第4.1.2.2節(jié))或多尺度方法,在一元特征中捕獲并合并更多全局上下文碰声。例如诡蜓,Chang和Chen[64]的PSM網(wǎng)絡(luò)附加了一個空間金字塔池(SPP)模塊,以便在多個尺度上提取和聚合特征胰挑。Nie等人[65]使用稱為多級上下文超級聚合(MLCUA)的多級上下文聚合模式擴展了PSMNet蔓罚。它通過層內(nèi)和層間特征的組合,將所有卷積特征封裝成一種更具區(qū)別性的表示洽腺。它將最淺、最小尺度的特征與更深覆旱、更大尺度的特征結(jié)合在一起蘸朋,只使用淺跳連接。與PSM Net[64]相比扣唱,這提高了性能藕坯,而不會顯著增加網(wǎng)絡(luò)中的參數(shù)數(shù)量。
5.2Cost volume
一旦計算出特征噪沙,下一步就是計算匹配分數(shù)炼彪,它將以cost volumes 的形式反饋給頂級網(wǎng)絡(luò),用于正則化和視差估計正歼。cost volumes 可以是三維的(3D)辐马,其中第三維度是差異水平(第5.2.1節(jié)),四維的(4D)局义,其中第三維度是特征維度喜爷,第四維度是差異水平(第5.2.2節(jié))冗疮,或者混合使用,以受益于3D和4Dcost volumes 的特性(第5.2.3節(jié))檩帐。一般來說术幔,cost volumes的分辨率較低,例如湃密,在1/8處诅挑,比輸入[72],[73]低泛源。然后對其進行放大和細化拔妥,或按原樣估計低分辨率視差圖,然后使用細化模塊對其進行放大和細化俩由。
5.2.1 3Dcost volumes
5.2.1.1構(gòu)造:通過獲取左圖像特征和右圖像特征之間的L1毒嫡、L2或相關(guān)距離(在預(yù)定義的視差范圍內(nèi)),可以簡單地構(gòu)建3Dcost volumes 幻梯,請參見[22]兜畸、[72]、[73]碘梢、[74]咬摇、[80]、[81]煞躬、[83]和[51]的FlowNetCorr肛鹏。基于相關(guān)性的差異的優(yōu)點是恩沛,它們可以使用不需要訓(xùn)練的卷積層來實現(xiàn)(其濾波器是由網(wǎng)絡(luò)的第二個分支計算的特征)在扰。FlowNetCorr[51]等流量估計網(wǎng)絡(luò)使用2D相關(guān)性。視差估計網(wǎng)絡(luò)雷客,例如[22]芒珠、[68]、iResNet[63]搅裙、DispNet3[75]皱卓、EdgeStereo[76]、HD3[80]和[83]部逮、[84]娜汁,使用1D相關(guān)性。
5.2.1.2 3Dcost volumes 的規(guī)范化:
一旦計算了成本體積兄朋,就可以使用argmin掐禁、softargmin或成本體積深度維度上的亞像素圖近似來估計初始視差圖,例如參見[73]和圖5-(a)。這相當于去掉等式n的正則化項穆桂。(1). 然而宫盔,一般來說,原始cost volumes 受到噪聲污染(例如享完,由于非朗伯曲面灼芭、對象遮擋和重復(fù)模式的存在)。正則化模塊的目標是在估計初始視差圖之前般又,利用空間和/或視差維度上的上下文來細化cost volumes 彼绷。
(1) 使用傳統(tǒng)方法進行正則化。早期的論文使用傳統(tǒng)的技術(shù)茴迁,例如馬爾可夫隨機場(MRF)寄悯、條件隨機場(CRF)和半全局匹配(SGM),通過顯式地結(jié)合深度圖的空間約束(例如平滑度)來調(diào)整cost volumes 堕义。最近的論文表明猜旬,深度學習網(wǎng)絡(luò)可以用來微調(diào)這些方法的參數(shù)。例如倦卖,Knobelreiter等人[71]提出了一種混合CNN-CRF洒擦。CNN計算Eqn的匹配項。(1) 怕膛,成為CRF模塊的一元術(shù)語熟嫩。CRF的成對項由使用另一個CNN計算的邊權(quán)重參數(shù)化。與之前的方法相比褐捻,經(jīng)過端到端訓(xùn)練的CNN-CRF管道可以使用更少的參數(shù)(從而更好地利用訓(xùn)練數(shù)據(jù))實現(xiàn)具有競爭力的性能掸茅。
Zheng等人[89]提供了一種將CRF建模為分段任務(wù)的遞歸神經(jīng)網(wǎng)絡(luò)(RNN)的方法,以便可以對整個管道進行端到端的訓(xùn)練柠逞。與分段昧狮、深度估計不同,深度樣本的數(shù)量(對應(yīng)的是分段任務(wù)中的語義標簽)預(yù)計會因不同的場景而不同板壮。因此逗鸣,薛等人[90]重新設(shè)計了RNN形成的CRF模塊,使模型參數(shù)與深度樣本數(shù)量無關(guān)个束。Paschalidou等人[91]將MRF中的推理表述為可微函數(shù)慕购,因此允許使用反向傳播進行端到端訓(xùn)練聊疲。請注意茬底,Zheng等人[89]和Paschalidou等人[91]專注于多視角立體視覺(第6節(jié))。然而获洲,他們的方法是通用的阱表,可以用于調(diào)整使用成對立體網(wǎng)絡(luò)獲得的3D成本。
[if !supportLists](2)?[endif]使用2D卷積進行正則化(2DConvNet),圖最爬。5-(b)和(c)涉馁。另一種方法是使用一系列二維卷積層處理三維cost volumes ,產(chǎn)生另一個三維cost volumes [22]爱致、[51]烤送、[62]、[63]糠悯。二維卷積在計算上是高效的帮坚。然而,它們只捕獲并聚合空間維度上的上下文互艾,見圖5-(b)试和,而忽略視差維度上的上下文。Yao等人[92]通過選通循環(huán)單元(GRU)沿深度方向?qū)?D成本圖進行順序正則化纫普,見圖5-(c)阅悍。這大大減少了內(nèi)存消耗,例如昨稼,從[93]中的15.4GB減少到5GB左右节视,使高分辨率重建成為可能,同時沿空間和視差維度捕獲上下文悦昵。
(3) 使用3D卷積進行正則化(3DConvNet)肴茄,圖5-(d)。Khamis等人[72]使用L2距離計算初始3Dcost volumes 但指,并使用3D卷積在空間和視差維度上對其進行正則化寡痰,見圖5-(d)。由于其內(nèi)存需求棋凳,該方法首先估計低分辨率視差圖拦坠,然后使用剩余學習逐步改進。Zhang等人[73]遵循相同的方法剩岳,但細化塊從分別在上采樣視差和輸入圖像上運行的單獨卷積層開始贞滨,然后合并特征以產(chǎn)生殘差。Chabra等人[81]觀察到拍棕,成本-體積正則化步驟使用了大部分計算資源晓铆。然后,他們提出了一個正則化模塊绰播,該模塊在寬度骄噪、高度和視差維度中使用3D擴展卷積,以減少計算時間蠢箩,同時捕獲更廣泛的上下文链蕊。
5.2.2 4Dcost volumes
5.2.2.1Construction :
4D保留特征尺寸的成本體積[32]事甜、[61]、[64]滔韵、[65]逻谦、[70]、[79]陪蜻。4Dcost volumes 背后的理性是讓頂級網(wǎng)絡(luò)學習適當?shù)南嗨菩远攘堪盥恚员容^功能,而不是像第5.2.1節(jié)那樣使用手工制作的功能宴卖。
4Dcost volumes 可以通過預(yù)先定義的差異范圍內(nèi)的特征差異[32]來構(gòu)建勇婴,這導(dǎo)致cost volumes 大小為H×W×2nd×c,或者通過連接由網(wǎng)絡(luò)的不同分支計算的特征[61]嘱腥、[64]耕渴、[65]、[70]齿兔、[79]橱脸。使用這種方法,Kendall等人[61]構(gòu)建了一個尺寸為H×W×(nd+1)×c(c這里是特征的尺寸)的4D體積分苇。Zhong等人[70]采用相同的方法添诉,但以交錯方式連接特征。也就是說医寿,如果fL是左圖像的特征映射栏赴,fR是右圖像的特征映射,那么最終的特征體積是以這樣的方式組合的靖秩,即其2i?第個切片保存左側(cè)要素地圖须眷,而(2i+1)?th切片持有正確的特征圖,但差異d=i沟突。這導(dǎo)致4Dcost volumes 是Kendall等人[61]cost volumes 的兩倍花颗。為了捕獲cost volumes 中的多尺度背景,Chang和Chen[64]為每個輸入圖像生成一個特征金字塔惠拭,將它們向上采樣到相同的維度扩劝,然后通過串聯(lián)構(gòu)建單個4Dcost volumes 。Wu等人[79]從多尺度特征(四尺度)構(gòu)建多尺度4Dcost volumes 职辅。
與3Dcost volumes相比棒呛,4Dcost volumes包含更豐富的信息。然而域携,請注意簇秒,通過串聯(lián)獲得的體積不包含有關(guān)特征相似性的信息,因此在后續(xù)模塊中需要更多參數(shù)來學習相似性函數(shù)涵亏。
5.2.2.2 4Dcost volumes 的規(guī)范化:
4Dcost volumes 通過3D卷積進行正則化宰睡,3D卷積利用高度、寬度和視差維度的相關(guān)性生成3Dcost volumes 气筋。Kendall等人[61]使用帶有3D卷積和跳過連接的U-net編碼器-解碼器。Zhong等人[70]使用了類似的方法,但添加了從收縮到正則化網(wǎng)絡(luò)擴展部分的剩余連接拥峦。為了在不增加大量額外計算負擔的情況下考慮大的上下文运怖,Kendall等人[61]采用四級子抽樣的方式分層調(diào)整cost volumes ,允許在大范圍內(nèi)明確利用上下文搀矫。Muliscale 4Dcost volumes[79]使用3D多成本聚合模塊聚合為單個3Dcost volumes抹沪,該模塊以成對方式從最小的卷開始運行。每個體積都經(jīng)過編碼器-解碼器處理瓤球,上采樣到金字塔中的下一個分辨率融欧,然后使用3D特征融合模塊進行融合。
此外卦羡,半全局匹配(SGM)技術(shù)已被用于規(guī)范化4Dcost volumes 噪馏,其中其參數(shù)使用卷積網(wǎng)絡(luò)估計。特別是绿饵,Yu等人[77]使用由3D卷積和上卷積組成的編碼器-解碼器處理初始4Dcost volumes 欠肾,并產(chǎn)生另一個3Dcost volumes 。隨后的聚合步驟使用端到端兩個流網(wǎng)絡(luò)執(zhí)行:第一個流生成三個成本聚合建議Ci拟赊,每個樹維度一個刺桃,即高度、寬度和視差吸祟。第二個流是用于選擇最佳方案的指導(dǎo)流瑟慈。它使用2D卷積生成三個制導(dǎo)(置信度)地圖。最終3Dcost volumes 是三個方案的加權(quán)和屋匕,即maxi(Ci? Wi)封豪。
3D卷積在內(nèi)存需求和計算時間方面非常昂貴。因此炒瘟,繼Kendall等人[61]的開創(chuàng)性工作之后吹埠,后續(xù)工作的重點是(1)減少3D卷積層的數(shù)量[85],(2)逐步細化成本體積和差異圖[64]疮装,[88]缘琅,以及(3)壓縮4D成本體積[78]。下面廓推,我們將討論這些方法刷袍。
(1) 減少三維卷積層的數(shù)量。Zhang等人[85]介紹了GANet樊展,它用(1)兩個3D卷積層呻纹,(2)半全局聚合層(SGA)和(3)局部引導(dǎo)聚合層(LGA)替換正則化塊中的大量3D卷積層堆生。SGA是半全局匹配(SGM)的可微近似。與SGM不同雷酪,在SGA中淑仆,用戶定義的參數(shù)是可學習的。此外哥力,它們被添加為匹配成本項的懲罰系數(shù)/權(quán)重蔗怠。因此,它們具有適應(yīng)性吩跋,在不同的位置更靈活地適應(yīng)不同的情況寞射。另一方面,LGA層附加在末端锌钮,旨在細化薄結(jié)構(gòu)和對象邊緣桥温。SGA和LGA層用于替換昂貴的3D卷積,捕獲局部和整體圖像成本依賴關(guān)系梁丘。在遮擋策治、大的無紋理/反射區(qū)域和薄結(jié)構(gòu)等具有挑戰(zhàn)性的區(qū)域,它們顯著提高了視差估計的準確性兰吟。
(2) 漸進式方法通惫。一些技術(shù)避免使用昂貴的3D卷積直接調(diào)整高分辨率4D成本體積。相反混蔼,它們以漸進的方式運作履腋。例如,Chang和Chen[64]介紹了PSM Net惭嚣,它首先估計低分辨率4D成本體積遵湖,然后使用堆疊的沙漏3D編碼器-解碼器塊對其進行正則化。每個塊返回一個3Dcost volumes 晚吞,然后對其進行上采樣延旧,并使用附加的3D卷積層和softmax操作符對高分辨率視差圖進行回歸。因此槽地,可以將堆疊的沙漏塊視為細化模塊迁沫。
Wang等人[88]使用一個稱為AnyNet的三階段視差估計網(wǎng)絡(luò),該網(wǎng)絡(luò)以從粗到細的方式構(gòu)建cost volumes 捌蚊。第一階段以低分辨率特征圖作為輸入集畅,構(gòu)建低分辨率4D代價體,然后通過在小視差范圍內(nèi)搜索缅糟,使用3D卷積來估計低分辨率視差圖挺智。然后對前一級的預(yù)測進行上采樣,并使用相同的視差估計網(wǎng)絡(luò)在更高的尺度上扭曲輸入特征窗宦,以估計視差殘差赦颇。好處是雙重的二鳄;首先,在較高分辨率下媒怯,網(wǎng)絡(luò)只學習預(yù)測殘差订讼,這降低了計算成本。第二沪摄,這種方法是漸進的,人們可以選擇返回中間差異纱烘,以準確性換取速度杨拐。
(3) 4Dcost volumes壓縮。Tulyakov等人[78]通過將特征壓縮成緊湊的匹配簽名擂啥,減少了內(nèi)存使用哄陶,而不必犧牲準確性。因此哺壶,內(nèi)存占用顯著減少屋吨。更重要的是,它允許網(wǎng)絡(luò)處理任意數(shù)量的多視圖圖像山宾,并在運行時改變輸入的數(shù)量至扰,而無需重新訓(xùn)練網(wǎng)絡(luò)。
5.2.3混合3D-4Dcost volumes
相關(guān)層提供了一種有效的方法來測量特征相似性资锰,但它會丟失很多信息敢课,因為它只為每個差異級別生成一個通道圖。另一方面绷杜,通過特征串聯(lián)獲得的4Dcost volumes 攜帶更多信息直秆,但需要資源。它們還需要在隨后的聚合網(wǎng)絡(luò)中使用更多參數(shù)來學習相似性函數(shù)鞭盟。為了從兩者中獲益圾结,郭等人[86]提出了一種混合方法,該方法構(gòu)建了兩個cost volumes 齿诉;一個特征串接筝野,但使用兩個卷積壓縮成12個通道。第二種方法是沿著特征通道將高維特征圖分成Ng組粤剧,計算各組在所有視差水平上的相關(guān)性遗座,最后將相關(guān)圖連接起來,形成另一個4D體積俊扳。然后將這兩個體積組合在一起途蒋,并傳遞給三維正則化模塊,該模塊由四個三維卷積層和三個堆疊的三維沙漏網(wǎng)絡(luò)組成馋记。與僅通過特征拼接構(gòu)建的4Dcost volumes相比号坡,這種方法可以顯著減少參數(shù)懊烤,而不會丟失太多信息,如完整相關(guān)性宽堆。
5.3視差計算
從正則化代價體積C估計視差圖的最簡單方法是使用像素級的argmin腌紧,即dx=arg mind C(x,d)(或者如果體積C編碼似然度畜隶,則等效為arg max)壁肋。然而,agrmin/argmax運算符無法產(chǎn)生亞像素精度籽慢,并且由于其不可微性浸遗,無法使用反向傳播進行訓(xùn)練。另一種方法是視差上的可微軟argmin/max[61]箱亿、[66]跛锌、[72]、[73]:
當分布為單峰對稱分布時届惋,soft argmin算子近似亞像素圖解[78]髓帽。如果未滿足此假設(shè),softargmin將混合模式脑豹,并可能產(chǎn)生遠離所有模式的解決方案郑藏,并可能導(dǎo)致過度平滑。Chen等人[87]觀察到瘩欺,在邊界像素處译秦,估計的差異遵循多峰分布,情況尤其如此击碗。為了解決這些問題筑悴,Chen等人[87]僅對以最大概率模式為中心的窗口應(yīng)用加權(quán)平均操作,而不是對整個視差范圍使用全波段加權(quán)平均稍途。
Tulyakov等人[78]引入了亞像素圖近似阁吝,它以最大后驗概率計算視差周圍的加權(quán)平均值,如下所示:
其中δ是在[78]中設(shè)置為4的元參數(shù)械拍,σ(C(x突勇,d))是像素x具有視差d的概率,并且?d=arg max d C(x坷虑,d)甲馋。亞像素圖僅用于推斷。Tulyakov等人[78]還表明迄损,與softargmin/max不同定躏,這種方法允許在運行時改變視差范圍,而無需重新訓(xùn)練網(wǎng)絡(luò)。
5.4變種
到目前為止痊远,描述的管道推斷出的視差圖可能具有低分辨率(沿寬度垮抗、高度和視差維度)、不完整碧聪、嘈雜冒版、缺少精細細節(jié),并且存在過度平滑的問題逞姿,尤其是在對象邊界處辞嗡。因此,引入了許多變體來(1)提高分辨率(第5.4.1節(jié))滞造,(2)提高處理時間续室,尤其是在運行時(第5.4.3節(jié)),以及(3)執(zhí)行視差補全和去噪(第5.4.2節(jié))断部。
5.4.1學習推斷高分辨率視差圖
直接回歸包含精細細節(jié)的高分辨率深度圖猎贴,例如班缎,通過添加進一步的上卷積層來提高cost volumes 蝴光,將需要大量參數(shù),因此計算成本高且難以訓(xùn)練达址。因此蔑祟,由于內(nèi)存限制或速度限制,最先進的方法難以處理高分辨率圖像沉唠。這可以通過使用自下而上或自上而下的技術(shù)來解決疆虚。
自底向上的技術(shù)以滑動窗口的方式運行。他們使用小patch 满葛,估計整個patch 或patch 中心像素的精細視差径簿。Lee等人[94]采用了拆分合并的方法。將輸入圖像分割為多個區(qū)域嘀韧,并估計每個區(qū)域的深度篇亭。然后使用在傅里葉域中運行的融合網(wǎng)絡(luò)合并估計值,以便可以處理具有不同裁剪率的深度圖锄贷。雖然滑動窗口和拆分合并方法都降低了內(nèi)存需求译蒂,但它們需要多次前向傳遞,因此不適合實時應(yīng)用谊却。此外柔昼,這些方法不捕獲全局上下文,這可能會限制它們的性能炎辨。
另一方面捕透,自上而下的技術(shù)以分層的方式對視差圖估計進行操作。他們首先估計低分辨率視差圖,然后將其上采樣到所需的分辨率激率,例如使用雙線性上采樣咳燕,然后使用殘差學習對其進行進一步處理,以恢復(fù)小細節(jié)和薄結(jié)構(gòu)[72]乒躺,[73]招盲,[81]。這個過程也可以通過級聯(lián)許多這樣的細化塊來逐步運行嘉冒,每個塊細化前一個塊的估計值[62]曹货,[72]。與上采樣成本不同讳推,細化視差圖在計算上是高效的顶籽,因為它只需要二維卷積。現(xiàn)有的方法主要不同于附加到上采樣視差圖以進行細化的附加信息的類型银觅。例如:
?Khamis等人[72]將上采樣的視差圖與原始參考圖像連接起來礼饱。
?Liang等人[63]將cost volumes 和重建誤差附加到初始視差圖中,定義為左圖像和右圖像之間的差異究驴,但使用估計的視差圖扭曲到左圖像镊绪。
?Chabra等人[81]在一側(cè)拍攝左圖像和重建誤差,以及左視差和幾何誤差圖洒忧,定義為估計的左視差和右視差之間的差異蝴韭,但扭曲到左視圖上。這些是使用一層卷積進行獨立過濾熙侍,然后進行批量標準化榄鉴。將兩個流的結(jié)果連接起來,然后使用一系列卷積層進行進一步處理蛉抓,以生成細化的視差圖
這些方法提高了空間分辨率庆尘,但沒有提高視差分辨率。為了提高空間分辨率和深度分辨率巷送,同時對高分辨率圖像進行操作驶忌,Yang等人[32]建議在從粗到細的層次結(jié)構(gòu)上逐步搜索對應(yīng)關(guān)系。該方法構(gòu)建了一個由四個4Dcost volumes組成的金字塔惩系,每個cost volumes的空間和深度分辨率都在增加位岔。每個體積通過六個3D卷積塊進行過濾,并使用體積金字塔池塊(空間金字塔池到特征體積的擴展)進行進一步處理堡牡,以生成能夠捕獲足夠全局上下文以進行高分辨率輸入的特征抒抬。然后(1)使用另一個conv3D塊處理輸出,以生成3Dcost volumes 晤柄,從中可以直接回歸差異擦剑。這允許報告根據(jù)當前比例計算的ondemand差異,或(2)三線性上采樣到更高的空間和差異分辨率,以便可以與金字塔中的下一個4D體積融合惠勒。為了最大限度地減少內(nèi)存需求赚抡,該方法在金字塔的最后一卷和最后第二卷中沿著差異維度大步移動。使用多尺度損耗對網(wǎng)絡(luò)進行端到端訓(xùn)練纠屋。這種分層設(shè)計還允許通過限制中間粗略結(jié)果涂臣,隨時按需報告差異,允許準確預(yù)測低延遲(30ms)的近距離結(jié)構(gòu)售担。
該方法與Kendall等人[61]的方法有一些相似之處赁遗,后者構(gòu)建分層4D特征體,并使用3D卷積從粗到細進行處理族铆。然而岩四,Kendall等人[61]的方法被用于利用具有廣泛視野的上下文,而Yang等人[32]則將粗到細的原則應(yīng)用于高分辨率輸入和隨時按需處理哥攘。
5.4.2學習完成和去噪
原始差異可能會有噪音且不完整剖煌,尤其是在物體邊界附近,物體之間的深度涂抹仍然是一個挑戰(zhàn)逝淹。已經(jīng)開發(fā)了幾種用于去噪和補全的技術(shù)耕姊。其中一些是特別的,即對噪聲和不完整的初始估計進行后處理创橄,以生成干凈完整的深度圖箩做。其他方法解決了缺少用于完成和去噪的訓(xùn)練數(shù)據(jù)的問題莽红。其他人提出了更適合這項任務(wù)的新的深度表示妥畏,特別是用于解決對象之間的深度涂抹。
特殊方法使用變分方法[51]安吁、[95]醉蚁、全連接CRF(DenseCRF)[27]、[96]鬼店、層次CRF[2]和由置信圖引導(dǎo)的擴散過程[40]處理最初估計的差異a网棍。它們鼓勵空間上相近且顏色相似的像素進行更接近的視差預(yù)測。Liu等人也對其進行了探索[5]妇智。然而滥玷,與Li等人[2]不同,Liu等人[5]使用CNN將CRF能量降至最低巍棱。卷積空間傳播網(wǎng)絡(luò)(CSPN)[98]惑畴,[99]實現(xiàn)了各向異性擴散過程,特別適合深度完井航徙,因為它們使用深度CNN預(yù)測擴散張量如贷。然后將其應(yīng)用于初始圖,以獲得優(yōu)化的圖。
基于深度學習的深度補全和去噪的主要挑戰(zhàn)之一是缺乏標記的訓(xùn)練數(shù)據(jù)杠袱,即成對的噪聲尚猿、不完整的深度圖及其相應(yīng)的干凈深度圖。為了解決這個問題楣富,Jeon和Lee[29]提出了一種成對深度圖像數(shù)據(jù)集生成方法凿掂,該方法使用密集3D曲面重建和過濾方法來去除低質(zhì)量對。他們還提出了基于多尺度拉普拉斯金字塔的神經(jīng)網(wǎng)絡(luò)和結(jié)構(gòu)保持損失函數(shù)纹蝴,以從粗到細尺度逐步減少噪聲和孔洞缠劝。該方法首先以最粗的尺度預(yù)測干凈的完整深度圖像,其分辨率為原始分辨率的四分之一骗灶。然后惨恭,通過金字塔對預(yù)測的深度圖進行逐步上采樣,以預(yù)測半幅和原始大小的圖像耙旦。在粗略的層次上脱羡,該方法捕獲全局上下文,而在更精細的層次上免都,它捕獲局部信息锉罐。此外,在下采樣期間提取的特征通過跳過連接傳遞到上采樣金字塔绕娘,以防止在上采樣期間丟失輸入深度圖像中的原始細節(jié)脓规。
Imran等人[100]提出了一種稱為深度系數(shù)(DC)的新深度表示法,以解決對象之間的深度涂抹問題险领,而不是在網(wǎng)絡(luò)架構(gòu)侨舆、損失函數(shù)或訓(xùn)練數(shù)據(jù)集上操作。這種表示使卷積更容易避免對象間深度混合绢陌。該表示使用與目標深度圖大小相同的多通道圖像挨下,每個通道表示固定深度。深度值以大小為b的偶數(shù)步數(shù)增加(該方法使用80個箱子)存儲箱數(shù)量的選擇權(quán)衡了內(nèi)存和精度脐湾。由給定像素處的所有這些值組成的向量定義了該像素的深度系數(shù)臭笆。對于每個像素,這些系數(shù)被約束為非負且和為1秤掌。這種深度表示為CNN避免深度混合提供了一種更簡單的方法愁铺。首先,CNN可以根據(jù)需要學會避免在不同通道中混合深度闻鉴。其次茵乱,由于卷積同時適用于所有通道,因此深度依賴性椒拗,如遮擋效應(yīng)似将,可以通過神經(jīng)網(wǎng)絡(luò)建模和學習获黔。然而,主要的限制是深度范圍需要提前設(shè)置在验,并且在運行時不能在不重新訓(xùn)練網(wǎng)絡(luò)的情況下進行更改玷氏。Imran等人[100]還表明,標準均方誤差(MSE)損失函數(shù)可以促進深度混合腋舌,因此建議使用交叉熵損失來估計深度系數(shù)盏触。
5.4.3實時處理學習
目標是設(shè)計高效的立體算法,不僅能產(chǎn)生可靠和準確的估計块饺,而且能實時運行赞辩。例如,在PSMNet[64]中授艰,cost volumes構(gòu)建和聚合需要超過250ms(在nVidia Titan Xp GPU上)辨嗽。這使得實時應(yīng)用程序不可行。為了加快這個過程淮腾,Khamis等人[72]首先估計一個低分辨率的視差圖糟需,然后對其進行分層細化。Yin等人[80]采用固定的谷朝、從粗到細的過程洲押,以迭代方式找到匹配項。Chabra等人[81]在過濾cost volumes 時圆凰,在寬度杈帐、高度和視差通道中使用3D放大卷積。Duggal等人[83]將深度學習與PatchMatch[101]相結(jié)合专钉,自適應(yīng)地刪減潛在的較大搜索空間挑童,顯著加快推理速度∈徽樱基于PatchMatch的剪枝器模塊能夠預(yù)測每個像素的置信范圍炮沐,并構(gòu)建一個需要更少操作的稀疏cost volumes争群。這也允許模型只關(guān)注高可能性區(qū)域回怜,并節(jié)省計算和內(nèi)存。為了實現(xiàn)端到端訓(xùn)練换薄,Duggal等人[83]將PatchMatch展開為RNN玉雾,其中每個展開步驟相當于算法的一次迭代。這種方法實現(xiàn)了與最新技術(shù)相當?shù)男阅芮嵋鏪64]复旬,[68],同時將KITTI2015數(shù)據(jù)集中的每幅圖像的計算時間從600毫秒減少到60毫秒冲泥。
5.5學習置信圖
對于自動駕駛和醫(yī)療成像等應(yīng)用而言驹碍,檢測并隨后補救故障案例的能力非常重要壁涎。因此,很多研究都致力于估計置信度或不確定性圖志秃,然后通過去除潛在誤差怔球,然后從可靠的相鄰像素中替換它們來稀疏估計的差異。視差圖也可以合并到視差細化管道中浮还,以指導(dǎo)細化過程[74]竟坛、[102]、[103]钧舌。例如担汤,Seki等人[102]將置信度映射合并到半全局匹配(SGM)模塊中,用于密集視差估計洼冻。Gidaris等人[103]使用置信度圖來檢測錯誤的估計值崭歧,用相鄰區(qū)域的差異代替它們,然后使用優(yōu)化網(wǎng)絡(luò)來優(yōu)化差異撞牢。另一方面驾荣,Jie等人[74]估計了兩個置信度圖,每個置信度圖對應(yīng)一個輸入圖像普泡,將它們與其相關(guān)的cost volumes 連接起來播掷,并將它們用作3D卷積LSTM的輸入,以便在后續(xù)步驟中選擇性地聚焦左右不匹配的區(qū)域撼班。
傳統(tǒng)的置信度估計方法主要基于匹配cost volumes 分析的假設(shè)和啟發(fā)歧匈,有關(guān)早期方法的回顧和評估,請參見[59]砰嘁。最近的技術(shù)基于監(jiān)督學習[104]件炉、[105]、[106]矮湘、[107]斟冕、[108]、[109]缅阳。它們直接從視差空間以特別的方式或以集成的方式估計置信度圖磕蛇,以便它們可以與視差/深度估計一起進行端到端的訓(xùn)練。Poggi等人[110]提供了定量評估十办。下面秀撇,我們將討論其中一些技術(shù)。
5.5.1左右一致性檢查的置信度
左右一致性是衡量差異估計置信度最常用的標準之一向族。其思想是估計兩個視差圖呵燕,一個來自左圖像(Dlef t),另一個來自右圖像(Dright)件相。然后再扭,可以通過將Dlef t和Dright之間的像素差重新扭曲到左邊的圖像上氧苍,并將它們轉(zhuǎn)換為概率來計算誤差圖[63]。該測量適用于檢測遮擋泛范,即在一個視圖中可見但在另一個視圖中不可見的區(qū)域候引。
還可以使用由完全卷積層組成的深或淺網(wǎng)絡(luò)來學習左右一致性[74],[102]敦跌。Seki等人[102]提出了一種基于patch 的置信度預(yù)測(PBCP)網(wǎng)絡(luò)澄干,該網(wǎng)絡(luò)需要兩個視差圖,一個從左圖像估計柠傍,另一個從右圖像估計麸俘。PBCP使用雙通道網(wǎng)絡(luò)。第一個通道強制執(zhí)行左右一致性惧笛,而第二個通道強制執(zhí)行本地一致性从媚。該網(wǎng)絡(luò)以分類器的方式進行訓(xùn)練。它每像素輸出一個標簽患整,指示估計的視差是否正確拜效。Jie等人[74]沒有將左右一致性檢查視為一個孤立的后處理步驟,而是使用左右比較回歸(LRCR)模型各谚,將其與視差估計聯(lián)合執(zhí)行紧憾。它由兩個并行卷積LSTM網(wǎng)絡(luò)[111]組成,產(chǎn)生兩個誤差映射昌渤;一個用于左視差赴穗,另一個用于右視差。然后將這兩個誤差圖與其相關(guān)的cost volumes 連接起來膀息,并將其用作三維卷積LSTM的輸入般眉,以便在下一步中選擇性地聚焦于左右不匹配的區(qū)域。
5.5.2單個原始視差圖的置信度
左右一致性檢查估計兩個視差圖潜支,因此在運行時成本很高甸赃。Shaked和Wolf[46]通過二進制交叉熵損失訓(xùn)練一個由兩個完全連接的層組成的網(wǎng)絡(luò),以僅從參考圖像預(yù)測估計的視差的正確性冗酿。Poggi和Mattoccia[107]將置信度估計作為一個回歸問題埠对,并使用在小patch 上訓(xùn)練的CNN解決它。對于每個像素已烤,該方法提取像素周圍的方形patch 鸠窗,并將其轉(zhuǎn)發(fā)給經(jīng)過訓(xùn)練的CNN,以區(qū)分對應(yīng)于正確和錯誤視差分配的模式胯究。它是一個單通道網(wǎng)絡(luò),設(shè)計用于9×9圖像塊躁绸。Zhang等人[73]使用了一個類似的置信圖估計網(wǎng)絡(luò)裕循,稱為失效網(wǎng)絡(luò)臣嚣。其關(guān)鍵思想是利用左視差和右視差之間的像素誤差來訓(xùn)練網(wǎng)絡(luò)預(yù)測置信度。在運行時剥哑,網(wǎng)絡(luò)只需要左視差硅则。最后,Poggi和Mattoccia[112]表明,通過在置信度估計中加強局部一致性,可以改進使用以前算法估計的置信度圖邑商。
5.5.3匹配密度的置信圖
傳統(tǒng)的深度網(wǎng)絡(luò)將激活和輸出表示為確定性點估計志膀。Gast和Roth[113]探討了用概率輸出層代替確定性輸出的可能性。更進一步敛滋,它們用發(fā)行版取代所有中間激活。因此,網(wǎng)絡(luò)可用于估計匹配概率密度徒扶,以下稱為匹配密度,然后可在運行時將其轉(zhuǎn)換為不確定性(或置信度)根穷。估計匹配密度的主要挑戰(zhàn)是計算時間姜骡。為了便于處理,加斯特和羅斯[113]假設(shè)了參數(shù)分布屿良。Yin等人[80]放松了這一假設(shè)圈澈,提出了一種金字塔結(jié)構(gòu),以使計算成本可持續(xù)尘惧,并允許在運行時估計置信度士败。
5.5.4局部與全局推理
一些技術(shù),例如Seki等人[102]褥伴,通過強制實現(xiàn)局部一致性來進行局部推理谅将。Tosi等人[114]引入LGCNet以超越局部推理。輸入?yún)⒖紙D像及其視差圖被轉(zhuǎn)發(fā)到本地網(wǎng)絡(luò)重慢,例如C-CNN[107]饥臂,以及全局網(wǎng)絡(luò),例如具有大接收場的編碼器/解碼器架構(gòu)似踱。將兩個網(wǎng)絡(luò)的輸出和初始視差與參考圖像連接隅熙,用三個獨立的卷積塔進一步處理,其輸出用三個1×1卷積層連接和處理核芽,最終推斷出置信圖囚戚。
5.5.5組合多個估計器
一些論文結(jié)合了多種算法的估計,以獲得更好的精度轧简。Haeusler等人[104]給一個隨機森林提供了23個置信度圖驰坊,使用傳統(tǒng)技術(shù)進行估計,與池中的任何置信度圖相比哮独,產(chǎn)生了更好的精度拳芙。Batsos等人[109]遵循了類似的想法察藐,但結(jié)合了四種基本立體匹配器的優(yōu)點和缺點,以便為后續(xù)的優(yōu)化和正則化步驟生成健壯的匹配體積舟扎。Poggi和Mattoccia[58]訓(xùn)練了一個集成回歸樹分類器分飞。這些方法獨立于差異估計模塊,并依賴于cost volumes 的可用性睹限。