Xingtong Li, Ayushi Sinha, Masaru Ishii, Gregory D. Hager, Fellow, IEEE, Austin Reiter,
Russell H. Taylor, Fellow, IEEE, and Mathias Unberath
摘要——我們提出一個自監(jiān)督的方法用來稠密地估計深度怒详,這個模型利用單目內窺鏡數據而不用一個解剖學和造影的先驗模型蝗岖。我們的方法只需要單目內窺鏡視頻和多視點立體視覺方法以稀疏的方式監(jiān)督學習,例如從運動得到結構。因此屡萤,我們的方法在訓練和應用階段既不需要人工標記姻氨,也不需要患者計算機斷層掃描(CT)。在以CT掃描為基礎的跨患者實驗中缕溉,該方法實現了亞毫米的平均殘差考传。在一項比較研究中,將近期在自然視頻自監(jiān)督深度估計方法設計在體內竇內窺鏡數據中证鸥,我們證明了我們提出的方法比以前的方法有很大的優(yōu)勢僚楞。這項工作的源代碼可以在https://github.com/lppllppl920/endoscopydepthestiming-pytorch上找到赐写。
1.簡介
頭部和頸部的微創(chuàng)手術挺邀,比如在功能性內窺鏡鼻竇手術中,通常使用手術導航系統為外科醫(yī)生提供額外的解剖學和位置信息疲眷。這有助于他們避開關鍵的結構换淆,這些結構在空間上靠近竇腔并且在手術中不能被干擾,如大腦易猫、眼睛和大動脈∪烈眩基于計算機視覺的導航系統依賴于術中內窺鏡視頻流,不需要引入額外的硬件峡眶,既易于集成到臨床工作流程中,又具有成本效益狮暑。此類系統通常需要將術前數據(如CT掃描或統計模型)配準到術中視頻數據[1][4]拣展。這種配準必須具有較高的精度,以保證導航系統的可靠性能瓜喇。為了實現準確的配準,一種基于特征的視頻- CT配準算法需要精確且足夠稠密的內鏡視頻手術三維重建伞辛。由于鏡面反射率、缺乏跨框架的光度恒常性竿滨、組織變形等問題,獲得這樣的重建并非易事贰剥。
1-A貢獻
在這篇論文中,我們在之前的工作[5]的基礎上担忧,提出了一種用于單幀稠密深度估計的自監(jiān)督學習方法。我們的貢獻如下:(1)據我們所知坡锡,這是第一個在訓練和應用階段都只需要單目內窺鏡圖像的基于深度學習的稠密深度估計方法帆锋。特別是,它既不需要任何手動數據標記实辑、縮放,也不需要任何其他成像方式,如CT梨水。(2)提出了幾種新的網絡損失函數和網絡層,他們利用傳統多視點立體視覺方法中的信息,在不要求光度恒常性的情況下逼龟,增強視頻幀之間的幾何關系。(3)我們證明我們的方法可以很好地在不同的患者和內窺鏡相機中推廣。
1-B相關工作
在內窺鏡檢查中之斯,已經探索了幾種估算深度的方法莉擒。這些方法可以分為傳統的多視點立體視覺算法和基于全監(jiān)督學習的方法。
在特征豐富的場景中,多視點立體視覺方法(如來自運動的結構(SfM)[1]和同步定位與映射(SLAM)[6])能夠在估計相機姿態(tài)的同時翅帜,對三維結構進行重建。然而,內窺鏡解剖圖像特征的缺乏會導致這些方法產生稀疏和不均勻分布的重建腋妙。這個缺點反過來會導致不準確的配準济竹。Mahmoud等人提出了一種基于準稠密SLAM的方法,該方法從最先進的SLAM系統[7]中探索稀疏重建的局部信息袭景。該方法對經典SLAM系統的稀疏重構進行了密集處理报辱,具有較高的精度与殃。然而,由于圖像塊的歸一化交叉相關匹配,該方法對超參數具有潛在的敏感性幅疼。
卷積神經網絡(CNN)在高復雜度問題中顯示出良好的效果米奸,包括一般場景深度估計[8]在內,[8]從局部和全局上下文信息和多層表示中獲益衣屏。然而狼忱,在內窺鏡視頻中以完全監(jiān)督的方式使用CNN是具有挑戰(zhàn)性的复凳,因為很難獲得與真實內窺鏡圖像直接對應的稠密的地面真值深度圖。有幾個基于模擬的工作試圖解決這一挑戰(zhàn)须床,他們通過訓練從病人特定的CT數據生成的合成稠密深度圖耘分。Visentini-Scarzanella等人使用CT數據的無紋理內窺鏡視頻模擬來訓練一個完全監(jiān)督的深度估計網絡,并依靠另一個轉碼器網絡將真實的視頻幀轉換為用于深度預測[9]所需的紋理無關的幀泳猬。這種方法需要對狹窄的管狀結構進行內鏡光度校準和復雜配準坡氯。此外瞬欧,目前還不清楚這種方法是否適用于活體圖像候生,因為驗證僅限于兩個肺結節(jié)晤愧。Mahmood等人從CT數據中模擬成對的彩色圖像和稠密深度圖忘蟹,用于深度估計網絡訓練坷牛。在應用階段,他們使用生成對抗網絡將真實的內窺鏡圖像轉換成類似于模擬的圖像忙干,然后將其輸入到經過訓練的深度估計網絡[10]。在他們的工作中,通過簡單地模仿模擬圖像的外觀褐缠,但不知道目標任務(如深度估計)遏佣,對轉換網絡單獨訓練,這可能導致性能下降到不正確的深度估計揽浙。除了基于模擬的方法状婶,基于硬件的解決方案的存在可能是有利的意敛,因為它們通常不依賴于術前成像方式[11],[12]膛虫。然而草姻,將深度或立體相機納入內窺鏡是具有挑戰(zhàn)性的,即使有可能稍刀,由于組織的非朗伯反射特性和特征的缺乏撩独,這些相機仍然可能無法從內鏡場景中獲得足夠稠密和準確的深度圖,用于進行完全監(jiān)督訓練账月。
在計算機視覺領域[13][16]中综膀,提出了幾種用于單幀深度估計的自監(jiān)督方法。然而局齿,根據我們的觀察和實驗剧劝,由于以下幾個原因,這些方法不適用于內窺鏡檢查抓歼。首先讥此,在他們的工作中假定的幀間光度恒常性在內窺鏡檢查中是不可用的。相機和光源是共同運動的锭部,因此暂论,在不同的相機姿勢下,同一解剖結構的外觀可能會發(fā)生很大的變化拌禾,特別是在靠近相機的區(qū)域。其次展哭,根據[15]的觀察湃窍,基于外觀的翹曲損失受到梯度局部性的影響。這可能導致網絡訓練陷入糟糕的局部極小值匪傍,特別是對于沒有紋理的區(qū)域您市。與自然圖像相比,內窺鏡檢查中觀察到的組織整體上更稀少役衡、質地更均勻茵休,使得網絡從光度學外觀獲取可靠信息變得更加困難,如鼻竇內窺鏡和結腸鏡檢查手蝎。此外榕莺,從單目圖像估計全局尺度本身就是模糊的[17]。在自然圖像中棵介,尺度可以通過對普通物體大小的先驗知識來估計钉鸯,但在內窺鏡檢查中沒有這樣的視覺線索,特別是在沒有儀器的圖像中邮辽。因此唠雕,試圖將估計深度和相機姿態(tài)與正確的全局尺度的聯合是不大可能工作在內窺鏡贸营。
上述第一點和第二點表明,最近的自監(jiān)督方法不能使網絡在沒有照明恒常性的成像模式中捕獲空間或時間維度的長期相關性岩睁,如內窺鏡檢查钞脂。另一方面,傳統的多視點立體視覺方法(如SfM)能夠利用照度不變的特征描述符(如尺度不變特征變換SIFT)捕儒,顯式地捕獲長程通信和全局優(yōu)化(光束法平差)芳肌。我們認為基于SfM的稀疏重建估計和相機姿態(tài)估計是有價值的,應納入單目深度估計的網絡訓練中肋层。我們提出了新的網絡損失函數和層亿笤,他們使來自SfM的信息能夠集成,并加強不同視點深度預測之間的固有幾何約束栋猖。由于這種方法考慮了相對的攝像機和場景的幾何形狀净薛,所以它不假定光照恒定。這使得我們的整體設計適合于光穩(wěn)定性無法保證的場景蒲拉。由于基于單目相機的全局尺度估計方法存在固有的困難肃拜,我們選擇只估計全球尺度下的深度地圖。這不僅使SfM的結果能夠自監(jiān)督學習雌团,真實的全局范圍的尺度無法估計燃领,而且使訓練有素的網絡可推廣到不同的病人和范圍的相機,這是由我們的實驗證實锦援。在第二部分中猛蔽,我們將介紹我們在數據準備、網絡架構和損失設計方面的方法灵寺。實驗設置和結果在第三節(jié)中進行了演示曼库,我們證明了我們的方法在不可見的病人和攝像機上是有效的。此外略板,我們的方法在體內竇內窺鏡數據上比最近的兩種自我監(jiān)督深度估計方法有很大的優(yōu)勢毁枯。在第四部分和第五部分,我們討論了我們工作的局限性和未來探索的方向叮称。
2.方法
在本節(jié)中种玛,我們描述了在單目內窺鏡中使用來自SfM的稀疏自監(jiān)督信號訓練卷積神經網絡用于稠密深度估計的方法。我們解釋了如何從單目內窺鏡視頻中提取自監(jiān)督信號瓤檐,并介紹了我們的新網絡結構和損失函數赂韵,使基于這些信號的網絡訓練成為可能。整體訓練架構如圖1所示距帅,本節(jié)將介紹所有概念右锨。總的來說碌秸,網絡訓練依靠損失函數以梯度的形式反向傳播有用的信息來更新網絡參數绍移。損失函數包括稀疏流損失和深度一致性損失悄窃。為了利用這兩個損失來指導深度估計的訓練,需要幾種類型的輸入數據蹂窖。輸入數據為內窺鏡視頻幀轧抗、相機位姿與內參、稀疏深度圖瞬测、稀疏軟掩模横媚、稀疏流圖,他們在訓練數據部分介紹月趟。最后灯蝴,為了將單目深度估計得到的網絡預測轉換成合適的損失計算形式,使用了幾個自定義層孝宗。自定義層有深度縮放層穷躁、深度扭曲層和來自深度層的流,這些將在網絡架構部分中介紹因妇。
2-A訓練數據
我們的訓練數據來自未標記的內窺鏡視頻捣辆。管道如圖2所示。該管道是全自動的此迅,提供內窺鏡和校準視頻汽畴,原則上用基于slam的方法取代SfM可以實時計算。
數據預處理耸序。首先利用從相應的標定視頻中估計出的畸變系數對視頻序列進行無畸變處理忍些。在不失真的視頻序列中,通過SfM[1]估計稀疏重建坎怪、攝像機姿態(tài)和點可見性罢坝,忽略視頻幀中的黑色無效區(qū)域。為了去除稀疏重建中的極端異常點芋忿,采用點云濾波炸客。點可見性信息如下圖b所示,通過利用視頻中攝像機的連續(xù)運動進行平滑處理戈钢。下面介紹從SfM結果生成的稀疏形式數據痹仙。
稀疏深度圖。單目深度估計模塊殉了,如圖1所示开仰,只預測全局尺度的深度。然而薪铜,為了使損失計算有效众弓,深度預測的尺度和SfM結果必須匹配。因此隔箍,本文引入的稀疏深度圖作為錨點谓娃,在深度定標層進行深度預測。為了生成稀疏深度圖蜒滩,將SfM稀疏重建的三維點投影到具有攝像機姿態(tài)滨达、內參和點可見性信息的圖像平面上。攝像機固有內參矩陣為俯艰,幀相對于世界坐標的攝像機位姿為 捡遍,其中為世界坐標系。世界坐標中稀疏重建的第n個三維點的齊次坐標為竹握,注意画株,可以是稀疏重建中任意一點的索引。幀系數用于下列方程(例如和)可以是相同視頻序列中的任意指標。和的差值在規(guī)定的范圍內谓传,以保持足夠的區(qū)域重疊蜈项。3D點和的對應關系為(1)
第n個3D點w.r.t 幀 , 的深度為的z軸分量,第n個3D點w.r.t 幀, 的2D投影位置為(2)
我們用表示第n個3D點在幀中是可見的良拼,用表示不可見的战得。注意,來自SfM的點可見性信息用于將值賦給庸推。幀, 的稀疏深度映射為
s代表“稀疏的”常侦。注意,對于等式在訓練數據部分贬媒,它們描述了稀疏重建項目點所在區(qū)域的賦值聋亡。對于沒有點投射到的區(qū)域,值設置為零际乘。
稀疏流圖坡倔。稀疏流圖用于下面介紹的稀疏流損失。之前脖含,我們直接使用稀疏深度圖進行損失計算[5]來利用稀疏重構的自監(jiān)督信號罪塔。這使得一幀的訓練目標(深度圖)是固定的,并且可能有偏差。與稀疏深度圖不同的是,稀疏流圖描述了稀疏重建的二維投影運動辆脸,該運動涉及到兩個具有隨機幀間隔的輸入幀的攝像機姿態(tài)崎溃。將攝像機軌跡與稀疏重建相結合框仔,考慮所有成對的幀組合,一幀新目標(深度圖)的誤差分布更有可能是無偏的。這使得網絡受訓練數據中隨機噪聲的影響較小。我們觀察到谐算,對于用SFL訓練的模型,深度預測具有自然的平滑性和邊緣保持性归露,從而消除了訓練過程中顯式正則化的需要洲脂,如 Zhou等人提出的[14]和Yin等人提出的[15]。
稀疏流圖表示稀疏重建從幀到幀的二維投影運動剧包。
H和W分別是框架的高度和寬度
稀疏柔軟的掩膜腮考。稀疏掩碼使網絡能夠利用稀疏數據中的有效稀疏信號,而忽略其余無效區(qū)域玄捕。該方法在訓練前定義了軟權值,并考慮了SfM結果中各點的誤差分布不同這一事實棚放,減輕了SfM重構誤差的影響枚粘。它的設計是基于這樣一種直覺,即在SfM的束平差中飘蚯,使用更多的幀來三角化一個3D點通常意味著更高的精度馍迄。稀疏軟掩模用于下面介紹的SFL福也。定義幀,的稀疏軟掩模為
遍歷應用SfM的視頻序列中的所有幀。σ是超參數基于幀的平均數量在SfM用來重建每個稀疏的點攀圈。
2-B網絡結構
我們的整體網絡架構如圖1所示暴凑,包括一個訓練階段的雙分支Siamese網絡[19]。它依靠SfM的稀疏信號和兩幀之間的幾何約束來學習預測單一內窺鏡視頻幀的稠密深度圖赘来。在應用階段现喳,網絡具有簡單的單分支架構,用于從單個幀進行深度估計犬辰。下面的所有自定義層都是可微的嗦篱,因此可以以端到端方式對網絡進行訓練。
單目深度估計幌缝。這個模塊使用了[18]中57層架構的一個修改版本灸促,稱為DenseNet,它通過廣泛重用前面的特征圖來大量減少網絡參數涵卵,從而達到與其他流行架構相當的性能浴栽。我們將最后一個卷積層的通道數改為1,并將最后一個激活部分log-softmax替換為線性激活轿偎,使其適合深度預測任務典鸡。我們還用最近鄰上采樣和卷積層來代替網絡上采樣部分的反卷積層,來減少最終輸出[20]的checkerboard artifact贴硫。
深度擴展層椿每。這一層用于匹配單目深度估計的深度預測尺度和相應的SfM結果,可以進行正確的損失計算英遭。注意间护,下列方程的所有運算都是按元素順序進行的,除了這里的是對映射中所有元素的求和挖诸。是幀的深度預測汁尺,在一定范圍內是正確的。幀,的深度按比例預測為
是避免除零的超參數多律。
從深度層得到流痴突。為了使用由SfM結果生成的稀疏流圖來指導后面描述的SFL網絡訓練,首先需要將縮放后的深度圖轉換為具有相對攝像機姿態(tài)和內參矩陣的稠密流圖狼荞。這一層類似于在[15]中提出的辽装,他們使用生成的稠密流圖作為光流估計網絡的輸入。在這里相味,我們使用它來進行深度估計訓練拾积。稠密流圖本質上是一個描述三維視點變化的二維位移場。給出幀的深度縮放圖和幀w.r.t. 的相對攝像機位姿,拓巧,可以得到幀與斯碌、之間的稠密流圖肛度。為了以可并行和可微的方式演示這些操作傻唾,下面的方程用矩陣形式描述。幀中的2D位置(U, V)被組織成一個規(guī)則的2D網格承耿。第幀對應的2D位置為(Uk, Vk)冠骄,與第幀的空間布局相同。(Uk, Vk)如下
作為一個規(guī)則的網格瘩绒,U由H行組成[0,1猴抹,… W-1],而V由W列組成蟀给。. 和分別是A和B在(m, n)位置的元素。描述從幀j到幀k的二維位移場的稠密流圖為
變形層深度阳堕。稀疏流圖主要提供幀區(qū)域的引導跋理,其中來自SfM的稀疏信息被投影到幀區(qū)域√褡埽考慮到大多數幀只有一小部分像素的值在稀疏流圖中是有效的前普,大多數區(qū)域仍然沒有得到正確的引導。利用相機的運動特性和相機的內參特性壹堰,可以利用兩幀之間的幾何約束來加強兩個相應深度預測之間的一致性拭卿。從直觀上看,由相鄰兩幀預測得到的稠密深度圖是相關的贱纠,因為觀測區(qū)域之間存在重疊峻厚。為了使以后描述的深度一致性損失中的幾何約束可微分,深度預測的視點必須首先對齊谆焊。因為稠密流圖描述了一個二維投影觀察3D場景的運動, 和上面描述可用于改變的角度深度從幀與一個額外的步驟,即修改描述深度值改變時由于視角改變惠桃。修改后幀k的深度圖,
[21]中的雙線性采樣器使用 ,和,能夠生成從k幀視角扭曲到j幀視角的稠密深度圖
2-C損失函數
我們提出了一種利用自監(jiān)督信號的新損失方法辖试,并在兩幀深度預測之間加強幾何一致性辜王。
稀疏流動損失(SFL)。為了生成與SfM稀疏重構一致的正確的稠密深度圖罐孝,對網絡進行了訓練呐馆,使稠密流圖與相應的稀疏流圖之間的差異最小化。這種損失是尺度不變的莲兢,因為它考慮了二維投影運動在像素單位上的差異摹恰,這解決了SfM結果任意尺度造成的數據不平衡問題辫继。與坐標系和相關的SFL計算為
深度一致性損失(DCL)。僅來自SFL的稀疏信號無法提供足夠的信息俗慈,使網絡能夠推斷出沒有可用的稀疏注釋的區(qū)域。因此遣耍,我們在兩個獨立的預測深度地圖之間實施幾何約束闺阱。與幀j和k相關的DCL被計算為
是有效的交集區(qū)域和稠密深度圖(從幀k扭曲到角度幀j)。因為SfM結果包含任意全局尺度,所以損失只懲罰兩個密集深度映射之間的相對差異以避免數據的不平衡舵变。
整體損失酣溃。對于來自幀j和k的單對訓練數據,網絡訓練的總體損失函數為
3.實驗和結果
3-A 實驗設置
所有的實驗都是在一個帶有4個NVIDIA Tesla M60 GPU的工作站上進行的纪隙,每個GPU都有8gb的內存赊豌。該方法是使用PyTorch[23]實現的。數據集包含10個不同內窺鏡獲得的竇內窺鏡矯正視頻绵咱。這些視頻收集自8名匿名且自愿的患者和2具尸體碘饼,根據IRB批準的方案。視頻的總時長約為30分鐘悲伶。在下面所有的無干擾實驗中艾恼,8名患者中有7名的數據被用于訓練。來自2具尸體的數據用于驗證麸锉,而被遺漏的病人用于測試钠绍。
我們根據驗證數據集上的網絡損失來選擇經過訓練的模型進行評估』ǔ粒總的來說柳爽,進行了兩種類型的評估。一種是將深度預測轉換成的點云與CT數據對應的表面模型進行比較碱屁。另一種方法是直接將深度預測與相應的由SfM結果生成的稀疏深度圖進行比較磷脯。
對于與CT數據相關的評估,我們選擇20幀忽媒,每個測試患者都有足夠的解剖變異争拐。深度預測被轉換成點云。在配準前對點云的初始全局尺度和姿態(tài)進行人工估計晦雨。為此架曹,我們在點云和相應的CT表面模型中選取了相同的解剖標志。使用迭代最有可能定向點(IMLOP)算法[25]將來自每個點云的3000個均勻采樣點配準到患者CT掃描[24]生成的相應表面模型中闹瞧。在優(yōu)化過程中绑雄,我們修改了配準算法來估計帶有硬約束的相似變換。這個約束是為了防止點云在初始對齊近似正確的情況下偏離初始對齊太多奥邮。剩余誤差定義為配準點云所有最近點對到表面模型的平均歐氏距離万牺。用所有點云的平均剩余誤差作為深度預測的精度估計罗珍。
在與SfM相關的評估中,使用SfM估計有效攝像機姿態(tài)的所有測試患者的視頻幀脚粟。首先從SfM結果生成稀疏深度圖覆旱。為了進行公平的比較,所有深度預測都首先使用相應的稀疏深度圖進行重新縮放核无,使用深度縮放層來匹配深度預測的比例和SfM結果扣唱。由于SfM結果的尺度不確定性,我們只使用通用的尺度不變度量進行評估团南。指標是絕對的相對差異(定義為:)和閾值(它被定義為: of y ,三個不同的 1.25,1.252,和1.253 [15])噪沙。這些度量僅在稀疏深度圖中的有效位置和深度預測中的相應位置上進行評估。
從SfM重構的稀疏性來看吐根。每個稀疏重構的點數為4687(6276)正歼。對SfM的點可見性信息進行平滑處理后,稀疏重建得到每張圖像的投影點數為1518(1280)拷橘。給定向下采樣的圖像分辨率局义,這意味著稀疏形式數據中1.85(1.56)%的像素具有有效信息。在訓練和應用階段膜楷,從視頻中提取的所有圖像被裁剪掉旭咽,去除無效的空白區(qū)域,并向下采樣到256 320的分辨率赌厅。在數據預處理部分穷绵,平滑點可見性信息的范圍設置為30。從同一序列中隨機選取兩幀并反饋給雙枝訓練網絡的幀間隔設置為[5,30]特愿。我們在實驗過程中使用了大量的數據擴充仲墨,使訓練數據盡可能無偏差地分布到特定的病人或攝像機上,例如:隨機亮度揍障,隨機對比度目养,隨機伽馬,隨機HSV移位毒嫡,高斯模糊癌蚁,運動模糊,jpeg壓縮兜畸,高斯噪聲努释。在網絡訓練中,我們使用了動量設置為0.9的隨機梯度下降(SGD)優(yōu)化并且學習速率從到的循環(huán)學習速率調度器[26]咬摇。批量大小設置為8伐蒂。生成的σ柔軟稀疏的面具被設置為點的平均軌道長度從SfM稀疏重建。深度縮放層設置為肛鹏。我們共訓練了80個epoch的網絡逸邦。λ1總是20.0恩沛。前20個epoch,λ2設置為0.1主要用于SFL初始收斂缕减。剩下的60個epoch,λ2設置為5.0添加更多的幾何約束來調整網絡雷客。
3-B Cross-patient研究
為了證明我們的方法的普遍性,我們進行了4個“遺漏”實驗烛卧,分別在評估訓練期間遺漏了患者2佛纫、3、4和5总放。其他患者的數據不用于評估由于缺少相應的CT掃描。定量評價結果如圖4 (a)所示好爬,我們的方法實現了所有測試重構的亞毫米殘差局雄。來自所有4個測試患者的測試幀的平均殘余誤差是0.40( 0.18)毫米。為更好地理解重建的準確性,使用Leonard 等人[1],提出的平均誤差是0.32( 0.28)毫米(在相同的SfM算法,可以用來訓練數據評估)存炮。我們使用相同的臨床數據,評估他們的在這工作炬搭。因此,盡管我們的重構是單視圖估計的穆桂,但我們的方法與SfM算法[1]的性能相當宫盔。
3-C比較研究
我們對兩種典型的自監(jiān)督深度估計方法[14]叶沛、[15]進行了性能比較研究蒲讯。我們使用了這兩種方法的原始實現,只是做了少許修改灰署,在計算訓練期間的損失時判帮,我們省略了內窺鏡圖像的黑色無效區(qū)域。在圖3中溉箕,我們展示了三種方法有代表性的定性結果晦墙。在圖5中,我們將三種方法的一個視頻幀的注冊點云覆蓋在CT表面模型上肴茄。我們也與這些方法進行了定量比較晌畅。表1中使用了與SfM相關的評估,顯示了三種方法深度預測的評估結果寡痰,表明我們的方法在很大程度上優(yōu)于兩種競爭方法抗楔。注意棋凳,所有來自患者2、3连躏、4和5的視頻幀都用于評估剩岳。對于這個評估,在跨患者研究中所有四個訓練過的模型都被用來為每個相應的測試患者生成深度預測入热,以測試我們的方法的性能拍棕。對于Zhou等和Yin等人,評估模型在訓練過程中看到所有患者勺良,除了患者4的數據绰播。因此,這是一個比較有利于競爭的方法尚困。競爭方法在訓練和測試數據集上的糟糕表現表明幅垮,并不是過度擬合導致了模型性能的下降。而是這兩種方法都不能使網絡有效地利用未標記的內窺鏡數據中的信號尾组。圖4 (b)的箱線圖顯示了與CT表面模型的比較結果。為了便于實驗示弓,僅使用患者4的數據進行評估讳侨。我們的重構平均殘差為0.38 (0.13)mm, Zhou等的殘差為1.77 (1.19)mm, Yin等的殘差為0.94 (0.36)mm。
我們認為兩種比較方法性能較差的主要原因是選擇了主驅動力來實現自監(jiān)督深度估計奏属。Zhou等人選擇L1損失來加強兩幀之間的光度一致性跨跨。這假設了一個區(qū)域的外觀不會隨著視點的改變而改變,而在單眼內窺鏡檢查中囱皿,光源與攝像機共同移動的情況則不同勇婴。Yin等人使用結構相似度損失和L1損失的加權平均值。SSIM不太容易受到亮度變化的影響嘱腥,注重紋理的差異耕渴。然而,由于在SSIM中只使用圖像補片的簡單統計來表示紋理齿兔,對于紋理稀少且質地均勻的情況橱脸,如竇內窺鏡和結腸鏡檢查,其表達度不足以避免訓練時局部極小化的不良分苇。這對于竇內窺鏡檢查中出現的組織壁尤其正確添诉,在那里我們觀察到錯誤的深度預測。
3-D 燒蝕研究
為了評估損失分量的影響(如SFL,DCL),僅使用患者4的SFL訓練網絡進行測試今野。在與患者4的交叉患者研究中訓練的模型用于比較葡公。由于DCL不能單獨訓練出具有有意義結果的模型,因此我們不能單獨評估它的性能条霜。定性(圖6)和定量(圖4 (b))結果表明催什,SFL和DCL聯合訓練的模型比單純SFL訓練的模型有更好的性能。從病人4的評估結果數據,平均殘差模型的訓練與SFL是0.47(0.10)毫米宰睡。SfM相關的評價,指標包括絕對的值相對偏差,閾值測試在分別為0.14,0.81,0.98,1.00蒲凶。相比之下,使用SFL和DCL訓練的模型平均殘差為0.38 (0.13)mm拆内,相同度量的值分別為0.13旋圆、0.85、0.98麸恍、1.00灵巧,與只使用SFL訓練的模型相比,有輕微的改善抹沪。值得注意的是刻肄,稀疏深度圖是不均勻分布的,通常很少有有效的點來評估組織壁融欧,DCL對這一點的幫助最大敏弃。因此,與SfM相關的評價中所觀察到的改進并不像與CT數據相關的評價中平均殘差那么大蹬癌。
4討論
提出的方法不需要任何標記數據的訓練权她,并普遍適用于內窺鏡和病人。該方法最初是針對竇內窺鏡檢查數據而設計和評價的逝薪,但我們相信它也適用于其他解剖結構的單目內窺鏡檢查隅要。然而,我們的方法仍然存在一些局限性董济,需要在未來的工作中加以解決步清。首先,我們的方法的訓練階段依賴于SfM的重建和相機姿態(tài)。一方面廓啊,這意味著我們的方法將隨著更先進的SfM算法的出現而不斷發(fā)展和改進欢搜。另一方面,這意味著我們的方法不適用于SfM不能產生合理結果的情況谴轮。雖然我們的方法在一定程度上可以容忍SfM的隨機誤差和離群值炒瘟,但是如果大量的系統誤差發(fā)生在數據中,而這些誤差可能發(fā)生在高度動態(tài)的環(huán)境中第步,那么我們的方法很可能會失敗疮装。其次,我們的方法只生成全局范圍內的稠密深度地圖粘都。在需要全局范圍的場景中廓推,需要在應用程序階段提供額外的信息來恢復全局范圍。這是可以做到的翩隧,比如通過測量已知大小的物體或使用外部跟蹤設備樊展。在幀間幾何約束方面,與我們的工作同時堆生,[16]提出了三維ICP損失來加強兩個深度預測的幾何一致性专缠。由于在計算損失時使用的迭代最近點(ICP)是不可微的,因此他們使用點云在收斂時的配準殘差作為兩個深度預測的差值近似值淑仆。與3D ICP損失相比藤肢,DCL有兩個優(yōu)點。首先糯景,它能夠處理兩個深度預測之間的誤差,而這兩個深度預測可以通過嚴格的轉換得到補償省骂。其次蟀淮,它不涉及配準方法,當配準失敗時钞澳,配準方法可能會為訓練帶來錯誤的信息怠惶。由于3D ICP 損失的實施還沒有發(fā)布,所以在本文中沒有進行比較轧粟。最近策治,類似的幾何一致性損失[27]被提出,這是我們工作[5]的后續(xù)兰吟。在評價方面通惫,與CT數據相關的評價中報告的平均殘差會導致低估誤差。這是因為殘差是使用已配準的點云與CT表面模型之間的最近點對來計算的混蔼。由于最近點對之間的距離總是小于或等于真實點對之間的距離履腋,因此總體誤差將被低估。根據SfM的精度,與SfM相關的評價可以更好地代表在稀疏深度圖中具有有效對應關系的深度預測區(qū)域的真實精度遵湖。但該方法存在一個缺點悔政,即在稀疏深度圖中不存在有效對應的區(qū)域不被計算。只有將視頻的攝像機軌跡準確地記錄到CT表面模型中延旧,才能獲得準確的精度估計值谋国,而這正是我們目前所缺乏的,并將作為未來的研究方向迁沫。
5結論
在這項工作中芦瘾,我們提出了一種自監(jiān)督的方法來訓練卷積神經網絡在單目內窺鏡中進行稠密深度估計,而不需要任何解剖學或陰影的先驗建模弯洗。據我們所知旅急,這是第一種基于深度學習的自監(jiān)督深度估計方法。我們的方法在訓練階段只需要單目內窺鏡視頻和多視點立體方法牡整。與大多數自監(jiān)督深度估計的競爭方法相比藐吮,我們的方法不假定光度恒常性,使其適用于內窺鏡檢查逃贝。在一項跨患者研究中谣辞,我們證明了我們的方法可以很好地推廣到不同的患者,即使是在其他幾個患者的少量未標記的訓練數據上進行訓練沐扳,也能獲得亞毫米級的殘留誤差泥从。在一項比較研究中,我們表明我們的方法在體內竇內窺鏡數據上比最近的兩種自我監(jiān)督深度估計方法有很大的優(yōu)勢沪摄。在未來的工作中躯嫉,我們計劃將單幀深度地圖融合成一個完整的3D模型,使其更適合于臨床解剖研究和手術導航等應用杨拐。