Dense Depth Estimation in Monocular Endoscopy with Self-supervised Learning Methods

Xingtong Li, Ayushi Sinha, Masaru Ishii, Gregory D. Hager, Fellow, IEEE, Austin Reiter,
Russell H. Taylor, Fellow, IEEE, and Mathias Unberath
摘要——我們提出一個自監(jiān)督的方法用來稠密地估計深度怒详，這個模型利用單目內窺鏡數據而不用一個解剖學和造影的先驗模型蝗岖。我們的方法只需要單目內窺鏡視頻和多視點立體視覺方法以稀疏的方式監(jiān)督學習，例如從運動得到結構。因此屡萤，我們的方法在訓練和應用階段既不需要人工標記姻氨，也不需要患者計算機斷層掃描(CT)。在以CT掃描為基礎的跨患者實驗中缕溉，該方法實現了亞毫米的平均殘差考传。在一項比較研究中，將近期在自然視頻自監(jiān)督深度估計方法設計在體內竇內窺鏡數據中证鸥，我們證明了我們提出的方法比以前的方法有很大的優(yōu)勢僚楞。這項工作的源代碼可以在https://github.com/lppllppl920/endoscopydepthestiming-pytorch上找到赐写。

1.簡介

頭部和頸部的微創(chuàng)手術挺邀，比如在功能性內窺鏡鼻竇手術中，通常使用手術導航系統為外科醫(yī)生提供額外的解剖學和位置信息疲眷。這有助于他們避開關鍵的結構换淆，這些結構在空間上靠近竇腔并且在手術中不能被干擾，如大腦易猫、眼睛和大動脈∪烈眩基于計算機視覺的導航系統依賴于術中內窺鏡視頻流，不需要引入額外的硬件峡眶，既易于集成到臨床工作流程中，又具有成本效益狮暑。此類系統通常需要將術前數據(如CT掃描或統計模型)配準到術中視頻數據[1][4]拣展。這種配準必須具有較高的精度，以保證導航系統的可靠性能瓜喇。為了實現準確的配準，一種基于特征的視頻- CT配準算法需要精確且足夠稠密的內鏡視頻手術三維重建伞辛。由于鏡面反射率、缺乏跨框架的光度恒常性竿滨、組織變形等問題，獲得這樣的重建并非易事贰剥。

1-A貢獻

在這篇論文中，我們在之前的工作[5]的基礎上担忧，提出了一種用于單幀稠密深度估計的自監(jiān)督學習方法。我們的貢獻如下:(1)據我們所知坡锡，這是第一個在訓練和應用階段都只需要單目內窺鏡圖像的基于深度學習的稠密深度估計方法帆锋。特別是，它既不需要任何手動數據標記实辑、縮放，也不需要任何其他成像方式，如CT梨水。(2)提出了幾種新的網絡損失函數和網絡層，他們利用傳統多視點立體視覺方法中的信息，在不要求光度恒常性的情況下逼龟，增強視頻幀之間的幾何關系。(3)我們證明我們的方法可以很好地在不同的患者和內窺鏡相機中推廣。

1-B相關工作

在內窺鏡檢查中之斯，已經探索了幾種估算深度的方法莉擒。這些方法可以分為傳統的多視點立體視覺算法和基于全監(jiān)督學習的方法。

在特征豐富的場景中，多視點立體視覺方法（如來自運動的結構(SfM)[1]和同步定位與映射(SLAM)[6]）能夠在估計相機姿態(tài)的同時翅帜，對三維結構進行重建。然而，內窺鏡解剖圖像特征的缺乏會導致這些方法產生稀疏和不均勻分布的重建腋妙。這個缺點反過來會導致不準確的配準济竹。Mahmoud等人提出了一種基于準稠密SLAM的方法，該方法從最先進的SLAM系統[7]中探索稀疏重建的局部信息袭景。該方法對經典SLAM系統的稀疏重構進行了密集處理报辱，具有較高的精度与殃。然而，由于圖像塊的歸一化交叉相關匹配，該方法對超參數具有潛在的敏感性幅疼。

卷積神經網絡(CNN)在高復雜度問題中顯示出良好的效果米奸，包括一般場景深度估計[8]在內，[8]從局部和全局上下文信息和多層表示中獲益衣屏。然而狼忱，在內窺鏡視頻中以完全監(jiān)督的方式使用CNN是具有挑戰(zhàn)性的复凳，因為很難獲得與真實內窺鏡圖像直接對應的稠密的地面真值深度圖。有幾個基于模擬的工作試圖解決這一挑戰(zhàn)须床，他們通過訓練從病人特定的CT數據生成的合成稠密深度圖耘分。Visentini-Scarzanella等人使用CT數據的無紋理內窺鏡視頻模擬來訓練一個完全監(jiān)督的深度估計網絡，并依靠另一個轉碼器網絡將真實的視頻幀轉換為用于深度預測[9]所需的紋理無關的幀泳猬。這種方法需要對狹窄的管狀結構進行內鏡光度校準和復雜配準坡氯。此外瞬欧，目前還不清楚這種方法是否適用于活體圖像候生，因為驗證僅限于兩個肺結節(jié)晤愧。Mahmood等人從CT數據中模擬成對的彩色圖像和稠密深度圖忘蟹，用于深度估計網絡訓練坷牛。在應用階段，他們使用生成對抗網絡將真實的內窺鏡圖像轉換成類似于模擬的圖像忙干，然后將其輸入到經過訓練的深度估計網絡[10]。在他們的工作中，通過簡單地模仿模擬圖像的外觀褐缠，但不知道目標任務（如深度估計）遏佣，對轉換網絡單獨訓練，這可能導致性能下降到不正確的深度估計揽浙。除了基于模擬的方法状婶，基于硬件的解決方案的存在可能是有利的意敛，因為它們通常不依賴于術前成像方式[11]，[12]膛虫。然而草姻，將深度或立體相機納入內窺鏡是具有挑戰(zhàn)性的，即使有可能稍刀，由于組織的非朗伯反射特性和特征的缺乏撩独，這些相機仍然可能無法從內鏡場景中獲得足夠稠密和準確的深度圖，用于進行完全監(jiān)督訓練账月。

在計算機視覺領域[13][16]中综膀，提出了幾種用于單幀深度估計的自監(jiān)督方法。然而局齿，根據我們的觀察和實驗剧劝，由于以下幾個原因，這些方法不適用于內窺鏡檢查抓歼。首先讥此，在他們的工作中假定的幀間光度恒常性在內窺鏡檢查中是不可用的。相機和光源是共同運動的锭部，因此暂论，在不同的相機姿勢下，同一解剖結構的外觀可能會發(fā)生很大的變化拌禾，特別是在靠近相機的區(qū)域。其次展哭，根據[15]的觀察湃窍，基于外觀的翹曲損失受到梯度局部性的影響。這可能導致網絡訓練陷入糟糕的局部極小值匪傍，特別是對于沒有紋理的區(qū)域您市。與自然圖像相比，內窺鏡檢查中觀察到的組織整體上更稀少役衡、質地更均勻茵休，使得網絡從光度學外觀獲取可靠信息變得更加困難，如鼻竇內窺鏡和結腸鏡檢查手蝎。此外榕莺，從單目圖像估計全局尺度本身就是模糊的[17]。在自然圖像中棵介，尺度可以通過對普通物體大小的先驗知識來估計钉鸯，但在內窺鏡檢查中沒有這樣的視覺線索，特別是在沒有儀器的圖像中邮辽。因此唠雕，試圖將估計深度和相機姿態(tài)與正確的全局尺度的聯合是不大可能工作在內窺鏡贸营。

上述第一點和第二點表明，最近的自監(jiān)督方法不能使網絡在沒有照明恒常性的成像模式中捕獲空間或時間維度的長期相關性岩睁，如內窺鏡檢查钞脂。另一方面，傳統的多視點立體視覺方法（如SfM）能夠利用照度不變的特征描述符（如尺度不變特征變換SIFT）捕儒，顯式地捕獲長程通信和全局優(yōu)化（光束法平差）芳肌。我們認為基于SfM的稀疏重建估計和相機姿態(tài)估計是有價值的，應納入單目深度估計的網絡訓練中肋层。我們提出了新的網絡損失函數和層亿笤，他們使來自SfM的信息能夠集成，并加強不同視點深度預測之間的固有幾何約束栋猖。由于這種方法考慮了相對的攝像機和場景的幾何形狀净薛，所以它不假定光照恒定。這使得我們的整體設計適合于光穩(wěn)定性無法保證的場景蒲拉。由于基于單目相機的全局尺度估計方法存在固有的困難肃拜，我們選擇只估計全球尺度下的深度地圖。這不僅使SfM的結果能夠自監(jiān)督學習雌团，真實的全局范圍的尺度無法估計燃领，而且使訓練有素的網絡可推廣到不同的病人和范圍的相機，這是由我們的實驗證實锦援。在第二部分中猛蔽，我們將介紹我們在數據準備、網絡架構和損失設計方面的方法灵寺。實驗設置和結果在第三節(jié)中進行了演示曼库，我們證明了我們的方法在不可見的病人和攝像機上是有效的。此外略板，我們的方法在體內竇內窺鏡數據上比最近的兩種自我監(jiān)督深度估計方法有很大的優(yōu)勢毁枯。在第四部分和第五部分，我們討論了我們工作的局限性和未來探索的方向叮称。

2.方法

在本節(jié)中种玛，我們描述了在單目內窺鏡中使用來自SfM的稀疏自監(jiān)督信號訓練卷積神經網絡用于稠密深度估計的方法。我們解釋了如何從單目內窺鏡視頻中提取自監(jiān)督信號瓤檐，并介紹了我們的新網絡結構和損失函數赂韵，使基于這些信號的網絡訓練成為可能。整體訓練架構如圖1所示距帅，本節(jié)將介紹所有概念右锨。總的來說碌秸，網絡訓練依靠損失函數以梯度的形式反向傳播有用的信息來更新網絡參數绍移。損失函數包括稀疏流損失和深度一致性損失悄窃。為了利用這兩個損失來指導深度估計的訓練，需要幾種類型的輸入數據蹂窖。輸入數據為內窺鏡視頻幀轧抗、相機位姿與內參、稀疏深度圖瞬测、稀疏軟掩模横媚、稀疏流圖，他們在訓練數據部分介紹月趟。最后灯蝴，為了將單目深度估計得到的網絡預測轉換成合適的損失計算形式，使用了幾個自定義層孝宗。自定義層有深度縮放層穷躁、深度扭曲層和來自深度層的流，這些將在網絡架構部分中介紹因妇。

網絡體系結構问潭。我們在訓練階段的網絡(上部)是一個自監(jiān)督的雙分支暹羅網絡。從相同的視頻序列中隨機選取兩幀j和k作為雙分支網絡的輸入婚被。為了確保兩幀之間有足夠的區(qū)域重疊狡忙，幀間隔在指定的范圍內。圖中的所有概念在第二節(jié)中介紹址芯。紅色虛線箭頭表示數據丟失對應關系灾茁。扭曲的深度圖從k j描述地圖的縮放深度k從幀j的視角。密集流從j, k映射描述了二維投影運動的三維場景從幀j到幀k是复。在應用階段(底部),我們使用的訓練權證單幀深度評估架構,這是一個修改版本的架構在[18],來預測一個準確到全局尺度的稠密深度圖删顶。

訓練數據生成管道。該管道能夠從視頻序列中自動生成訓練數據淑廊。圖中的符號是在訓練數據部分定義的。圖中所示的綠點為稀疏重建的投影2D位置特咆。這些投影的2D位置用于存儲所有稀疏形式數據的有效信息季惩，即稀疏深度圖、稀疏軟掩模腻格、稀疏流圖画拾。稀疏深度圖將稀疏重建的z軸距離存儲在相機坐標中。稀疏軟掩模存儲軟權值菜职，表示稀疏重建中各個點的置信度青抛。稀疏流圖存儲了兩幀之間稀疏重建的投影位置的移動。圖的第二行顯示了稀疏深度圖和稀疏流圖的生成酬核，其中使用了兩個投影位置的示例來演示這個概念蜜另。青綠色的箭頭用來表示兩幀之間的點對應适室。注意，稀疏形式的數據不包括用于幫助圖形可視化的視頻的顏色信息举瑰。

2-A訓練數據

我們的訓練數據來自未標記的內窺鏡視頻捣辆。管道如圖2所示。該管道是全自動的此迅，提供內窺鏡和校準視頻汽畴，原則上用基于slam的方法取代SfM可以實時計算。

數據預處理耸序。首先利用從相應的標定視頻中估計出的畸變系數對視頻序列進行無畸變處理忍些。在不失真的視頻序列中，通過SfM[1]估計稀疏重建坎怪、攝像機姿態(tài)和點可見性罢坝，忽略視頻幀中的黑色無效區(qū)域。為了去除稀疏重建中的極端異常點芋忿，采用點云濾波炸客。點可見性信息如下圖b所示，通過利用視頻中攝像機的連續(xù)運動進行平滑處理戈钢。下面介紹從SfM結果生成的稀疏形式數據痹仙。
稀疏深度圖。單目深度估計模塊殉了，如圖1所示开仰，只預測全局尺度的深度。然而薪铜，為了使損失計算有效众弓，深度預測的尺度和SfM結果必須匹配。因此隔箍，本文引入的稀疏深度圖作為錨點谓娃，在深度定標層進行深度預測。為了生成稀疏深度圖蜒滩，將SfM稀疏重建的三維點投影到具有攝像機姿態(tài)滨达、內參和點可見性信息的圖像平面上。攝像機固有內參矩陣為 $K$ 俯艰，幀 $j$ 相對于世界坐標的攝像機位姿為 $T_w^j$ 捡遍，其中 $w$ 為世界坐標系。世界坐標中稀疏重建的第n個三維點的齊次坐標為 $p_n^w$ 竹握，注意画株， $n$ 可以是稀疏重建中任意一點的索引。幀系數用于下列方程（例如 $j$ 和 $k$ ）可以是相同視頻序列中的任意指標。 $j$ 和 $k$ 的差值在規(guī)定的范圍內谓传，以保持足夠的區(qū)域重疊蜈项。3D點 $n$ 和 $j$ 的對應關系為 $p_n^j=T_w^kp_n^w$ (1)
第n個3D點w.r.t 幀 $j$ , $z_n^j$ 的深度為 $p^j_n$ 的z軸分量，第n個3D點w.r.t 幀 $j$ , $u^j_n$ 的2D投影位置為 $u^j_n=K{p^j_n\over z_n^j}$ (2)
我們用 $b^j_n = 1$ 表示第n個3D點在幀 $j$ 中是可見的良拼，用 $b^j_n = 0$ 表示不可見的战得。注意，來自SfM的點可見性信息用于將值賦給 $b^j_n$ 庸推。幀 $j$ , $Z_j^s$ 的稀疏深度映射為
$Z_j^s(u^j_n)= \begin{cases} z_n^j & \text{if $b_n^j=1$}\\ 0 & \text{if $b_n^j=0$} \end{cases}$
s代表“稀疏的”常侦。注意，對于等式在訓練數據部分贬媒，它們描述了稀疏重建項目點所在區(qū)域的賦值聋亡。對于沒有點投射到的區(qū)域，值設置為零际乘。

稀疏流圖坡倔。稀疏流圖用于下面介紹的稀疏流損失。之前脖含，我們直接使用稀疏深度圖進行損失計算[5]來利用稀疏重構的自監(jiān)督信號罪塔。這使得一幀的訓練目標（深度圖）是固定的，并且可能有偏差。與稀疏深度圖不同的是，稀疏流圖描述了稀疏重建的二維投影運動辆脸，該運動涉及到兩個具有隨機幀間隔的輸入幀的攝像機姿態(tài)崎溃。將攝像機軌跡與稀疏重建相結合框仔，考慮所有成對的幀組合，一幀新目標（深度圖）的誤差分布更有可能是無偏的。這使得網絡受訓練數據中隨機噪聲的影響較小。我們觀察到谐算，對于用SFL訓練的模型，深度預測具有自然的平滑性和邊緣保持性归露，從而消除了訓練過程中顯式正則化的需要洲脂，如 Zhou等人提出的[14]和Yin等人提出的[15]。
稀疏流圖 $F_{j,k}^ s$ 表示稀疏重建從 $j$ 幀到 $k$ 幀的二維投影運動剧包。
$F_{j,k}^ s(u^j_n)= \begin{cases} {{u_n^k - u_n^j} \over {(W,H)^T}}& \text{if $b_n^j=1$}\\ 0 & \text{if $b_n^j=0$} \end{cases}$ H和W分別是框架的高度和寬度

稀疏柔軟的掩膜腮考。稀疏掩碼使網絡能夠利用稀疏數據中的有效稀疏信號，而忽略其余無效區(qū)域玄捕。該方法在訓練前定義了軟權值，并考慮了SfM結果中各點的誤差分布不同這一事實棚放，減輕了SfM重構誤差的影響枚粘。它的設計是基于這樣一種直覺，即在SfM的束平差中飘蚯，使用更多的幀來三角化一個3D點通常意味著更高的精度馍迄。稀疏軟掩模用于下面介紹的SFL福也。定義幀 $j$ , $M_j$ 的稀疏軟掩模為
$M_j(u^j_n)= \begin{cases} 1 - e^{-\sum_i b_n^i/\sigma}& \text{if $b_n^j=1$}\\ 0 & \text{if $b_n^j=0$} \end{cases}$ $i$ 遍歷應用SfM的視頻序列中的所有幀。σ是超參數基于幀的平均數量在SfM用來重建每個稀疏的點攀圈。

2-B網絡結構

我們的整體網絡架構如圖1所示暴凑，包括一個訓練階段的雙分支Siamese網絡[19]。它依靠SfM的稀疏信號和兩幀之間的幾何約束來學習預測單一內窺鏡視頻幀的稠密深度圖赘来。在應用階段现喳，網絡具有簡單的單分支架構，用于從單個幀進行深度估計犬辰。下面的所有自定義層都是可微的嗦篱，因此可以以端到端方式對網絡進行訓練。

單目深度估計幌缝。這個模塊使用了[18]中57層架構的一個修改版本灸促，稱為DenseNet，它通過廣泛重用前面的特征圖來大量減少網絡參數涵卵，從而達到與其他流行架構相當的性能浴栽。我們將最后一個卷積層的通道數改為1，并將最后一個激活部分log-softmax替換為線性激活轿偎，使其適合深度預測任務典鸡。我們還用最近鄰上采樣和卷積層來代替網絡上采樣部分的反卷積層，來減少最終輸出[20]的checkerboard artifact贴硫。

深度擴展層椿每。這一層用于匹配單目深度估計的深度預測尺度和相應的SfM結果，可以進行正確的損失計算英遭。注意间护，下列方程的所有運算都是按元素順序進行的，除了這里的 $\sum$ 是對映射中所有元素的求和挖诸。 $Z_j^{'}$ 是幀 $j$ 的深度預測汁尺，在一定范圍內是正確的。幀 $j$ , $Z_j$ 的深度按比例預測為
$Z_j = ({1\over\sum M_j}{\sum (M_j {Z_j^s\over Z_j^{'}+ \epsilon})})Z_j^{'}$ $\epsilon$ 是避免除零的超參數多律。

從深度層得到流痴突。為了使用由SfM結果生成的稀疏流圖來指導后面描述的SFL網絡訓練，首先需要將縮放后的深度圖轉換為具有相對攝像機姿態(tài)和內參矩陣的稠密流圖狼荞。這一層類似于在[15]中提出的辽装，他們使用生成的稠密流圖作為光流估計網絡的輸入。在這里相味，我們使用它來進行深度估計訓練拾积。稠密流圖本質上是一個描述三維視點變化的二維位移場。給出 $j$ 幀的深度縮放圖和 $k$ 幀w.r.t. $j$ 的相對攝像機位姿， $T^k_j = (R_j^k, t^k_j)$ 拓巧，可以得到 $j$ 幀與 $k$ 斯碌、 $F_{j、k}$ 之間的稠密流圖肛度。為了以可并行和可微的方式演示這些操作傻唾，下面的方程用矩陣形式描述。幀 $j$ 中的2D位置(U, V)被組織成一個規(guī)則的2D網格承耿。第 $k$ 幀對應的2D位置為(Uk, Vk)冠骄，與第 $j$ 幀的空間布局相同。(Uk, Vk)如下
$U_k = {{Z_j(A_{0,0}U + A_{0,1}V + A_{0,2}) + B_{0,0}}\over {Z_j(A_{2,0}U + A_{2,1}V + A_{2,2}) + B_{2,0}}}$ $V_k = {{Z_j(A_{1,0}U + A_{1,1}V + A_{1,2}) + B_{1,0}}\over {Z_j(A_{2,0}U + A_{2,1}V + A_{2,2}) + B_{2,0}}}$ 作為一個規(guī)則的網格瘩绒，U由H行組成[0,1猴抹，… W-1]，而V由W列組成 $[0,1锁荔，…H-1]^T$ 蟀给。 $A = KR_j^kK^{-1}, B = -Kt^k_j$ . $A_{m,n}$ 和 $B_{m,n}$ 分別是A和B在(m, n)位置的元素。描述從幀j到幀k的二維位移場的稠密流圖 $F_{j,k}$ 為
$F_{j,k}=({{U_k - U}\over W},{{V_k -V}\over H}) (8)$

變形層深度阳堕。稀疏流圖主要提供幀區(qū)域的引導跋理，其中來自SfM的稀疏信息被投影到幀區(qū)域√褡埽考慮到大多數幀只有一小部分像素的值在稀疏流圖中是有效的前普，大多數區(qū)域仍然沒有得到正確的引導。利用相機的運動特性和相機的內參特性壹堰，可以利用兩幀之間的幾何約束來加強兩個相應深度預測之間的一致性拭卿。從直觀上看，由相鄰兩幀預測得到的稠密深度圖是相關的贱纠，因為觀測區(qū)域之間存在重疊峻厚。為了使以后描述的深度一致性損失中的幾何約束可微分，深度預測的視點必須首先對齊谆焊。因為稠密流圖描述了一個二維投影觀察3D場景的運動, $U_k$ 和 $V_k$ 上面描述可用于改變的角度深度 $Z_k$ 從 $k$ 幀 $j$ 與一個額外的步驟,即修改 $Z_k$ 描述深度值改變時由于視角改變惠桃。修改后幀k的深度圖 $\overline Z_k$ ,
$\overline Z_k = Z_k{(C_{2,0}U + C_{2,1}V + C_{2,2}) + D_{2,0}}$ $C=KR_k^jK^{-1},D=Kt^j_k$ [21]中的雙線性采樣器使用 $U_k$ , $V_k$ 和 $\overline Z_k$ ，能夠生成從k幀視角扭曲到j幀視角的稠密深度圖 $\hat Z_{k,j}$

2-C損失函數

我們提出了一種利用自監(jiān)督信號的新損失方法辖试，并在兩幀深度預測之間加強幾何一致性辜王。

稀疏流動損失(SFL)。為了生成與SfM稀疏重構一致的正確的稠密深度圖罐孝，對網絡進行了訓練呐馆，使稠密流圖與相應的稀疏流圖之間的差異最小化。這種損失是尺度不變的莲兢，因為它考慮了二維投影運動在像素單位上的差異摹恰，這解決了SfM結果任意尺度造成的數據不平衡問題辫继。與坐標系 $j$ 和 $k$ 相關的SFL計算為
$L_{flow }(j, k) = {1 \over {\sum M_j}}{\sum {(M_j|F^s_{j,k} - F_{j,k}|)}}+{1 \over {\sum M_k}}{\sum {(M_k|F^s_{k,j} - F_{k,j}|)}}$
深度一致性損失(DCL)。僅來自SFL的稀疏信號無法提供足夠的信息俗慈，使網絡能夠推斷出沒有可用的稀疏注釋的區(qū)域。因此遣耍，我們在兩個獨立的預測深度地圖之間實施幾何約束闺阱。與幀j和k相關的DCL被計算為
$L_{consist}(j,k) = {\sum {W_{(j,k)}(Z_j - \hat Z_{k,j})^2}\over \sum{W_{j,k}(Z_j^2 + \hat Z_{k,j}^2)}} + {\sum {W_{(k,j)}(Z_k - \hat Z_{j,k})^2}\over \sum{W_{k,j}(Z_k^2 + \hat Z_{j,k}^2)}}$ $W_{j, k}$ 是有效的交集區(qū)域 $Z_j$ 和稠密深度圖 $\hat Z _{j, k}$ (從幀k扭曲到角度幀j)。因為SfM結果包含任意全局尺度,所以損失只懲罰兩個密集深度映射之間的相對差異以避免數據的不平衡舵变。

整體損失酣溃。對于來自幀j和k的單對訓練數據，網絡訓練的總體損失函數為
$L_{j,k} = \lambda _1 L_{flow}(j,k) + \lambda _2 L_{consist}(j,k)$

3.實驗和結果

3-A 實驗設置

所有的實驗都是在一個帶有4個NVIDIA Tesla M60 GPU的工作站上進行的纪隙，每個GPU都有8gb的內存赊豌。該方法是使用PyTorch[23]實現的。數據集包含10個不同內窺鏡獲得的竇內窺鏡矯正視頻绵咱。這些視頻收集自8名匿名且自愿的患者和2具尸體碘饼，根據IRB批準的方案。視頻的總時長約為30分鐘悲伶。在下面所有的無干擾實驗中艾恼，8名患者中有7名的數據被用于訓練。來自2具尸體的數據用于驗證麸锉，而被遺漏的病人用于測試钠绍。

我們根據驗證數據集上的網絡損失來選擇經過訓練的模型進行評估』ǔ粒總的來說柳爽，進行了兩種類型的評估。一種是將深度預測轉換成的點云與CT數據對應的表面模型進行比較碱屁。另一種方法是直接將深度預測與相應的由SfM結果生成的稀疏深度圖進行比較磷脯。

對于與CT數據相關的評估，我們選擇20幀忽媒，每個測試患者都有足夠的解剖變異争拐。深度預測被轉換成點云。在配準前對點云的初始全局尺度和姿態(tài)進行人工估計晦雨。為此架曹，我們在點云和相應的CT表面模型中選取了相同的解剖標志。使用迭代最有可能定向點(IMLOP)算法[25]將來自每個點云的3000個均勻采樣點配準到患者CT掃描[24]生成的相應表面模型中闹瞧。在優(yōu)化過程中绑雄，我們修改了配準算法來估計帶有硬約束的相似變換。這個約束是為了防止點云在初始對齊近似正確的情況下偏離初始對齊太多奥邮。剩余誤差定義為配準點云所有最近點對到表面模型的平均歐氏距離万牺。用所有點云的平均剩余誤差作為深度預測的精度估計罗珍。

在與SfM相關的評估中，使用SfM估計有效攝像機姿態(tài)的所有測試患者的視頻幀脚粟。首先從SfM結果生成稀疏深度圖覆旱。為了進行公平的比較，所有深度預測都首先使用相應的稀疏深度圖進行重新縮放核无，使用深度縮放層來匹配深度預測的比例和SfM結果扣唱。由于SfM結果的尺度不確定性，我們只使用通用的尺度不變度量進行評估团南。指標是絕對的相對差異(定義為: ${1\over | T |} \sum {_{y\in T}}| y - y^*| / y^*$ )和閾值(它被定義為: $\%$ of y $s.t$ $max({y_i\over y_i ^*},{y_i^* \over y_i}) < \sigma$ ,三個不同的 $\sigma$ 1.25,1.252,和1.253 [15])噪沙。這些度量僅在稀疏深度圖中的有效位置和深度預測中的相應位置上進行評估。

從SfM重構的稀疏性來看吐根。每個稀疏重構的點數為4687( $\pm$ 6276)正歼。對SfM的點可見性信息進行平滑處理后，稀疏重建得到每張圖像的投影點數為1518( $\pm$ 1280)拷橘。給定向下采樣的圖像分辨率局义，這意味著稀疏形式數據中1.85( $\pm$ 1.56)%的像素具有有效信息。在訓練和應用階段膜楷，從視頻中提取的所有圖像被裁剪掉旭咽，去除無效的空白區(qū)域，并向下采樣到256 $\times$ 320的分辨率赌厅。在數據預處理部分穷绵，平滑點可見性信息的范圍設置為30。從同一序列中隨機選取兩幀并反饋給雙枝訓練網絡的幀間隔設置為[5,30]特愿。我們在實驗過程中使用了大量的數據擴充仲墨，使訓練數據盡可能無偏差地分布到特定的病人或攝像機上，例如:隨機亮度揍障，隨機對比度目养，隨機伽馬，隨機HSV移位毒嫡，高斯模糊癌蚁，運動模糊，jpeg壓縮兜畸，高斯噪聲努释。在網絡訓練中，我們使用了動量設置為0.9的隨機梯度下降(SGD)優(yōu)化并且學習速率從 $1.0 e^{-4}$ 到 $1.0 e^{-3}$ 的循環(huán)學習速率調度器[26]咬摇。批量大小設置為8伐蒂。生成的σ柔軟稀疏的面具被設置為點的平均軌道長度從SfM稀疏重建。深度縮放層設置為 $1.0e^{-8}$ 肛鹏。我們共訓練了80個epoch的網絡逸邦。λ1總是20.0恩沛。前20個epoch，λ2設置為0.1主要用于SFL初始收斂缕减。剩下的60個epoch,λ2設置為5.0添加更多的幾何約束來調整網絡雷客。

3-B Cross-patient研究

為了證明我們的方法的普遍性，我們進行了4個“遺漏”實驗烛卧，分別在評估訓練期間遺漏了患者2佛纫、3、4和5总放。其他患者的數據不用于評估由于缺少相應的CT掃描。定量評價結果如圖4 (a)所示好爬，我們的方法實現了所有測試重構的亞毫米殘差局雄。來自所有4個測試患者的測試幀的平均殘余誤差是0.40( $\pm$ 0.18)毫米。為更好地理解重建的準確性,使用Leonard 等人[1],提出的平均誤差是0.32( $\pm$ 0.28)毫米（在相同的SfM算法,可以用來訓練數據評估）存炮。我們使用相同的臨床數據,評估他們的在這工作炬搭。因此，盡管我們的重構是單視圖估計的穆桂，但我們的方法與SfM算法[1]的性能相當宫盔。

3-C比較研究

我們的方法，Zhou等[14]與Yin等[15]的定性結果比較享完。第一列包含測試和訓練圖像灼芭，其中前3個是測試圖像。第二列和第三列由相應的深度圖和我們方法的重構組成般又。第四彼绷、五列是周等人的作品。最后兩列來自Yin等人茴迁。對于每個顯示的視頻幀寄悯，使用一個稀疏深度圖來重新調整來自三種方法的深度預測。然后使用與圖1相同的深度顏色編碼堕义，用相同的最大深度值對縮放深度預測進行標準化猜旬。用標準泊松曲面重建方法[22]對由深度預測轉換而來的點云進行三維可視化后處理。結果表明倦卖，該方法在測試和訓練兩方面均優(yōu)于Zhou等人的方法洒擦。

圖4所示。(a)交叉病人研究的殘差箱線圖糖耸。檢測患者的id作為橫軸上的標簽秘遏。所有的測試重構都有亞毫米的殘留誤差。(b)殘差箱線圖嘉竟，用于比較研究和消融研究邦危。我們使用來自患者4的數據洋侨，將我們的方法與Zhou等人的[14]和Yin等人的[15]進行了定量比較。我們的方法與其他兩種方法的殘差有統計學意義(p < .001)倦蚪。在消融研究中希坚，使用SFL訓練的模型只與使用SFL和DCL訓練的模型進行比較。

圖5所示陵且。重建配準到病人的CT裁僧。我們的重建與對應的患者CT(左)的比對結果表明，我們的重建與患者CT的輪廓吻合良好慕购，包含很少的異常值聊疲。而同一幀的Zhou等(中)和Yin等(右)的重建圖像與相應的患者CT之間的對齊較差，存在許多異常值沪悲。周等人获洲、尹等人重建的許多點都落在內窺鏡無法進入的區(qū)域內。

表1用絕對相對差和閾值[15]兩個指標評價患者2殿如、3贡珊、4、5的模型性能涉馁。利用SfM結果生成的稀疏深度圖作為groundtruth门岔。我們評估方法的模型是在跨患者研究中使用的模型，這意味著來自所有4名患者的數據在訓練期間沒有被看到烤送。另一方面寒随，Zhou等人、Yin等人的模型在訓練中分別觀察了患者2胯努、3牢裳、5的數據。

我們對兩種典型的自監(jiān)督深度估計方法[14]叶沛、[15]進行了性能比較研究蒲讯。我們使用了這兩種方法的原始實現，只是做了少許修改灰署，在計算訓練期間的損失時判帮，我們省略了內窺鏡圖像的黑色無效區(qū)域。在圖3中溉箕，我們展示了三種方法有代表性的定性結果晦墙。在圖5中，我們將三種方法的一個視頻幀的注冊點云覆蓋在CT表面模型上肴茄。我們也與這些方法進行了定量比較晌畅。表1中使用了與SfM相關的評估，顯示了三種方法深度預測的評估結果寡痰，表明我們的方法在很大程度上優(yōu)于兩種競爭方法抗楔。注意棋凳，所有來自患者2、3连躏、4和5的視頻幀都用于評估剩岳。對于這個評估，在跨患者研究中所有四個訓練過的模型都被用來為每個相應的測試患者生成深度預測入热，以測試我們的方法的性能拍棕。對于Zhou等和Yin等人，評估模型在訓練過程中看到所有患者勺良，除了患者4的數據绰播。因此，這是一個比較有利于競爭的方法尚困。競爭方法在訓練和測試數據集上的糟糕表現表明幅垮，并不是過度擬合導致了模型性能的下降。而是這兩種方法都不能使網絡有效地利用未標記的內窺鏡數據中的信號尾组。圖4 (b)的箱線圖顯示了與CT表面模型的比較結果。為了便于實驗示弓，僅使用患者4的數據進行評估讳侨。我們的重構平均殘差為0.38 ( $\pm$ 0.13)mm, Zhou等的殘差為1.77 ( $\pm$ 1.19)mm, Yin等的殘差為0.94 ( $\pm$ 0.36)mm。

我們認為兩種比較方法性能較差的主要原因是選擇了主驅動力來實現自監(jiān)督深度估計奏属。Zhou等人選擇L1損失來加強兩幀之間的光度一致性跨跨。這假設了一個區(qū)域的外觀不會隨著視點的改變而改變，而在單眼內窺鏡檢查中囱皿，光源與攝像機共同移動的情況則不同勇婴。Yin等人使用結構相似度損失和L1損失的加權平均值。SSIM不太容易受到亮度變化的影響嘱腥，注重紋理的差異耕渴。然而，由于在SSIM中只使用圖像補片的簡單統計來表示紋理齿兔，對于紋理稀少且質地均勻的情況橱脸，如竇內窺鏡和結腸鏡檢查，其表達度不足以避免訓練時局部極小化的不良分苇。這對于竇內窺鏡檢查中出現的組織壁尤其正確添诉，在那里我們觀察到錯誤的深度預測。

3-D 燒蝕研究

圖6所示医寿。消融研究的定性結果栏赴。結果包括訓練和測試圖像，其中前2張圖像是在訓練中看到的靖秩。第二列和第三列由相應的深度圖和僅用SFL訓練的模型重建組成须眷。第四列和第五列來自用SFL和DCL訓練的模型竖瘾。結果表明，DCL對訓練和測試用例都有幫助柒爸。它提供了額外的指導准浴，從SfM稀疏重建要么是不準確的地區(qū)（例如，在第一行的投機區(qū)域）或失蹤（例如捎稚，靠近邊界的區(qū)域在第二和第三行）乐横。

為了評估損失分量的影響（如SFL,DCL），僅使用患者4的SFL訓練網絡進行測試今野。在與患者4的交叉患者研究中訓練的模型用于比較葡公。由于DCL不能單獨訓練出具有有意義結果的模型，因此我們不能單獨評估它的性能条霜。定性(圖6)和定量(圖4 (b))結果表明催什，SFL和DCL聯合訓練的模型比單純SFL訓練的模型有更好的性能。從病人4的評估結果數據,平均殘差模型的訓練與SFL是0.47( $\pm$ 0.10)毫米宰睡。SfM相關的評價,指標包括絕對的值相對偏差,閾值測試在 $\sigma= 1.25,1.25^2,1.25^3$ 分別為0.14,0.81,0.98,1.00蒲凶。相比之下，使用SFL和DCL訓練的模型平均殘差為0.38 ( $\pm$ 0.13)mm拆内，相同度量的值分別為0.13旋圆、0.85、0.98麸恍、1.00灵巧，與只使用SFL訓練的模型相比，有輕微的改善抹沪。值得注意的是刻肄，稀疏深度圖是不均勻分布的，通常很少有有效的點來評估組織壁融欧，DCL對這一點的幫助最大敏弃。因此，與SfM相關的評價中所觀察到的改進并不像與CT數據相關的評價中平均殘差那么大蹬癌。

4討論

提出的方法不需要任何標記數據的訓練权她，并普遍適用于內窺鏡和病人。該方法最初是針對竇內窺鏡檢查數據而設計和評價的逝薪，但我們相信它也適用于其他解剖結構的單目內窺鏡檢查隅要。然而，我們的方法仍然存在一些局限性董济，需要在未來的工作中加以解決步清。首先，我們的方法的訓練階段依賴于SfM的重建和相機姿態(tài)。一方面廓啊，這意味著我們的方法將隨著更先進的SfM算法的出現而不斷發(fā)展和改進欢搜。另一方面，這意味著我們的方法不適用于SfM不能產生合理結果的情況谴轮。雖然我們的方法在一定程度上可以容忍SfM的隨機誤差和離群值炒瘟，但是如果大量的系統誤差發(fā)生在數據中，而這些誤差可能發(fā)生在高度動態(tài)的環(huán)境中第步，那么我們的方法很可能會失敗疮装。其次，我們的方法只生成全局范圍內的稠密深度地圖粘都。在需要全局范圍的場景中廓推，需要在應用程序階段提供額外的信息來恢復全局范圍。這是可以做到的翩隧，比如通過測量已知大小的物體或使用外部跟蹤設備樊展。在幀間幾何約束方面，與我們的工作同時堆生，[16]提出了三維ICP損失來加強兩個深度預測的幾何一致性专缠。由于在計算損失時使用的迭代最近點(ICP)是不可微的，因此他們使用點云在收斂時的配準殘差作為兩個深度預測的差值近似值淑仆。與3D ICP損失相比藤肢，DCL有兩個優(yōu)點。首先糯景，它能夠處理兩個深度預測之間的誤差，而這兩個深度預測可以通過嚴格的轉換得到補償省骂。其次蟀淮，它不涉及配準方法，當配準失敗時钞澳，配準方法可能會為訓練帶來錯誤的信息怠惶。由于3D ICP 損失的實施還沒有發(fā)布，所以在本文中沒有進行比較轧粟。最近策治，類似的幾何一致性損失[27]被提出，這是我們工作[5]的后續(xù)兰吟。在評價方面通惫，與CT數據相關的評價中報告的平均殘差會導致低估誤差。這是因為殘差是使用已配準的點云與CT表面模型之間的最近點對來計算的混蔼。由于最近點對之間的距離總是小于或等于真實點對之間的距離履腋，因此總體誤差將被低估。根據SfM的精度，與SfM相關的評價可以更好地代表在稀疏深度圖中具有有效對應關系的深度預測區(qū)域的真實精度遵湖。但該方法存在一個缺點悔政，即在稀疏深度圖中不存在有效對應的區(qū)域不被計算。只有將視頻的攝像機軌跡準確地記錄到CT表面模型中延旧，才能獲得準確的精度估計值谋国，而這正是我們目前所缺乏的，并將作為未來的研究方向迁沫。

5結論

在這項工作中芦瘾，我們提出了一種自監(jiān)督的方法來訓練卷積神經網絡在單目內窺鏡中進行稠密深度估計，而不需要任何解剖學或陰影的先驗建模弯洗。據我們所知旅急，這是第一種基于深度學習的自監(jiān)督深度估計方法。我們的方法在訓練階段只需要單目內窺鏡視頻和多視點立體方法牡整。與大多數自監(jiān)督深度估計的競爭方法相比藐吮，我們的方法不假定光度恒常性，使其適用于內窺鏡檢查逃贝。在一項跨患者研究中谣辞，我們證明了我們的方法可以很好地推廣到不同的患者，即使是在其他幾個患者的少量未標記的訓練數據上進行訓練沐扳，也能獲得亞毫米級的殘留誤差泥从。在一項比較研究中，我們表明我們的方法在體內竇內窺鏡數據上比最近的兩種自我監(jiān)督深度估計方法有很大的優(yōu)勢沪摄。在未來的工作中躯嫉，我們計劃將單幀深度地圖融合成一個完整的3D模型，使其更適合于臨床解剖研究和手術導航等應用杨拐。

最后編輯于：2020.01.09 18:37:11

?著作權歸作者所有,轉載或內容合作請聯系作者

人面猴
序言：七十年代末祈餐，一起剝皮案震驚了整個濱河市，隨后出現的幾起案子哄陶，更是在濱河造成了極大的恐慌帆阳，老刑警劉巖，帶你破解...
沈念sama閱讀 212,884評論 6贊 492
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件屋吨，死亡現場離奇詭異蜒谤，居然都是意外死亡，警方通過查閱死者的電腦和手機至扰，發(fā)現死者居然都...
沈念sama閱讀 90,755評論 3贊 385
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門鳍徽，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人敢课，你說我怎么就攤上這事旬盯。” “怎么了？”我有些...
開封第一講書人閱讀 158,369評論 0贊 348
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵胖翰，是天一觀的道長接剩。經常有香客問我，道長萨咳，這世上最難降的妖魔是什么懊缺？我笑而不...
開封第一講書人閱讀 56,799評論 1贊 285
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮培他，結果婚禮上鹃两，老公的妹妹穿的比我還像新娘。我一直安慰自己舀凛，他們只是感情好俊扳，可當我...
茶點故事閱讀 65,910評論 6贊 386
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著猛遍，像睡著了一般馋记。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上懊烤，一...
開封第一講書人閱讀 50,096評論 1贊 291
城市分裂傳說
那天梯醒，我揣著相機與錄音，去河邊找鬼腌紧。笑死茸习，一個胖子當著我的面吹牛，可吹牛的內容都是我干的壁肋。我是一名探鬼主播号胚，決...
沈念sama閱讀 39,159評論 3贊 411
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼浸遗！你這毒婦竟也來了涕刚？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 37,917評論 0贊 268
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤乙帮，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后极景，有當地人在樹林里發(fā)現了一具尸體察净，經...
沈念sama閱讀 44,360評論 1贊 303
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 36,673評論 2贊 327
?白月光啟示錄
正文我和宋清朗相戀三年盼樟，在試婚紗的時候發(fā)現自己被綠了氢卡。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 38,814評論 1贊 341
活死人
序言：一個原本活蹦亂跳的男人離奇死亡晨缴，死狀恐怖译秦，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤筑悴，帶...
沈念sama閱讀 34,509評論 4贊 334
?日本核電站爆炸內幕
正文年R本政府宣布们拙，位于F島的核電站，受9級特大地震影響阁吝，放射性物質發(fā)生泄漏砚婆。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 40,156評論 3贊 317
男人毒藥：我在死后第九天來索命
文/蒙蒙一拇颅、第九天我趴在偏房一處隱蔽的房頂上張望胡陪。院中可真熱鬧施符，春花似錦、人聲如沸埂奈。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,882評論 0贊 21
一樁弒父案定躏，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽账磺。三九已至，卻和暖如春共屈，著一層夾襖步出監(jiān)牢的瞬間绑谣，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 32,123評論 1贊 267
情欲美人皮
我被黑心中介騙來泰國打工拗引，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留借宵，地道東北人。一個月前我還...
沈念sama閱讀 46,641評論 2贊 362
代替公主和親
正文我出身青樓矾削，卻偏偏與公主長得像壤玫，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子哼凯，可洞房花燭夜當晚...
茶點故事閱讀 43,728評論 2贊 351