Abstract
提出了一種僅利用相鄰視頻幀的一致性作為監(jiān)控信號柄冲,從視頻中同時(shí)估計(jì)場景深度、相機(jī)自運(yùn)動、物體運(yùn)動和相機(jī)內(nèi)參的新方法喜德。與之前的工作類似,我們的方法通過學(xué)習(xí)將可區(qū)分的變形應(yīng)用于幀和對比結(jié)果與相鄰幀垮媒,該工作提供了幾點(diǎn)改進(jìn):
- 我們直接通過使用訓(xùn)練中預(yù)測的深度圖舍悯,來處理那些幾何的和可區(qū)分的遮擋。
- 引入了隨機(jī)層歸一化睡雇,這是一種新型的強(qiáng)正則化方法萌衬,并考慮了目標(biāo)相對于場景的運(yùn)動。
- 第一個(gè)在無監(jiān)督的情況下從視頻中學(xué)習(xí)相機(jī)的內(nèi)參它抱,包括鏡頭畸變秕豫,從而使我們能夠從大規(guī)模的未知來源的任意視頻中提取精確的深度和運(yùn)動。
我們對 Cityscapes、KITTI 和 EuRoC 數(shù)據(jù)集的結(jié)果進(jìn)行了評估混移,建立了深度預(yù)測和里程測量的新技術(shù)祠墅,并定性地證明可以從YouTube上的一系列視頻中學(xué)到場景的深度。