姓名:周桐 學(xué)號(hào):15020120101? 轉(zhuǎn)載自:https://www.huxiu.com/article/278880.html
【嵌牛導(dǎo)讀】:神經(jīng)網(wǎng)絡(luò)使從已有視頻中生成高清慢速視頻成為可能
【嵌牛鼻子】:高清慢速播放 計(jì)算機(jī)視覺 神經(jīng)網(wǎng)絡(luò)
【嵌牛提問】:新提出的多幀插值方法的主要思想是什么鲫凶?
【嵌牛正文】:
總有那么一些細(xì)節(jié)座哩,你瞪大雙眼拼了命想看清卻依然無可奈何聂使,比如下面這個(gè):
跟得上球嗎?要看清男子羽毛球比賽的細(xì)節(jié)實(shí)在不容易
有時(shí)候想盯住飛來飛去的羽毛球汰规,非常吃力汤功,這就是人類肉眼的極限。
你或許會(huì)說溜哮,好解決啊滔金,用慢速回放功能就行了。
確實(shí)可以回放茂嗓,但慢速回放的前提餐茵,是攝像機(jī)一開始就捕捉到了這些細(xì)節(jié)。如今述吸,一些大型體育賽事已經(jīng)用上了工業(yè)高速攝像頭忿族,為的就是在裁判的裁決引發(fā)爭議時(shí),可以用慢鏡頭回放來判定結(jié)果蝌矛。
但是道批,沒有專業(yè)的高速攝像頭怎么辦?
像我們用智能手機(jī)拍的視頻入撒,記錄下生活中很多美好隆豹,隨風(fēng)飄逝的晚霞,又或者池塘濺起的漣漪衅金,還有孩子們?cè)谟境乩餄娝覒蛟胍粒绻寄軌蚍怕擞^看,必將帶來全新的感受氮唯。
正因如此,當(dāng)今年計(jì)算機(jī)視覺頂會(huì)CVPR舉行時(shí)姨伟,英偉達(dá)團(tuán)隊(duì)的一篇能讓手機(jī)拍攝的視頻也“高清慢速播放”的論文惩琉,在業(yè)界引發(fā)了很大的反響。
這項(xiàng)被稱為Super SloMo的工作夺荒,使用深度神經(jīng)網(wǎng)絡(luò)瞒渠,對(duì)視頻中缺失的幀進(jìn)行預(yù)測并補(bǔ)全良蒸,從而生成連續(xù)慢速回放的效果。
更贊的是伍玖,他們提出的方法嫩痰,能夠排除原視頻幀當(dāng)中被遮擋的像素,從而避免在生成的內(nèi)插中間幀里產(chǎn)生模糊的偽像(artifact)窍箍。
值得一提串纺,這篇論文的第一作者,是本碩畢業(yè)于西安交通大學(xué)椰棘、現(xiàn)在馬薩諸塞大學(xué)阿默斯特分校讀博四的?Huaizu Jiang纺棺。第二作者?Deqing Sun?是英偉達(dá)學(xué)習(xí)與感知研究小組的高級(jí)研究員,本科畢業(yè)于哈工大邪狞,碩士讀的港中文祷蝌,在布朗大學(xué)取得博士學(xué)位后,在哈佛?Hanspeter Pfister?教授的視覺研究小組做過博士后帆卓。
感受一下Super-SloMo生成的“慢速回放”效果:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?來源:Huaizu Jiang個(gè)人主頁
注意巨朦,左右兩邊都是Super SloMo生成的視頻。左邊是原始慢速視頻剑令,右邊是將這個(gè)結(jié)果再放慢4倍的效果罪郊,如果不告訴你中間的細(xì)節(jié)(幀)是神經(jīng)網(wǎng)絡(luò)生成的,你會(huì)不會(huì)把它們當(dāng)做真的慢速回放尚洽?
實(shí)際用手機(jī)拍攝的畫面是這樣的悔橄,對(duì)比后,意識(shí)到Super SloMo補(bǔ)充多少細(xì)節(jié)了嗎腺毫?
論文作者稱癣疟,他們能將30FPS(畫面每秒幀數(shù))的視頻變?yōu)?80FPS,也即每秒幀數(shù)增加了16倍潮酒。
根據(jù)Super SloMo項(xiàng)目主頁睛挚,作者表示,使用他們未經(jīng)優(yōu)化的PyTorch代碼急黎,在單個(gè)NVIDIA GTX 1080Ti 和 Tesla V100 GPU上扎狱,生成7個(gè)分辨率為1280*720的中間幀,分別只需要0.97秒和0.79秒勃教。(補(bǔ)充說明:從標(biāo)準(zhǔn)序列30-fps生成240-fps視頻淤击,一般需要在兩個(gè)連續(xù)幀內(nèi)插入7個(gè)中間幀。)
效果當(dāng)然稱得上驚艷故源。然而污抬,令很多人失望的是,論文發(fā)布時(shí)并沒有將代碼和數(shù)據(jù)集公開,盡管作者表示可以聯(lián)系 Huaizu Jiang 獲取部分原始資料印机。
僅在論文中提到的數(shù)據(jù)和示例矢腻。來源:Super SloMo論文
今天,有人在 Github 上開源了他對(duì) Super-SloMo 的 PyTorch 實(shí)現(xiàn)射赛。這位ID為atplwl的Reddit用戶多柑,在作者提供的adobe24fps數(shù)據(jù)集上預(yù)訓(xùn)練的模型(下圖中pretrained mine),實(shí)現(xiàn)了與論文描述相差無幾的結(jié)果楣责。
僅在論文中提到的數(shù)據(jù)和示例竣灌。來源:Super SloMo論文
今天,有人在 Github 上開源了他對(duì) Super-SloMo 的 PyTorch 實(shí)現(xiàn)腐魂。這位ID為atplwl的Reddit用戶帐偎,在作者提供的adobe24fps數(shù)據(jù)集上預(yù)訓(xùn)練的模型(下圖中pretrained mine),實(shí)現(xiàn)了與論文描述相差無幾的結(jié)果蛔屹。
現(xiàn)在削樊,這個(gè)預(yù)訓(xùn)練模型,還有相關(guān)的代碼兔毒、數(shù)據(jù)集漫贞,以及實(shí)現(xiàn)條件,都能在GitHub上查到育叁。
自稱新手的atplwl表示迅脐,他目前在努力完善這個(gè)GitHub庫,接下來預(yù)計(jì)添加一個(gè)PyThon腳本豪嗽,將視頻轉(zhuǎn)換為更高的fps視頻谴蔑,歡迎大家提供建議。
Super SloMo PyTorch實(shí)現(xiàn)地址:https://github.com/avinashpaliwal/Super-SloMo
Super SloMo:將任意視頻變?yōu)椤案咔迓俨シ拧?/p>
代碼在手龟梦,再看論文——前文已經(jīng)說過隐锭,從已有視頻中生成高清慢速視頻是一件非常有意義的事情。
除了專業(yè)的高速攝像機(jī)尚未普及到每個(gè)人手里计贰,人們用手機(jī)拍攝的視頻(一般為240FPS)想要放慢的時(shí)刻是不可預(yù)測的钦睡,要實(shí)現(xiàn)這一點(diǎn)就不得不用標(biāo)準(zhǔn)幀速率來記錄所有視頻,但這樣做需要的內(nèi)存過大躁倒,對(duì)移動(dòng)設(shè)備來說耗電量也花不起荞怒。
現(xiàn)在,計(jì)算機(jī)視覺領(lǐng)域秧秉,除了將標(biāo)準(zhǔn)視頻轉(zhuǎn)換為更高的幀速率之外褐桌,還可以使用視頻插值來生成平滑的視圖轉(zhuǎn)換。在自監(jiān)督學(xué)習(xí)中福贞,這也可以作為監(jiān)控信號(hào)來學(xué)習(xí)未標(biāo)記視頻的光流撩嚼。
不過,生成多個(gè)中間視頻幀?(intermediate video frame)?是具有挑戰(zhàn)性的挖帘,因?yàn)閹仨氃诳臻g和時(shí)間上是連貫的完丽。例如,從30-fps標(biāo)準(zhǔn)序列生成240-fps視頻拇舀,需要在兩個(gè)連續(xù)幀內(nèi)插入7個(gè)中間幀逻族。
成功的解決方案不僅要正確解釋兩個(gè)輸入圖像之間的運(yùn)動(dòng)(隱式或顯式),還要理解遮擋?(occlusion)骄崩。 否則聘鳞,就可能導(dǎo)致插值幀中產(chǎn)生嚴(yán)重的偽像,尤其是在運(yùn)動(dòng)邊界附近要拂。
現(xiàn)有方法主要集中于單幀視頻插值抠璃,而且已經(jīng)取得了不錯(cuò)的進(jìn)展。然而脱惰,這些方法不能直接用于生成任意高幀率視頻搏嗡。
雖然遞歸地應(yīng)用單幀視頻插值方法生成多個(gè)中間幀是一個(gè)很不錯(cuò)的想法,但這種方法至少有兩個(gè)限制:
首先拉一,遞歸單幀插值不能完全并行化采盒,速度較慢,因?yàn)橛行窃谄渌麕瓿珊蟛胚M(jìn)行計(jì)算的(例如蔚润,在七幀插值中磅氨,幀2取決于0和4,而幀4取決于0和8)嫡纠。
其次烦租,它只能生成2i-1個(gè)中間幀。因此,不能使用這種方法有效生地生成1008 - fps 24幀的視頻除盏,這需要生成41中間幀叉橱。
論文Super SloMo: High Quality Estimation of Multiple Intermediate Frames for Video Interpolation提出了一種高質(zhì)量的變長多幀插值方法,該方法可以在兩幀之間的任意時(shí)間步長進(jìn)行插值痴颊。
其主要思想是赏迟,將輸入的兩幅圖像扭曲到特定的時(shí)間步長,然后自適應(yīng)地融合這兩幅扭曲圖像蠢棱,生成中間圖像锌杀,其中的運(yùn)動(dòng)解釋和遮擋推理在單個(gè)端到端可訓(xùn)練網(wǎng)絡(luò)中建模。
Super SloMo效果展示:注意在放慢過渡區(qū)域?qū)蜗竦奶幚怼?/p>
具體來說泻仙,首先使用流量計(jì)算CNN來估計(jì)兩幅輸入圖像之間的雙向光流糕再,然后線性融合來近似所需的中間光流,從而使輸入圖像發(fā)生扭曲玉转。這種近似方法適用于光滑區(qū)域突想,但不適用于運(yùn)動(dòng)邊界。
因此,Super SloMo 論文作者使用另一個(gè)流量插值CNN來細(xì)化流近似并預(yù)測軟可見性圖猾担。
通過在融合之前將可見性圖應(yīng)用于變形圖像袭灯,排除了被遮擋像素對(duì)內(nèi)插中間幀的貢獻(xiàn),從而減少了偽像绑嘹。
Super SloMo網(wǎng)絡(luò)架構(gòu)
“我們的流計(jì)算和插值網(wǎng)絡(luò)的參數(shù)都獨(dú)立于被插值的具體時(shí)間步長稽荧,是流插值網(wǎng)絡(luò)的輸入。因此工腋,我們的方法可以并行生成任意多的中間幀姨丈。”作者在論文中寫道擅腰。
為了訓(xùn)練該網(wǎng)絡(luò)蟋恬,團(tuán)隊(duì)從YouTube和手持?jǐn)z像機(jī)收集了240-fps的視頻〕酶裕總量有1.1K視頻剪輯歼争,由300K個(gè)獨(dú)立視頻幀組成,典型分辨率為1080×720箱歧。
然后矾飞,團(tuán)隊(duì)在其他幾個(gè)需要不同插值數(shù)量的獨(dú)立數(shù)據(jù)集上評(píng)估了訓(xùn)練模型,包括Middlebury 呀邢、 UCF101 洒沦、慢流(slowflow)數(shù)據(jù)集和高幀率(high-frame-rate) MPI Sintel。
實(shí)驗(yàn)結(jié)果表明价淌,該方法明顯優(yōu)于所有數(shù)據(jù)集上的現(xiàn)有方法申眼。 團(tuán)隊(duì)還在KITTI 2012光流基準(zhǔn)上評(píng)估了無監(jiān)督(自監(jiān)督)光流結(jié)果,并獲得了比現(xiàn)有最近方法更好的結(jié)果蝉衣。
Super SloMo項(xiàng)目主頁:https://people.cs.umass.edu/~hzjiang/projects/superslomo/
Super SloMo PyTorch實(shí)現(xiàn)Github地址:https://github.com/avinashpaliwal/Super-SloMo
本文來自微信公眾號(hào):新智元(ID:AI_era)括尸,來源:Github; Arxiv,編輯:文強(qiáng)病毡、金磊
*文章為作者獨(dú)立觀點(diǎn)濒翻,不代表虎嗅網(wǎng)立場
本文由?新智元?授權(quán)?虎嗅網(wǎng)?發(fā)表,并經(jīng)虎嗅網(wǎng)編輯啦膜。轉(zhuǎn)載此文請(qǐng)于文首標(biāo)明作者姓名有送,保持文章完整性(包括虎嗅注及其余作者身份信息),并請(qǐng)附上出處(虎嗅網(wǎng))及本頁鏈接僧家。原文鏈接:https://www.huxiu.com/article/278880.html?