本人對(duì)VR/AR領(lǐng)域比較感興趣,無(wú)意間在網(wǎng)上看到一篇《計(jì)算視覺(jué)連接虛擬和現(xiàn)實(shí)》的演講蝴簇,講者是一位曾在世界頂尖處理器技術(shù)公司ARM、MIPS和Imagination工作超過(guò)10年的資深人士匆帚。內(nèi)容簡(jiǎn)單易懂熬词,但也不失深度,感覺(jué)不錯(cuò)吸重,整理下分享給大家:
VR的精髓是從2D到3D的沉浸式用戶(hù)體驗(yàn)互拾。事實(shí)上,盡管業(yè)內(nèi)人士誰(shuí)都知道計(jì)算視覺(jué)嚎幸、三維視覺(jué)非常重要颜矿,但全世界都還做得不好,目前整個(gè)行業(yè)最領(lǐng)先的水平也做得馬馬虎虎嫉晶,離普通消費(fèi)者的預(yù)期差距仍然比較大骑疆。即使我們很明確這個(gè)行業(yè)我們?cè)谧鍪裁础F(xiàn)階段是什么樣子替废、我們想要解決什么問(wèn)題箍铭、想要帶給AR/VR什么樣的用戶(hù)體驗(yàn),但很可惜目前還沒(méi)有做好椎镣。
計(jì)算視覺(jué)(CV)技術(shù)已發(fā)展多年诈火,但現(xiàn)階段我們的產(chǎn)品和技術(shù),其實(shí)和VR結(jié)合得并不緊密状答。如果這個(gè)問(wèn)題沒(méi)有解決冷守,那么AR/VR不過(guò)就是一種新型的顯示器而已刀崖。
數(shù)字化內(nèi)容的產(chǎn)生
從內(nèi)容上,所有內(nèi)容的產(chǎn)生或者獲取不外乎兩種渠道拍摇。
第一種是從物理世界里獲取亮钦,通過(guò)傳感器、設(shè)備把物理世界數(shù)字化〕浠睿現(xiàn)在的DV或悲、電視機(jī)、手機(jī)堪唐、PC的顯示器,內(nèi)容的數(shù)字化其實(shí)很簡(jiǎn)單翎蹈,說(shuō)穿了就是拍照和拍視頻淮菠。
第二種:在PC尤其是游戲里面,還有一種內(nèi)容產(chǎn)生方法:CG(computer cenerated)荤堪。比如大量的三維游戲合陵,比如科幻電影里的人物、場(chǎng)景澄阳,其實(shí)都是電腦+美工師+程序員產(chǎn)生的出來(lái)的拥知。
通過(guò)這兩種方式產(chǎn)生的內(nèi)容,最終將通過(guò)某種設(shè)備呈現(xiàn)給人碎赢。我認(rèn)為低剔,從物理世界拍攝而來(lái)的內(nèi)容,加上CG產(chǎn)生的內(nèi)容的結(jié)合肮塞,在將來(lái)的任何AR襟齿、VR、MR等設(shè)備里都是非常重要的枕赵。
現(xiàn)在我們來(lái)關(guān)注一下猜欺,從物理世界怎么樣通過(guò)傳感器和設(shè)備來(lái)產(chǎn)生內(nèi)容。第一種是比較常見(jiàn)的:平面格式內(nèi)容拷窜,就比如用相機(jī)开皿、DV來(lái)拍照片、視頻等等篮昧。
但今天我想著重講另外一種:三維格式內(nèi)容赋荆。三維化的數(shù)字內(nèi)容是目前這個(gè)階段經(jīng)常被忽視、用處也不太大的一種內(nèi)容表達(dá)形式懊昨。但是在AR/VR里糠睡,三維格式的內(nèi)容是很重要的一點(diǎn),這是將來(lái)AR/VR普及后一種關(guān)鍵的內(nèi)容方式疚颊。
目前狈孔,AR/VR行業(yè)里面比較重要和主流的有兩種平面格式內(nèi)容:全景視頻和立體視頻信认。但不管是照片、視頻均抽、全景視頻或者立體視頻嫁赏,本質(zhì)上都是兩維的平面數(shù)據(jù)。因?yàn)樗械倪@些內(nèi)容油挥,其數(shù)據(jù)本質(zhì)都是一個(gè)個(gè)像素潦蝇,每個(gè)像素存著的數(shù)據(jù)都是RGB(red、green深寥、blue攘乒,紅綠藍(lán)三基色),每個(gè)像素點(diǎn)都是RGB的分量,它的內(nèi)容本質(zhì)上不包含任何空間幾何信息惋鹅。
三維信息數(shù)據(jù)是什么
什么樣的內(nèi)容才是三維數(shù)據(jù)则酝?一定是在每個(gè)點(diǎn)上面,除了RGB數(shù)據(jù)闰集,還要包含空間的位置信息沽讹,也就是還要有XYZ(三維坐標(biāo)軸)信息。只有RGB和XYZ同時(shí)呈現(xiàn)武鲁,才是一種真正的爽雄、完整意義上的三維。
人的眼睛看外面的世界沐鼠,通過(guò)視覺(jué)渠道挚瘟,是能夠同時(shí)獲得RGB和XYZ信息的。比如大家在看我時(shí)饲梭,能夠看到衣服刽沾、頭發(fā)等顏色信息,也有對(duì)我的身高排拷、體型侧漓、我們之間的距離等空間幾何感。當(dāng)然人的視覺(jué)系統(tǒng)有個(gè)缺陷监氢,對(duì)空間幾何信息的量化比較差布蔗,比如你可以看出我們之間的距離是三米左右,但沒(méi)辦法看出是3.1米還是3.45米這樣精確的信息浪腐。
現(xiàn)階段所有的照片纵揍、視頻把RGB信息采集回來(lái)后,是既服務(wù)于人议街,也服務(wù)于機(jī)器泽谨。比如機(jī)器里的人臉識(shí)別算法,處理的基礎(chǔ)都是RGB信息;而人眼對(duì)RGB信息比較敏感吧雹,直接看RGB信息的視覺(jué)效果也是可以的骨杂。
至于XYZ信息,就有個(gè)特點(diǎn):它主要是服務(wù)于機(jī)器的雄卷。因?yàn)槊總€(gè)點(diǎn)的XYZ數(shù)據(jù)是沒(méi)辦法直接給人眼識(shí)別的搓蚪,視網(wǎng)膜還是只能感覺(jué)到量化的顏色信息。
舉個(gè)例子丁鹉,這是拍攝電腦包在某個(gè)咖啡館里的一個(gè)場(chǎng)景妒潭。我把每個(gè)點(diǎn)的RGB信息量化出來(lái),大家一看就知道這是個(gè)照片揣钦;但如果我把每個(gè)點(diǎn)的XYZ想辦法顯示出來(lái)雳灾,其實(shí)就很難。這個(gè)圖我表達(dá)的意思是冯凹,XYZ信息怎樣讓人也有這種感覺(jué)谎亩?通常是XY先不管,把Z這個(gè)距離信息用著色方案先顯示出來(lái)谈竿,但這只是給人一種感覺(jué)。
XYZ三維視覺(jué)信息的重要性
所以摸吠,XYZ數(shù)據(jù)直接丟給人眼是沒(méi)有太大價(jià)值的空凸,它主要是服務(wù)于機(jī)器。機(jī)器如果要做三維視覺(jué)寸痢,一定要有顯性的RGB和XYZ數(shù)據(jù)呀洲。人的距離感可以自動(dòng)腦補(bǔ)的,而機(jī)器拍攝只能拍攝到RGB信息啼止,目前沒(méi)有什么單一傳感器可以把XYZ量化出來(lái)道逗。機(jī)器如果有了RGB和XYZ信息,就可以發(fā)揮很強(qiáng)的視覺(jué)處理能力献烦,比如說(shuō)做三維建模滓窍,視覺(jué)效果增強(qiáng)處理等等。
機(jī)器拿到XYZ數(shù)據(jù)之后巩那,可以真正把三維視覺(jué)的能力發(fā)揮出來(lái)吏夯,處理完了,再以某種方式輸出到設(shè)備給人的眼睛和大腦即横。這時(shí)候噪生,人就能夠被AR/VR設(shè)備帶到一個(gè)非常有沉浸感的虛擬或者混合世界里面去。
舉例子說(shuō)东囚,這是一個(gè)視覺(jué)錯(cuò)感照片跺嗽。
如果我此時(shí)問(wèn)大家一個(gè)問(wèn)題:這張圖片里,是人離我近還是圓形物體離我近?如果是人來(lái)回答桨嫁,那非常簡(jiǎn)單植兰,我們都知道這個(gè)圓形物體是非常遠(yuǎn)的,而人不管是十公里還是二十公里瞧甩,總是比月亮離我們近的钉跷。但是這樣回答有個(gè)重要的前提,就是人其實(shí)已經(jīng)把月亮的特征識(shí)別出來(lái)了肚逸,我們知道它是月亮爷辙。
如果把這個(gè)問(wèn)題丟給機(jī)器,就會(huì)變得困難朦促,因?yàn)闄C(jī)器只能識(shí)別出這里面有一個(gè)圓形物體和一個(gè)人形膝晾。進(jìn)一步說(shuō),現(xiàn)在的人工智能或許能用最厲害的圖像識(shí)別能力去識(shí)別出月亮务冕,然后判斷距離血当,回答我說(shuō)人離我近。
但這已經(jīng)是目前最先進(jìn)的算法了禀忆。假如我們把問(wèn)題變難臊旭,把月亮的特征抹去,只剩一個(gè)圓形箩退,這時(shí)候再問(wèn):是人離我近還是圓形物體離我近离熏?這下子人和計(jì)算機(jī)都沒(méi)法回答了。所以如果要讓機(jī)器處理這個(gè)問(wèn)題戴涝,就要把每個(gè)點(diǎn)詳細(xì)的XYZ數(shù)據(jù)顯性地報(bào)告給機(jī)器滋戳。如果圓形物體的XYZ數(shù)據(jù)有了,人形的XYZ數(shù)據(jù)也有啥刻,這時(shí)候要判斷距離誰(shuí)近誰(shuí)遠(yuǎn)奸鸯,或者它們之間的距離,問(wèn)題都變得極其簡(jiǎn)單可帽。
所以計(jì)算視覺(jué)里最關(guān)鍵的問(wèn)題就是娄涩,要做三維視覺(jué),一定要通過(guò)某種傳感器的方法映跟,把顯性的XYZ數(shù)據(jù)拿回來(lái)钝满,否則三維視覺(jué)肯定是做不好的。
怎么獲取三維視覺(jué)信息
這件事情目前在行業(yè)里怎么做申窘?
我們現(xiàn)在的拍照手段還拿不到XYZ信息弯蚜,因?yàn)楝F(xiàn)在的圖像傳感器就是個(gè)平面的光電傳感器而已,每個(gè)點(diǎn)只能感應(yīng)到RGB三個(gè)顏色的量化剃法,拍照時(shí)是把物理世界的三維信息壓到一個(gè)平面上碎捺,這是整個(gè)照片成像的物理基礎(chǔ)原理,導(dǎo)致距離信息被天然損失掉了。
現(xiàn)在并沒(méi)有一種魔術(shù)傳感器能把XYZ數(shù)據(jù)拍下來(lái)收厨,我們能用的只有圖像傳感器晋柱。圖像傳感器是目前可用的、唯一的能夠把物理世界通過(guò)視覺(jué)方法拍攝回來(lái)并進(jìn)行量化的渠道诵叁。
XYZ數(shù)據(jù)怎么獲取雁竞,目前主流的方法只能是通過(guò)視覺(jué)的手段,使用圖像傳感器拧额,輔助以一定的光學(xué)手段進(jìn)行視覺(jué)計(jì)算碑诉。這就是我們講的計(jì)算視覺(jué)里非常基礎(chǔ)的一個(gè)技術(shù)點(diǎn)侥锦。
從原理上講进栽,只要兩個(gè)攝像頭,立體視覺(jué)就能夠進(jìn)行測(cè)距恭垦。但在現(xiàn)實(shí)當(dāng)中快毛,雙目攝像頭的測(cè)距方案存在非常大的使用局限,只有在非常良好的特定工作條件下才能勉強(qiáng)應(yīng)用番挺。所以從實(shí)際上講唠帝,要做好一個(gè)三維傳感器或者XYZ數(shù)據(jù)的量化測(cè)量,一定是要應(yīng)用至少兩個(gè)攝像頭玄柏,或者一個(gè)攝像頭襟衰、兩個(gè)攝像頭加一套復(fù)雜的光學(xué)系統(tǒng),再加上專(zhuān)門(mén)的視覺(jué)計(jì)算方法禁荸,才能計(jì)算和測(cè)量完成右蒲。
三維信息和AR/VR的聯(lián)系
有了這些三維信息阀湿,可以做什么事情赶熟,跟AR/VR又有什么聯(lián)系呢?虛擬內(nèi)容必須要跟物理世界完美貼合才能給人帶來(lái)“真實(shí)感”陷嘴,需要3D傳感器對(duì)外部物理世界進(jìn)行三維重建映砖。
微軟可以說(shuō)是在民用的三維視覺(jué)技術(shù)點(diǎn)上,全世界積累得最多的公司灾挨,它做三維相關(guān)的硬件軟件已經(jīng)超過(guò)十年了邑退。在這里舉例微軟的HoloPortation,一個(gè)很黑科技的東西劳澄。
當(dāng)我和一個(gè)朋友一起帶上微軟的HoloPortation系統(tǒng)地技,在我的視野里面就會(huì)出現(xiàn)遠(yuǎn)程那個(gè)人的畫(huà)面,那個(gè)人真實(shí)站在我面前秒拔,我可以圍著他轉(zhuǎn)莫矗,做動(dòng)作等等。這其實(shí)就是把遠(yuǎn)程那個(gè)人的實(shí)時(shí)三維模型建立出來(lái)了,每一個(gè)時(shí)刻的三維模型作谚,每一幀都是完整三娩、準(zhǔn)確的,然后通過(guò)AR/VR設(shè)備顯示出來(lái)妹懒。
盡管對(duì)于普通消費(fèi)者來(lái)看雀监,這樣建立出來(lái)的“人”視覺(jué)效果并不是很好,不高清眨唬,顏色也太過(guò)鮮艷会前,但微軟的建模能力確實(shí)很厲害,這其中的技術(shù)難度是很大的单绑,在行業(yè)里都稱(chēng)之為黑科技回官。這也是技術(shù)行業(yè)的邊界和消費(fèi)者需求邊界的問(wèn)題,需要有一個(gè)漸近的過(guò)程搂橙。
現(xiàn)階段面臨的問(wèn)題
最后做個(gè)總結(jié)歉提,目前我們存在的問(wèn)題有:
第一,3D傳感器区转,也就是XYZ的獲取較困難苔巨,這個(gè)點(diǎn)是個(gè)薄弱環(huán)節(jié)。
第二废离,把RGB和XYZ數(shù)據(jù)采集回來(lái)后侄泽,怎么去承載和實(shí)現(xiàn)三維視覺(jué)算法的處理器,對(duì)處理器的要求非常大蜻韭,目前的都不夠用悼尾。
第三,視覺(jué)算法的軟件實(shí)現(xiàn)肖方、以及算法本身也還有很多問(wèn)題需要解決闺魏。比如說(shuō)怎么把三維模型建得又快又好。
第四俯画,如果要做更多的智能識(shí)別析桥,三維的物體樣本庫(kù)還沒(méi)有,跟人工智能艰垂、深度學(xué)習(xí)還沒(méi)有結(jié)合起來(lái)泡仗。