【轉(zhuǎn)/整】VR/AR目前存在的技術(shù)難點(diǎn)

本人對(duì)VR/AR領(lǐng)域比較感興趣,無(wú)意間在網(wǎng)上看到一篇《計(jì)算視覺(jué)連接虛擬和現(xiàn)實(shí)》的演講蝴簇,講者是一位曾在世界頂尖處理器技術(shù)公司ARM、MIPS和Imagination工作超過(guò)10年的資深人士匆帚。內(nèi)容簡(jiǎn)單易懂熬词,但也不失深度,感覺(jué)不錯(cuò)吸重,整理下分享給大家:

VR的精髓是從2D到3D的沉浸式用戶(hù)體驗(yàn)互拾。事實(shí)上,盡管業(yè)內(nèi)人士誰(shuí)都知道計(jì)算視覺(jué)嚎幸、三維視覺(jué)非常重要颜矿,但全世界都還做得不好,目前整個(gè)行業(yè)最領(lǐng)先的水平也做得馬馬虎虎嫉晶,離普通消費(fèi)者的預(yù)期差距仍然比較大骑疆。即使我們很明確這個(gè)行業(yè)我們?cè)谧鍪裁础F(xiàn)階段是什么樣子替废、我們想要解決什么問(wèn)題箍铭、想要帶給AR/VR什么樣的用戶(hù)體驗(yàn),但很可惜目前還沒(méi)有做好椎镣。

計(jì)算視覺(jué)(CV)技術(shù)已發(fā)展多年诈火,但現(xiàn)階段我們的產(chǎn)品和技術(shù),其實(shí)和VR結(jié)合得并不緊密状答。如果這個(gè)問(wèn)題沒(méi)有解決冷守,那么AR/VR不過(guò)就是一種新型的顯示器而已刀崖。

數(shù)字化內(nèi)容的產(chǎn)生

從內(nèi)容上,所有內(nèi)容的產(chǎn)生或者獲取不外乎兩種渠道拍摇。

第一種是從物理世界里獲取亮钦,通過(guò)傳感器、設(shè)備把物理世界數(shù)字化〕浠睿現(xiàn)在的DV或悲、電視機(jī)、手機(jī)堪唐、PC的顯示器,內(nèi)容的數(shù)字化其實(shí)很簡(jiǎn)單翎蹈,說(shuō)穿了就是拍照和拍視頻淮菠。

第二種:在PC尤其是游戲里面,還有一種內(nèi)容產(chǎn)生方法:CG(computer cenerated)荤堪。比如大量的三維游戲合陵,比如科幻電影里的人物、場(chǎng)景澄阳,其實(shí)都是電腦+美工師+程序員產(chǎn)生的出來(lái)的拥知。

通過(guò)這兩種方式產(chǎn)生的內(nèi)容,最終將通過(guò)某種設(shè)備呈現(xiàn)給人碎赢。我認(rèn)為低剔,從物理世界拍攝而來(lái)的內(nèi)容,加上CG產(chǎn)生的內(nèi)容的結(jié)合肮塞,在將來(lái)的任何AR襟齿、VR、MR等設(shè)備里都是非常重要的枕赵。

現(xiàn)在我們來(lái)關(guān)注一下猜欺,從物理世界怎么樣通過(guò)傳感器和設(shè)備來(lái)產(chǎn)生內(nèi)容。第一種是比較常見(jiàn)的:平面格式內(nèi)容拷窜,就比如用相機(jī)开皿、DV來(lái)拍照片、視頻等等篮昧。

但今天我想著重講另外一種:三維格式內(nèi)容赋荆。三維化的數(shù)字內(nèi)容是目前這個(gè)階段經(jīng)常被忽視、用處也不太大的一種內(nèi)容表達(dá)形式懊昨。但是在AR/VR里糠睡,三維格式的內(nèi)容是很重要的一點(diǎn),這是將來(lái)AR/VR普及后一種關(guān)鍵的內(nèi)容方式疚颊。


物理世界數(shù)字化的形式

目前狈孔,AR/VR行業(yè)里面比較重要和主流的有兩種平面格式內(nèi)容:全景視頻和立體視頻信认。但不管是照片、視頻均抽、全景視頻或者立體視頻嫁赏,本質(zhì)上都是兩維的平面數(shù)據(jù)。因?yàn)樗械倪@些內(nèi)容油挥,其數(shù)據(jù)本質(zhì)都是一個(gè)個(gè)像素潦蝇,每個(gè)像素存著的數(shù)據(jù)都是RGB(red、green深寥、blue攘乒,紅綠藍(lán)三基色),每個(gè)像素點(diǎn)都是RGB的分量,它的內(nèi)容本質(zhì)上不包含任何空間幾何信息惋鹅。

三維信息數(shù)據(jù)是什么

什么樣的內(nèi)容才是三維數(shù)據(jù)则酝?一定是在每個(gè)點(diǎn)上面,除了RGB數(shù)據(jù)闰集,還要包含空間的位置信息沽讹,也就是還要有XYZ(三維坐標(biāo)軸)信息。只有RGB和XYZ同時(shí)呈現(xiàn)武鲁,才是一種真正的爽雄、完整意義上的三維。


三維信息數(shù)據(jù)

人的眼睛看外面的世界沐鼠,通過(guò)視覺(jué)渠道挚瘟,是能夠同時(shí)獲得RGB和XYZ信息的。比如大家在看我時(shí)饲梭,能夠看到衣服刽沾、頭發(fā)等顏色信息,也有對(duì)我的身高排拷、體型侧漓、我們之間的距離等空間幾何感。當(dāng)然人的視覺(jué)系統(tǒng)有個(gè)缺陷监氢,對(duì)空間幾何信息的量化比較差布蔗,比如你可以看出我們之間的距離是三米左右,但沒(méi)辦法看出是3.1米還是3.45米這樣精確的信息浪腐。

現(xiàn)階段所有的照片纵揍、視頻把RGB信息采集回來(lái)后,是既服務(wù)于人议街,也服務(wù)于機(jī)器泽谨。比如機(jī)器里的人臉識(shí)別算法,處理的基礎(chǔ)都是RGB信息;而人眼對(duì)RGB信息比較敏感吧雹,直接看RGB信息的視覺(jué)效果也是可以的骨杂。

至于XYZ信息,就有個(gè)特點(diǎn):它主要是服務(wù)于機(jī)器的雄卷。因?yàn)槊總€(gè)點(diǎn)的XYZ數(shù)據(jù)是沒(méi)辦法直接給人眼識(shí)別的搓蚪,視網(wǎng)膜還是只能感覺(jué)到量化的顏色信息。

舉個(gè)例子丁鹉,這是拍攝電腦包在某個(gè)咖啡館里的一個(gè)場(chǎng)景妒潭。我把每個(gè)點(diǎn)的RGB信息量化出來(lái),大家一看就知道這是個(gè)照片揣钦;但如果我把每個(gè)點(diǎn)的XYZ想辦法顯示出來(lái)雳灾,其實(shí)就很難。這個(gè)圖我表達(dá)的意思是冯凹,XYZ信息怎樣讓人也有這種感覺(jué)谎亩?通常是XY先不管,把Z這個(gè)距離信息用著色方案先顯示出來(lái)谈竿,但這只是給人一種感覺(jué)。

XYZ三維視覺(jué)信息的重要性

所以摸吠,XYZ數(shù)據(jù)直接丟給人眼是沒(méi)有太大價(jià)值的空凸,它主要是服務(wù)于機(jī)器。機(jī)器如果要做三維視覺(jué)寸痢,一定要有顯性的RGB和XYZ數(shù)據(jù)呀洲。人的距離感可以自動(dòng)腦補(bǔ)的,而機(jī)器拍攝只能拍攝到RGB信息啼止,目前沒(méi)有什么單一傳感器可以把XYZ量化出來(lái)道逗。機(jī)器如果有了RGB和XYZ信息,就可以發(fā)揮很強(qiáng)的視覺(jué)處理能力献烦,比如說(shuō)做三維建模滓窍,視覺(jué)效果增強(qiáng)處理等等。

機(jī)器拿到XYZ數(shù)據(jù)之后巩那,可以真正把三維視覺(jué)的能力發(fā)揮出來(lái)吏夯,處理完了,再以某種方式輸出到設(shè)備給人的眼睛和大腦即横。這時(shí)候噪生,人就能夠被AR/VR設(shè)備帶到一個(gè)非常有沉浸感的虛擬或者混合世界里面去。

舉例子說(shuō)东囚,這是一個(gè)視覺(jué)錯(cuò)感照片跺嗽。


視覺(jué)錯(cuò)感

如果我此時(shí)問(wèn)大家一個(gè)問(wèn)題:這張圖片里,是人離我近還是圓形物體離我近?如果是人來(lái)回答桨嫁,那非常簡(jiǎn)單植兰,我們都知道這個(gè)圓形物體是非常遠(yuǎn)的,而人不管是十公里還是二十公里瞧甩,總是比月亮離我們近的钉跷。但是這樣回答有個(gè)重要的前提,就是人其實(shí)已經(jīng)把月亮的特征識(shí)別出來(lái)了肚逸,我們知道它是月亮爷辙。

如果把這個(gè)問(wèn)題丟給機(jī)器,就會(huì)變得困難朦促,因?yàn)闄C(jī)器只能識(shí)別出這里面有一個(gè)圓形物體和一個(gè)人形膝晾。進(jìn)一步說(shuō),現(xiàn)在的人工智能或許能用最厲害的圖像識(shí)別能力去識(shí)別出月亮务冕,然后判斷距離血当,回答我說(shuō)人離我近。

但這已經(jīng)是目前最先進(jìn)的算法了禀忆。假如我們把問(wèn)題變難臊旭,把月亮的特征抹去,只剩一個(gè)圓形箩退,這時(shí)候再問(wèn):是人離我近還是圓形物體離我近离熏?這下子人和計(jì)算機(jī)都沒(méi)法回答了。所以如果要讓機(jī)器處理這個(gè)問(wèn)題戴涝,就要把每個(gè)點(diǎn)詳細(xì)的XYZ數(shù)據(jù)顯性地報(bào)告給機(jī)器滋戳。如果圓形物體的XYZ數(shù)據(jù)有了,人形的XYZ數(shù)據(jù)也有啥刻,這時(shí)候要判斷距離誰(shuí)近誰(shuí)遠(yuǎn)奸鸯,或者它們之間的距離,問(wèn)題都變得極其簡(jiǎn)單可帽。

所以計(jì)算視覺(jué)里最關(guān)鍵的問(wèn)題就是娄涩,要做三維視覺(jué),一定要通過(guò)某種傳感器的方法映跟,把顯性的XYZ數(shù)據(jù)拿回來(lái)钝满,否則三維視覺(jué)肯定是做不好的。

怎么獲取三維視覺(jué)信息

這件事情目前在行業(yè)里怎么做申窘?

我們現(xiàn)在的拍照手段還拿不到XYZ信息弯蚜,因?yàn)楝F(xiàn)在的圖像傳感器就是個(gè)平面的光電傳感器而已,每個(gè)點(diǎn)只能感應(yīng)到RGB三個(gè)顏色的量化剃法,拍照時(shí)是把物理世界的三維信息壓到一個(gè)平面上碎捺,這是整個(gè)照片成像的物理基礎(chǔ)原理,導(dǎo)致距離信息被天然損失掉了。

現(xiàn)在并沒(méi)有一種魔術(shù)傳感器能把XYZ數(shù)據(jù)拍下來(lái)收厨,我們能用的只有圖像傳感器晋柱。圖像傳感器是目前可用的、唯一的能夠把物理世界通過(guò)視覺(jué)方法拍攝回來(lái)并進(jìn)行量化的渠道诵叁。

XYZ數(shù)據(jù)怎么獲取雁竞,目前主流的方法只能是通過(guò)視覺(jué)的手段,使用圖像傳感器拧额,輔助以一定的光學(xué)手段進(jìn)行視覺(jué)計(jì)算碑诉。這就是我們講的計(jì)算視覺(jué)里非常基礎(chǔ)的一個(gè)技術(shù)點(diǎn)侥锦。

從原理上講进栽,只要兩個(gè)攝像頭,立體視覺(jué)就能夠進(jìn)行測(cè)距恭垦。但在現(xiàn)實(shí)當(dāng)中快毛,雙目攝像頭的測(cè)距方案存在非常大的使用局限,只有在非常良好的特定工作條件下才能勉強(qiáng)應(yīng)用番挺。所以從實(shí)際上講唠帝,要做好一個(gè)三維傳感器或者XYZ數(shù)據(jù)的量化測(cè)量,一定是要應(yīng)用至少兩個(gè)攝像頭玄柏,或者一個(gè)攝像頭襟衰、兩個(gè)攝像頭加一套復(fù)雜的光學(xué)系統(tǒng),再加上專(zhuān)門(mén)的視覺(jué)計(jì)算方法禁荸,才能計(jì)算和測(cè)量完成右蒲。

三維信息和AR/VR的聯(lián)系

有了這些三維信息阀湿,可以做什么事情赶熟,跟AR/VR又有什么聯(lián)系呢?虛擬內(nèi)容必須要跟物理世界完美貼合才能給人帶來(lái)“真實(shí)感”陷嘴,需要3D傳感器對(duì)外部物理世界進(jìn)行三維重建映砖。

微軟可以說(shuō)是在民用的三維視覺(jué)技術(shù)點(diǎn)上,全世界積累得最多的公司灾挨,它做三維相關(guān)的硬件軟件已經(jīng)超過(guò)十年了邑退。在這里舉例微軟的HoloPortation,一個(gè)很黑科技的東西劳澄。

當(dāng)我和一個(gè)朋友一起帶上微軟的HoloPortation系統(tǒng)地技,在我的視野里面就會(huì)出現(xiàn)遠(yuǎn)程那個(gè)人的畫(huà)面,那個(gè)人真實(shí)站在我面前秒拔,我可以圍著他轉(zhuǎn)莫矗,做動(dòng)作等等。這其實(shí)就是把遠(yuǎn)程那個(gè)人的實(shí)時(shí)三維模型建立出來(lái)了,每一個(gè)時(shí)刻的三維模型作谚,每一幀都是完整三娩、準(zhǔn)確的,然后通過(guò)AR/VR設(shè)備顯示出來(lái)妹懒。


微軟的HoloPortation系統(tǒng)

盡管對(duì)于普通消費(fèi)者來(lái)看雀监,這樣建立出來(lái)的“人”視覺(jué)效果并不是很好,不高清眨唬,顏色也太過(guò)鮮艷会前,但微軟的建模能力確實(shí)很厲害,這其中的技術(shù)難度是很大的单绑,在行業(yè)里都稱(chēng)之為黑科技回官。這也是技術(shù)行業(yè)的邊界和消費(fèi)者需求邊界的問(wèn)題,需要有一個(gè)漸近的過(guò)程搂橙。

現(xiàn)階段面臨的問(wèn)題

最后做個(gè)總結(jié)歉提,目前我們存在的問(wèn)題有:

第一,3D傳感器区转,也就是XYZ的獲取較困難苔巨,這個(gè)點(diǎn)是個(gè)薄弱環(huán)節(jié)。

第二废离,把RGB和XYZ數(shù)據(jù)采集回來(lái)后侄泽,怎么去承載和實(shí)現(xiàn)三維視覺(jué)算法的處理器,對(duì)處理器的要求非常大蜻韭,目前的都不夠用悼尾。

第三,視覺(jué)算法的軟件實(shí)現(xiàn)肖方、以及算法本身也還有很多問(wèn)題需要解決闺魏。比如說(shuō)怎么把三維模型建得又快又好。

第四俯画,如果要做更多的智能識(shí)別析桥,三維的物體樣本庫(kù)還沒(méi)有,跟人工智能艰垂、深度學(xué)習(xí)還沒(méi)有結(jié)合起來(lái)泡仗。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市猜憎,隨后出現(xiàn)的幾起案子娩怎,更是在濱河造成了極大的恐慌,老刑警劉巖胰柑,帶你破解...
    沈念sama閱讀 206,214評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件截亦,死亡現(xiàn)場(chǎng)離奇詭異辣辫,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)魁巩,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,307評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門(mén)急灭,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人谷遂,你說(shuō)我怎么就攤上這事葬馋。” “怎么了肾扰?”我有些...
    開(kāi)封第一講書(shū)人閱讀 152,543評(píng)論 0 341
  • 文/不壞的土叔 我叫張陵畴嘶,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我集晚,道長(zhǎng)窗悯,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 55,221評(píng)論 1 279
  • 正文 為了忘掉前任偷拔,我火速辦了婚禮蒋院,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘莲绰。我一直安慰自己欺旧,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,224評(píng)論 5 371
  • 文/花漫 我一把揭開(kāi)白布蛤签。 她就那樣靜靜地躺著辞友,像睡著了一般。 火紅的嫁衣襯著肌膚如雪震肮。 梳的紋絲不亂的頭發(fā)上称龙,一...
    開(kāi)封第一講書(shū)人閱讀 49,007評(píng)論 1 284
  • 那天,我揣著相機(jī)與錄音戳晌,去河邊找鬼鲫尊。 笑死,一個(gè)胖子當(dāng)著我的面吹牛躬厌,可吹牛的內(nèi)容都是我干的马昨。 我是一名探鬼主播竞帽,決...
    沈念sama閱讀 38,313評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼扛施,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了屹篓?” 一聲冷哼從身側(cè)響起疙渣,我...
    開(kāi)封第一講書(shū)人閱讀 36,956評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎堆巧,沒(méi)想到半個(gè)月后妄荔,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體泼菌,經(jīng)...
    沈念sama閱讀 43,441評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,925評(píng)論 2 323
  • 正文 我和宋清朗相戀三年啦租,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了哗伯。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,018評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡篷角,死狀恐怖焊刹,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情恳蹲,我是刑警寧澤虐块,帶...
    沈念sama閱讀 33,685評(píng)論 4 322
  • 正文 年R本政府宣布,位于F島的核電站嘉蕾,受9級(jí)特大地震影響贺奠,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜错忱,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,234評(píng)論 3 307
  • 文/蒙蒙 一儡率、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧以清,春花似錦喉悴、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,240評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至今魔,卻和暖如春勺像,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背错森。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,464評(píng)論 1 261
  • 我被黑心中介騙來(lái)泰國(guó)打工吟宦, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人涩维。 一個(gè)月前我還...
    沈念sama閱讀 45,467評(píng)論 2 352
  • 正文 我出身青樓殃姓,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親瓦阐。 傳聞我的和親對(duì)象是個(gè)殘疾皇子蜗侈,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,762評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容