文| Wanmin Wu & 董飛
●●●
增強(qiáng)現(xiàn)實技術(shù)為什么引起關(guān)注
隨著近日,某家增強(qiáng)現(xiàn)實技術(shù)(Augmented Reality, AR)公司融資14億美元,AR再度成為科技領(lǐng)域內(nèi)一個追捧熱點(diǎn)。其中到底藏著什么樣的巨大前景這么被人們看重呢统台?
在說清楚這個秘密之前,我們先得區(qū)分另一個類似的技術(shù)——虛擬現(xiàn)實技術(shù)(Virtual Reality,VR)北发。兩者的技術(shù)可能有重疊的部分,但應(yīng)用場景則不同喷屋。
簡單來說琳拨,假如有一天,你趕不上演唱會只能看直播屯曹,但不想放棄現(xiàn)場體驗怎么辦狱庇?沒關(guān)系,戴上VR眼鏡恶耽,你在家里就能如身臨其境般感受最逼真的視覺體驗密任。VR眼鏡是不透明的,用于顯示完全虛擬的世界偷俭,把物理世界完全擋住浪讳,即使坐在家里,你也能感到去大溪地“潛水”涌萤。
而AR眼鏡通常是透明的淹遵,讓你能看到現(xiàn)實世界的景象,同時會由眼鏡虛擬出一些圖像疊加在上面负溪。
總的來說透揣,這些設(shè)備是計算機(jī)的必然發(fā)展趨勢。自2007年iPhone面世以來川抡,智能手機(jī)發(fā)展迅猛辐真。用戶隨時隨地帶著它,各項使用數(shù)據(jù)毫無懸念地都在超越PC端崖堤。所以侍咱,人機(jī)交互界面的未來主要在于移動。但現(xiàn)在的手機(jī)局限在于倘感,
(1)既然要便于攜帶屏幕就做得小放坏,屏幕小了某些功能就得受限;
(2)顯示屏幕是平面也就是二維(2D)的老玛,而真實世界是三維(3D)的淤年。
未來的透明AR眼鏡有望實現(xiàn)大突破,既能讓用戶隨身攜帶蜡豹,又能在眼前顯示超大屏幕麸粮,還能把以假亂真的3D內(nèi)容渲染到人所看到的真實世界里。想象你坐在教室里自習(xí)镜廉,講臺上的老師看起來真實無比弄诲,但其實他就是在你的眼鏡上虛擬出來的人。這樣的眼鏡大概不會完全取代手機(jī),但毫無疑問潛力無窮齐遵。
跟VR比較寂玲,AR的應(yīng)用場景更廣闊。畢竟梗摇,我們一般不會戴著VR頭盔在大街上逛吧拓哟。本質(zhì)上,AR是VR的超集伶授,鏡片前面一擋就成了VR断序。
戴眼鏡好麻煩,能不能裸視糜烹?
直接像《星球大戰(zhàn)》一樣违诗,在空氣中顯示全息圖(Holography)行不行?這樣的美好愿景疮蹦,有一天也許能做成诸迟,但近期看離實用還早。
現(xiàn)在有一些大學(xué)實驗室的確在研究裸眼光場顯示器(Light Field Display)愕乎,但需要很復(fù)雜笨重昂貴的設(shè)備亮蒋,還必須先安置才能使用。相對這些妆毕,做成眼鏡的效果要好得多。輕便的AR眼鏡將是移動人機(jī)交互界面上贮尖,也是計算機(jī)發(fā)展的重大革新笛粘。
在VR頭盔前加個攝像頭也能成AR,為什么非要做透明湿硝?
說起來AR有兩種薪前,一種是前面所說的透明AR(Optical See-through),人透過鏡片能直接看到現(xiàn)實世界关斜。另一種就是“視頻疊加”(Video See-through; Video Overlay)——通過攝像頭捕捉現(xiàn)實世界圖景示括,然后以視頻的方式呈現(xiàn)給用戶,同時其中再渲染一些畫面痢畜。事實上垛膝,現(xiàn)在手機(jī)和平板上已經(jīng)出現(xiàn)了很多Video Overlay的應(yīng)用,比如看星空丁稀,求翻譯吼拥,選家具等。
那為什么不用VR頭盔加攝像頭實現(xiàn)這種AR呢线衫?事實上凿可,現(xiàn)在很多VR頭盔都在試探這種做法。不過授账,它和透明AR相比各有優(yōu)劣枯跑。其優(yōu)勢在于惨驶,用視頻實現(xiàn)的虛擬和現(xiàn)實的疊加(overlay)要比透明AR簡單得多。這也是為什么它已經(jīng)開始在移動端商用的原因敛助。
但劣勢也可想而知粗卜,用戶看到的畢竟只是一個2D視頻,質(zhì)量跟眼睛直接看到的世界差距很大辜腺。而且視頻從采集到顯示總是有延遲的休建,如果跟體感信號不一致的話會造成身體不適。所以不管怎樣评疗,還是會有公司追求更好的產(chǎn)品體驗测砂,前仆后繼地去做透明AR的。
光憑這些就能融到14億美金百匆?
前面我們說了AR技術(shù)應(yīng)用潛力砌些,這只是資本看重的一方面,同時還有技術(shù)加匈,創(chuàng)始人存璃,團(tuán)隊的原因。
其實雕拼,該AR的核心技術(shù)來自華盛頓大學(xué)前研究員Brian Schowengerdt纵东。 他導(dǎo)師Eric Seibel是光纖掃描內(nèi)窺鏡(Scanning Fiber Endoscope)的專家。大家都知道啥寇,內(nèi)窺鏡就是醫(yī)生們做手術(shù)時用來體內(nèi)成像的偎球,本質(zhì)是個微小攝像頭。Brian很聰明地逆轉(zhuǎn)光路辑甜,把這個技術(shù)用到了顯示上衰絮。這樣通過極細(xì)的光纖(如左圖所示)用激光就可以打出彩色的圖像。
這個技術(shù)十幾年前就發(fā)表了[2]磷醋,后來又不斷改進(jìn)猫牡,生成了一堆專利。該AR技術(shù)在很大程度上是基于Brian的這些專利邓线。
那這種技術(shù)為什么重要呢淌友?我們后面留成一個專門的問題講。
然而光技術(shù)牛是不夠的褂痰,要想做好AR眼鏡亩进,可想而知是需要軟件硬件都得有重大突破。國際大公司可能有財力去做這個事缩歪,為什么他們認(rèn)為一個初創(chuàng)小企業(yè)能做成归薛?我覺得,其團(tuán)隊創(chuàng)始人Rony Abovitz起的作用非常大。他曾經(jīng)在機(jī)器人手術(shù)(Robotic Surgery)上創(chuàng)業(yè)主籍,做骨科手術(shù)精準(zhǔn)定位习贫。2004年創(chuàng)建的公司,2008年就上市了千元,后來在2013年以16.5億美元被并購苫昌。聽起來就是很牛,這種背景當(dāng)然拉投資比較容易幸海。
除了創(chuàng)始人兼CEO很牛祟身,其團(tuán)隊也不一般,計算機(jī)視覺部分更有不少業(yè)內(nèi)大牛物独。合作的團(tuán)隊更有在好萊塢給電影做特效的袜硫。而公司當(dāng)年用來拉投資用的概念視頻就像一個微型電影一樣。
新技術(shù)核心:光場顯示技術(shù)為什么對AR很重要
首先挡篓,光場顯示技術(shù)基于極細(xì)的光纖婉陷,可以讓眼鏡做得輕薄。但更重要的是官研,Brian證明秽澳,這種光纖技術(shù)不僅可以投射出一個2D圖片,還能顯示出一個光場(Light Field)戏羽。
目前利用眼鏡實現(xiàn)的3D主要可分成兩種技術(shù)框架:Stereoscopic(中文翻譯成“立體”担神,但其實不夠準(zhǔn)確),和Light Field(光場)始花。Stereoscopic眼鏡早已商化杏瞻,比如所有3D影院里用的,還有市面上幾乎所有AR和VR眼鏡/原型衙荐。而Light Field還只在實驗室里有雛形。
什么是Stereoscopic 3D浮创?為什么它不夠好忧吟?又什么新技術(shù)核心是Light Field呢?
Stereoscopic 3D是假3D
3D圖像比2D圖片多了一個維度斩披,這個維度就是景深(depth)溜族,其在感官上有明顯的區(qū)別(只有少數(shù)人有雙盲癥不能看到)。
人眼感知景深有很多機(jī)制垦沉,包括單眼(monocular)和雙眼(binocular)機(jī)制煌抒。單眼能感知的景深信號有很多種,比如:一個東西遮擋了另一個(occlusion)厕倍,熟悉的物體的大泄炎场(relative size/height),物體移動的變化(motion parallax)——遠(yuǎn)的物體變化慢、近的物體變化快况既。所以在此基礎(chǔ)上这溅,人類雙眼的景深信號也非常強(qiáng):兩只眼睛看到同一個場景會有細(xì)微差別,這讓大腦能通過三角計算(triangulation)來得到物體景深棒仍。人類在遠(yuǎn)古時就有這樣的感知悲靴,幫助他們很好地判斷對面的老虎或者鹿到底離自己有多遠(yuǎn)。
Stereoscopic 3D也就是利用這個原理給雙眼分別顯示不同的圖片(如下圖)莫其,它們很相似癞尚,只在水平方向上有細(xì)微差別。而這兩張圖片拍攝的時候乱陡,就是用兩個并排的相機(jī)模擬人眼的位置拍的浇揩。實際上,現(xiàn)在的3D電影也都是基于這個原理蛋褥。通過一些光學(xué)技術(shù)把細(xì)微差別的畫面分別傳入左右雙眼临燃,以形成立體的感知。
但這樣的Stereoscopic 3D有些問題烙心。簡單來說膜廊,它會引起用戶身體不適如頭暈、惡心等淫茵。為什么呢爪瓜?這又涉及到另一個視覺原理。
當(dāng)我們在看一個現(xiàn)實世界中的物體時匙瘪,眼睛其實有兩種自然反應(yīng):
(1) 聚焦(Accommodation/Focus):眼睛的晶狀體就像一個凸透鏡铆铆,它會調(diào)節(jié)凸度來讓那個物體在咱們視網(wǎng)膜上清楚成像。
(2) 會聚(Convergence):在每只眼睛聚焦的同時丹喻,兩只眼球還會有旋轉(zhuǎn)運(yùn)動來一起指向那個物體薄货。
很自然地,這兩種反射運(yùn)動在神經(jīng)上是聯(lián)接的(Neurally Coupled)碍论,也就是說任意一種運(yùn)動會自動引發(fā)另一種運(yùn)動谅猾。這也意味著,在人眼看真實物體的時候鳍悠,聚焦和會聚的距離總是相等的(Vergence Distance = Accommodation Distance税娜,參見下圖A)。
那么Stereoscopic 3D的問題就來了藏研。因為Stereoscopic屏幕到眼的投射距離總是固定的敬矩,也就是聚焦不變蠢挡,但對圖片的感知會讓眼睛會聚在不同的距離以產(chǎn)生景深3D效果(見上圖B)。所以,這兩種距離經(jīng)常是不一致的艺演,以至于造成這兩種神經(jīng)相連的運(yùn)動強(qiáng)行分離(Neurally Decoupled)。
從另一個角度講,在自然世界里肿男,當(dāng)人眼聚焦并會聚到一個物體時,別的距離的物體應(yīng)該都是模糊的(上圖C)如庭。而在Stereoscopic 3D里,不管人眼聚焦到哪兒往毡,別的距離的物體成像都是清楚的(上圖D)。
這些都不符合自然界人眼的規(guī)律挎狸,因此大腦會產(chǎn)生混亂崭别,長時間就會引起惡心暈眩等癥狀[4]舞痰。所以Stereoscopic其實是用了一個小伎倆讓人能看到3D效果,但它并不是真3D。
光場(Light Field)是真3D
光場顯示跟Stereoscopic 3D比有很大不同贬丛,它能讓人眼聚焦到不同的距離,從而和會聚的距離保持一致。這是最符合人眼觀察自然世界規(guī)律的做法暮屡,因此被稱為true-3D。但要實現(xiàn)這樣的光場顯示,并不是那么簡單〕垢眩現(xiàn)在主要是兩種方法:空間復(fù)用(Space Multiplexing)和時間復(fù)用(Time Multiplexing)桦锄。
“空間復(fù)用”留夜,就是把一個像素當(dāng)幾個像素用鳖眼,來實現(xiàn)不同的聚焦距離低斋。這個方法最大的問題就是分辨率大打折扣掘猿。我曾經(jīng)試戴過买猖,基本就是霧里看花飞主。
“時間復(fù)用”虱而,就是用高速原件來快速產(chǎn)生不同的聚焦距離魁瞪,讓人眼以為它們是同時產(chǎn)生的旅薄,這樣分辨率不會損失律想。大家知道人眼的速度感知是有限的,很多顯示器都是60Hz的身笤,因為人眼能分辨的極限值一般就是60Hz娇钱。這意味著什么呢,如果利用360Hz的高速顯示器,就可以實現(xiàn)6個不同的聚焦距離吧彪。而有研究表明用6個聚焦距離加上一種線性混合(Linear Blending)的渲染算法就基本能實現(xiàn)從約30厘米到無窮遠(yuǎn)讓人眼自然對焦[5]。
而Brian的高速激光光纖掃描(Scanning Fiber)技術(shù)就是一種時間復(fù)用的辦法怨酝。他當(dāng)年先試過只用一根光纖掃描不同聚焦距離傀缩,這樣做明顯對顯示速度要求太高,后來用一個光纖束农猬,比如16根赡艰,每個光纖有一點(diǎn)位置差,然后同時掃描得到不同聚焦距離斤葱。
這樣的光場受現(xiàn)實的局限慷垮,肯定不可能是連續(xù)的揖闸,都是被采樣的(downsampled)。但是料身,即使是這樣的光場投射到眼睛里也在理論上跟真實世界物體光線進(jìn)入眼睛是一個道理汤纸,因此可以實現(xiàn)true-3D。這也是為什么光場顯示技術(shù)重要的原因芹血。
透明AR眼鏡還面臨哪些挑戰(zhàn)
1. 顯示
首先能實現(xiàn)近眼光場顯示就很難贮泞,古老的Stereoscopic 3D方法使用戶戴長了就會眼困頭暈。而光場顯示技術(shù)理論上成立幔烛,現(xiàn)實中也還有很多問題要解決啃擦。比如:
系統(tǒng)大小:據(jù)報道都還是像一個冰箱一樣大的饿悬,離可穿戴還有很長的路要走令蛉。
光場采樣:既然是采樣就一定有損失,比如對比度清晰度上乡恕,如何才能最優(yōu)采樣言询?
聚焦和會聚(Accommodation-vergence Matching):即便聚焦距離對了,也要保證會聚距離始終與其保持一致傲宜。Magic Leap現(xiàn)在的demo視頻還只是從單眼攝制的运杭,還沒有證據(jù)表明他們很好地解決了雙眼問題。
室外顯示:現(xiàn)在業(yè)內(nèi)demo都是室內(nèi)的函卒。當(dāng)用戶在室外時辆憔,太陽光強(qiáng)度比顯示光高幾個數(shù)量級。至少鏡片需要有自動調(diào)光的技術(shù)报嵌。
捕捉內(nèi)容:雖然現(xiàn)在可以用計算機(jī)圖形來做demo虱咧,但以后的應(yīng)用一定會需要相機(jī)采集的內(nèi)容,而光場的拍攝本身還有很多問題要解決锚国。
散熱:是一個容易被忽視的問題腕巡。當(dāng)年Google Glass出來的時候有人說用著用著臉就像要燒起來了。
2. 鏡片
近眼顯示有兩個關(guān)鍵部件:顯示器和鏡片⊙現(xiàn)在大部分的AR眼鏡鏡片都是基于分光鏡(Beamsplitter Prism)绘沉。
如圖左,簡單的分光鏡就是45度角豺总,把顯示器產(chǎn)生的光從眼鏡框反射進(jìn)人眼车伞,也同時讓現(xiàn)實世界的光透進(jìn)來。這樣做簡單便宜喻喳,但是鏡片厚另玖。理想的狀態(tài)下,不僅要做到視角(Field-of-View)大,還要輕薄谦去,透光性好慷丽,在折射/反射顯示光的時候也要盡量保持光的屬性并做到盡量小的光損失。
3. 視角(FoV)和分辨率(Resolution)
視角直接決定了用戶體驗■蓿現(xiàn)在的很多AR眼鏡視角還在20°-40°之間盈魁,曾有不少試戴了的記者都對它的視角表示失望。而人眼的橫向視角雙眼差不多有200°窃诉,縱向有130°。視角大意味著總的分辨率也要很大才能覆蓋赤套,8K*8K才會比較理想飘痛。
4. 遮擋(Occlusion)
前面說到過單眼的景深感知有一個很重要的信號就是物體之間的遮擋。在用透明AR眼鏡時容握,一個關(guān)鍵問題就是虛擬物體和現(xiàn)實物體之間的遮擋怎么實現(xiàn)宣脉。
如果是現(xiàn)實物體在前面,虛擬物體在后面剔氏,還相對比較好辦塑猖,就是要自動探測現(xiàn)實物體的距離,再計算出虛擬物體哪些部位需要遮擋從而不渲染谈跛。但是如果反過來羊苟,虛擬物體需要遮擋現(xiàn)實物體,就沒那么直接了感憾,因為理論上需要把現(xiàn)實物體的光從眼鏡上選擇性地濾掉蜡励。從現(xiàn)有的樣機(jī)上看,在虛擬物體明亮?xí)r阻桅,它本身的亮度會自然遮擋后面的真實物體凉倚,但當(dāng)虛擬物體比較暗時,就會有有所謂的“鬼影效果”(Ghost Effect)嫂沉,結(jié)果又會讓大腦產(chǎn)生混亂稽寒。
如果想實現(xiàn)完全正確的遮擋效果,只能在鏡片上做實時的像素級的濾光機(jī)制(Per-pixel Shutter)趟章,但現(xiàn)在的技術(shù)都還不成熟杏糙。
Magic Leap:以增強(qiáng)現(xiàn)實展示科幻世界
5. 渲染黑色
透明AR眼鏡現(xiàn)在還沒辦法渲染黑色。因為它說到底是虛擬光和自然光的疊加尤揣。如果畫黑色搔啊,用戶是看不到的,只會看到后面的背景真實物體的光北戏。類似的暗色都有這個問題负芋。
6. 延遲
透明AR眼鏡還有一個很大的挑戰(zhàn)就是延遲。把虛擬物體疊加到真實物體上,比如放一個虛擬水杯到一個真實桌子上旧蛾,涉及到一系列計算:探測真實物體→計算它的空間位置和方向→計算疊加位置→渲染虛擬物體等莽龟。這一切都必須在一眨眼內(nèi)發(fā)生,讓用戶感覺不到延遲锨天。比如我們的頭可能是一直在動的毯盈,隨著我們頭動,我們看到的那個虛擬水杯應(yīng)該在桌上原來的位置不動才對病袄。而如果系統(tǒng)延遲過大搂赋,我們看到的那個水杯的位置可能總是不對,大腦又要混亂了益缠。
這對透明AR挑戰(zhàn)尤其大脑奠,因為我們是直接看到真實世界的,幾乎沒有任何延遲幅慌,而虛擬物體的渲染得能跟上這個速度才顯得自然宋欺。在Video Overlay里,就沒有這個問題胰伍,因為我們看到的真實世界的視頻已經(jīng)是延遲的了齿诞,這樣在上面的物體疊加就比較容易跟它保持同步。
7. 激光
有技術(shù)專利是用激光直接打到人眼里骂租,可以解決許多光學(xué)問題祷杈。但安全性方面還沒有確切的科學(xué)證據(jù)。所以用戶接受度是個問題渗饮,很多人估計一聽到這個就望而卻步了吠式。
說了這么多,這下一代移動人機(jī)交互界面到底什么時候能做成呢抽米?我個人感覺要做成人民群眾喜聞樂見的版本至少要5年時間特占,也許更長。以上列出的這些挑戰(zhàn)云茸,每一個都還需要很多努力才能解決是目。目前它們很多都還不到量變,只是需要優(yōu)化的階段标捺,需要大的質(zhì)的飛躍懊纳。路漫漫而修遠(yuǎn)兮,可既然這是計算機(jī)發(fā)展的必然方向亡容,我們就拭目以待吧嗤疯。
薦讀:
顧險峰教授的Magic Leap核心技術(shù)揭秘:http://blog.sciencenet.cn/blog-2472277-954754.html
知乎問答:Magic Leap 和微軟的 HoloLens 相比有哪些異同點(diǎn) https://www.zhihu.com/question/36921637
參考文獻(xiàn):
[1] Brian T. Schowengerdt et al., 3D Displays using Scanning Laser Projection, SID Symposium Digest of Technical Papers
Volume 43, Issue 1, pages 640–643, June 2012.
[2] Brian T. Schowengerdt et al., True Three-Dimensional Displays that Allow Viewers to Dynamically Shift Accommodation, Bringing Objects Displayed at Different Viewing Distances Into and Out of Focus, CYBERPSYCHOLOGY & BEHAVIOR Volume 7, Number 6, 2004.
[3] Xu Liu and Haifeng Li, The Progress of Light-Field 3-D Displays, Information Display, 2014.
[4] David M. Hoffman et al., Vergence–accommodation conflicts hinder visual performance and cause visual fatigue, J. Vis. 2010.
[5] K. J. MacKenzie, D. M. Hoffman, and S. J. Watt, Accommodation to Multiple-Focal-Plane Displays: Implications for Improving Stereoscopic Displays and for Accommodation Control, Journal of Vision(2010).
吳萬敏博士,浙江大學(xué)計算機(jī)專業(yè)本科闺兢,伊利諾伊大學(xué)香檳分校博士茂缚。畢業(yè)后到硅谷工作,曾任理光創(chuàng)新實驗室顧問研究科學(xué)家,現(xiàn)在谷歌工作脚囊。9年專注VR/AR技術(shù)的美女龟糕。
董飛,知乎達(dá)人悔耘,分享過《哪些硅谷創(chuàng)業(yè)公司能給拜訪者留下深刻印象》讲岁,《美國大數(shù)據(jù)工程師面試攻略》,《Coursera 上有哪些課程值得推薦》引起強(qiáng)烈反響衬以,受到社交圈廣泛轉(zhuǎn)載缓艳。
本科南開大學(xué),碩士杜克大學(xué)計算機(jī)系畢業(yè)看峻。先后創(chuàng)業(yè)公司酷迅郎任,百度基礎(chǔ)架構(gòu)組,Amazon 云計算部門备籽,Linkedin擔(dān)任高級工程師,負(fù)責(zé)過垂直搜索分井,百度云計算平臺研發(fā)和廣告系統(tǒng)的架構(gòu)车猬。2014年加入在線教育創(chuàng)業(yè)公司Coursera從事數(shù)據(jù)工程師工作。
(責(zé)任編輯 沈龐)
原載《董老師在硅谷》尺锚,微信號donglaoshi-123珠闰,《知識分子》獲授權(quán)刊載。
近期熱文
謝家麟昨日辭世:人生到站伏嗜,要把經(jīng)歷告訴青年人
LIGO發(fā)現(xiàn)引力波:人類從此擁有新的宇宙感知力
知識分子,為更好的智趣生活伐厌。