星之光|AR技術(shù)不得不說(shuō)的秘密
2022-10-15
增強現實(shí)技術(shù)為什么引起關(guān)注
隨著(zhù)近日,某家增強現實(shí)技術(shù)(Augmented Reality, AR)公司融資14億美元,AR再度成為科技領(lǐng)域內一個(gè)追捧熱點(diǎn)。其中到底藏著(zhù)什么樣的巨大前景這么被人們看重呢?
在說(shuō)清楚這個(gè)秘密之前,我們先得區分另一個(gè)類(lèi)似的技術(shù)——虛擬現實(shí)技術(shù)(Virtual Reality,VR)。兩者的技術(shù)可能有重疊的部分,但應用場(chǎng)景則不同。
簡(jiǎn)單來(lái)說(shuō),假如有一天,你趕不上演唱會(huì )只能看直播,但不想放棄現場(chǎng)體驗怎么辦?沒(méi)關(guān)系,戴上VR眼鏡,你在家里就能如身臨其境般感受最逼真的視覺(jué)體驗。VR眼鏡是不透明的,用于顯示完全虛擬的世界,把物理世界完全擋住,即使坐在家里,你也能感到去大溪地“潛水”。
而AR眼鏡通常是透明的,讓你能看到現實(shí)世界的景象,同時(shí)會(huì )由眼鏡虛擬出一些圖像疊加在上面。
總的來(lái)說(shuō),這些設備是計算機的必然發(fā)展趨勢。自2007年iPhone面世以來(lái),智能手機發(fā)展迅猛。用戶(hù)隨時(shí)隨地帶著(zhù)它,各項使用數據毫無(wú)懸念地都在超越PC端。所以,人機交互界面的未來(lái)主要在于移動(dòng)。但現在的手機局限在于,
(1)既然要便于攜帶屏幕就做得小,屏幕小了某些功能就得受限;
(2)顯示屏幕是平面也就是二維(2D)的,而真實(shí)世界是三維(3D)的。
未來(lái)的透明AR眼鏡有望實(shí)現大突破,既能讓用戶(hù)隨身攜帶,又能在眼前顯示超大屏幕,還能把以假亂真的3D內容渲染到人所看到的真實(shí)世界里。想象你坐在教室里自習,講臺上的老師看起來(lái)真實(shí)無(wú)比,但其實(shí)他就是在你的眼鏡上虛擬出來(lái)的人。這樣的眼鏡大概不會(huì )完全取代手機,但毫無(wú)疑問(wèn)潛力無(wú)窮。
跟VR比較,AR的應用場(chǎng)景更廣闊。畢竟,我們一般不會(huì )戴著(zhù)VR頭盔在大街上逛吧。本質(zhì)上,AR是VR的超集,鏡片前面一擋就成了VR。
戴眼鏡好麻煩,能不能裸視?
直接像《星球大戰》一樣,在空氣中顯示全息圖(Holography)行不行?這樣的美好愿景,有一天也許能做成,但近期看離實(shí)用還早。
現在有一些大學(xué)實(shí)驗室的確在研究裸眼光場(chǎng)顯示器(Light Field Display),但需要很復雜笨重昂貴的設備,還必須先安置才能使用。相對這些,做成眼鏡的效果要好得多。輕便的AR眼鏡將是移動(dòng)人機交互界面上,也是計算機發(fā)展的重大革新。
在VR頭盔前加個(gè)攝像頭也能成AR,為什么非要做透明?
說(shuō)起來(lái)AR有兩種,一種是前面所說(shuō)的透明AR(Optical See-through),人透過(guò)鏡片能直接看到現實(shí)世界。另一種就是“視頻疊加”(Video See-through; Video Overlay)——通過(guò)攝像頭捕捉現實(shí)世界圖景,然后以視頻的方式呈現給用戶(hù),同時(shí)其中再渲染一些畫(huà)面。事實(shí)上,現在手機和平板上已經(jīng)出現了很多Video Overlay的應用,比如看星空,求翻譯,選家具等。
那為什么不用VR頭盔加攝像頭實(shí)現這種AR呢?事實(shí)上,現在很多VR頭盔都在試探這種做法。不過(guò),它和透明AR相比各有優(yōu)劣。其優(yōu)勢在于,用視頻實(shí)現的虛擬和現實(shí)的疊加(overlay)要比透明AR簡(jiǎn)單得多。這也是為什么它已經(jīng)開(kāi)始在移動(dòng)端商用的原因。
但劣勢也可想而知,用戶(hù)看到的畢竟只是一個(gè)2D視頻,質(zhì)量跟眼睛直接看到的世界差距很大。而且視頻從采集到顯示總是有延遲的,如果跟體感信號不一致的話(huà)會(huì )造成身體不適。所以不管怎樣,還是會(huì )有公司追求更好的產(chǎn)品體驗,前仆后繼地去做透明AR的。
光憑這些就能融到14億美金?
前面我們說(shuō)了AR技術(shù)應用潛力,這只是資本看重的一方面,同時(shí)還有技術(shù),創(chuàng )始人,團隊的原因。
其實(shí),該AR的核心技術(shù)來(lái)自華盛頓大學(xué)前研究員Brian Schowengerdt。 他導師Eric Seibel是光纖掃描內窺鏡(Scanning Fiber Endoscope)的專(zhuān)家。大家都知道,內窺鏡就是醫生們做手術(shù)時(shí)用來(lái)體內成像的,本質(zhì)是個(gè)微小攝像頭。Brian很聰明地逆轉光路,把這個(gè)技術(shù)用到了顯示上。這樣通過(guò)極細的光纖(如左圖所示)用激光就可以打出彩色的圖像。
這個(gè)技術(shù)十幾年前就發(fā)表了[2],后來(lái)又不斷改進(jìn),生成了一堆專(zhuān)利。該AR技術(shù)在很大程度上是基于Brian的這些專(zhuān)利。
那這種技術(shù)為什么重要呢?我們后面留成一個(gè)專(zhuān)門(mén)的問(wèn)題講。
然而光技術(shù)牛是不夠的,要想做好AR眼鏡,可想而知是需要軟件硬件都得有重大突破。國際大公司可能有財力去做這個(gè)事,為什么他們認為一個(gè)初創(chuàng )小企業(yè)能做成?我覺(jué)得,其團隊創(chuàng )始人Rony Abovitz起的作用非常大。他曾經(jīng)在機器人手術(shù)(Robotic Surgery)上創(chuàng )業(yè),做骨科手術(shù)精準定位。2004年創(chuàng )建的公司,2008年就上市了,后來(lái)在2013年以16.5億美元被并購。聽(tīng)起來(lái)就是很牛,這種背景當然拉投資比較容易。
除了創(chuàng )始人兼CEO很牛,其團隊也不一般,計算機視覺(jué)部分更有不少業(yè)內大牛。合作的團隊更有在好萊塢給電影做特效的。而公司當年用來(lái)拉投資用的概念視頻就像一個(gè)微型電影一樣。
新技術(shù)核心:光場(chǎng)顯示技術(shù)為什么對AR很重要
首先,光場(chǎng)顯示技術(shù)基于極細的光纖,可以讓眼鏡做得輕薄。但更重要的是,Brian證明,這種光纖技術(shù)不僅可以投射出一個(gè)2D圖片,還能顯示出一個(gè)光場(chǎng)(Light Field)。
目前利用眼鏡實(shí)現的3D主要可分成兩種技術(shù)框架:Stereoscopic(中文翻譯成“立體”,但其實(shí)不夠準確),和Light Field(光場(chǎng))。Stereoscopic眼鏡早已商化,比如所有3D影院里用的,還有市面上幾乎所有AR和VR眼鏡/原型。而Light Field還只在實(shí)驗室里有雛形。
什么是Stereoscopic 3D?為什么它不夠好?又什么新技術(shù)核心是Light Field呢?
Stereoscopic 3D是假3D
3D圖像比2D圖片多了一個(gè)維度,這個(gè)維度就是景深(depth),其在感官上有明顯的區別(只有少數人有雙盲癥不能看到)。
人眼感知景深有很多機制,包括單眼(monocular)和雙眼(binocular)機制。單眼能感知的景深信號有很多種,比如:一個(gè)東西遮擋了另一個(gè)(occlusion),熟悉的物體的大小(relative size/height),物體移動(dòng)的變化(motion parallax)——遠的物體變化慢、近的物體變化快。所以在此基礎上,人類(lèi)雙眼的景深信號也非常強:兩只眼睛看到同一個(gè)場(chǎng)景會(huì )有細微差別,這讓大腦能通過(guò)三角計算(triangulation)來(lái)得到物體景深。人類(lèi)在遠古時(shí)就有這樣的感知,幫助他們很好地判斷對面的老虎或者鹿到底離自己有多遠。
Stereoscopic 3D也就是利用這個(gè)原理給雙眼分別顯示不同的圖片(如下圖),它們很相似,只在水平方向上有細微差別。而這兩張圖片拍攝的時(shí)候,就是用兩個(gè)并排的相機模擬人眼的位置拍的。實(shí)際上,現在的3D電影也都是基于這個(gè)原理。通過(guò)一些光學(xué)技術(shù)把細微差別的畫(huà)面分別傳入左右雙眼,以形成立體的感知。
但這樣的Stereoscopic 3D有些問(wèn)題。簡(jiǎn)單來(lái)說(shuō),它會(huì )引起用戶(hù)身體不適如頭暈、惡心等。為什么呢?這又涉及到另一個(gè)視覺(jué)原理。
當我們在看一個(gè)現實(shí)世界中的物體時(shí),眼睛其實(shí)有兩種自然反應:
(1) 聚焦(Accommodation/Focus):眼睛的晶狀體就像一個(gè)凸透鏡,它會(huì )調節凸度來(lái)讓那個(gè)物體在咱們視網(wǎng)膜上清楚成像。
(2) 會(huì )聚(Convergence):在每只眼睛聚焦的同時(shí),兩只眼球還會(huì )有旋轉運動(dòng)來(lái)一起指向那個(gè)物體。
很自然地,這兩種反射運動(dòng)在神經(jīng)上是聯(lián)接的(Neurally Coupled),也就是說(shuō)任意一種運動(dòng)會(huì )自動(dòng)引發(fā)另一種運動(dòng)。這也意味著(zhù),在人眼看真實(shí)物體的時(shí)候,聚焦和會(huì )聚的距離總是相等的(Vergence Distance = Accommodation Distance)。
那么Stereoscopic 3D的問(wèn)題就來(lái)了。因為Stereoscopic屏幕到眼的投射距離總是固定的,也就是聚焦不變,但對圖片的感知會(huì )讓眼睛會(huì )聚在不同的距離以產(chǎn)生景深3D效果(見(jiàn)上圖B)。所以,這兩種距離經(jīng)常是不一致的,以至于造成這兩種神經(jīng)相連的運動(dòng)強行分離(Neurally Decoupled)。