使用人工智能實(shí)時(shí)生成3D全息圖
一種稱為張量全息術(shù)的新方法可以為虛擬現(xiàn)實(shí)、3D打印、醫(yī)學(xué)成像等創(chuàng)建全息圖,并且可以在智能手機(jī)上運(yùn)行。盡管多年來大肆宣傳,但虛擬現(xiàn)實(shí)耳機(jī)尚未取代電視或電腦屏幕,成為觀看視頻的首選設(shè)備。原因之一:VR會(huì)讓用戶感到惡心??赡軙?huì)導(dǎo)致惡心和眼睛疲勞,因?yàn)閂R會(huì)產(chǎn)生3D觀看的錯(cuò)覺,盡管用戶實(shí)際上是盯著固定距離的2D顯示器。更好的3D可視化解決方案可能在于為數(shù)字世界重新打造的60年前技術(shù):全息圖。
全息圖提供了我們周圍3D世界的特殊表現(xiàn)。另外,它們很漂亮。(繼續(xù)-查看您的Visa卡上的全息鴿子。)全息圖根據(jù)觀看者的位置提供變換視角,并且它們允許眼睛調(diào)整焦深以交替聚焦于前景和背景。
長期以來,研究人員一直試圖制作計(jì)算機(jī)生成的全息圖,但該過程傳統(tǒng)上需要一臺(tái)超級計(jì)算機(jī)來進(jìn)行物理模擬,這既耗時(shí)又可能產(chǎn)生不那么逼真的結(jié)果。研究人員說,現(xiàn)在,麻省理工學(xué)院的研究人員已經(jīng)開發(fā)出一種幾乎可以立即生成全息圖的新方法——這種基于深度學(xué)習(xí)的方法非常高效,眨眼間就可以在筆記本電腦上運(yùn)行。
“人們以前認(rèn)為,使用現(xiàn)有的消費(fèi)級硬件,不可能進(jìn)行實(shí)時(shí)3D全息計(jì)算,”該研究的主要作者、麻省理工學(xué)院電氣工程與計(jì)算機(jī)科學(xué)系(EECS)博士生梁石說。“人們常說,商用全息顯示器將在10年內(nèi)問世,但這種說法已經(jīng)存在了幾十年。”
Shi相信,這種被團(tuán)隊(duì)稱為“張量全息術(shù)”的新方法最終將使這個(gè)難以捉摸的10年目標(biāo)觸手可及。這一進(jìn)步可能會(huì)推動(dòng)全息技術(shù)擴(kuò)散到VR和3D打印等領(lǐng)域。
Shi與他的顧問和合著者WojciechMatusik共同完成了這項(xiàng)發(fā)表在《自然》雜志上的研究。其他合著者包括EECS和麻省理工學(xué)院計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室的李北辰,以及前麻省理工學(xué)院研究人員ChangilKim(現(xiàn)供職Facebook)和PetrKellnhofer(現(xiàn)供職于斯坦福大學(xué))。
追求更好的3D
典型的基于鏡頭的照片會(huì)對每個(gè)光波的亮度進(jìn)行編碼——照片可以忠實(shí)地再現(xiàn)場景的顏色,但最終會(huì)產(chǎn)生平面圖像。
相比之下,全息圖對每個(gè)光波的亮度和相位進(jìn)行編碼。這種組合可以更真實(shí)地描述場景的視差和深度。因此,雖然莫奈的“睡蓮”照片可以突出畫作的色覺,但全息圖可以使作品栩栩如生,呈現(xiàn)每個(gè)筆觸的獨(dú)特3D紋理。但是,盡管它們很現(xiàn)實(shí),但全息圖的制作和分享仍然是一個(gè)挑戰(zhàn)。
最早于1900年代中期開發(fā)的早期全息圖是以光學(xué)方式記錄的。這需要分裂激光束,其中一半用于照亮對象,另一半用作光波相位的參考。這個(gè)參考產(chǎn)生了全息圖獨(dú)特的深度感。生成的圖像是靜態(tài)的,因此無法捕捉運(yùn)動(dòng)。而且它們只是硬拷貝,因此難以復(fù)制和共享。
計(jì)算機(jī)生成的全息通過模擬光學(xué)設(shè)置來回避這些挑戰(zhàn)。但這個(gè)過程可能是一個(gè)計(jì)算過程。“因?yàn)閳鼍爸械拿總€(gè)點(diǎn)都有不同的深度,所以不能對所有點(diǎn)應(yīng)用相同的操作,”施說。“這顯著增加了復(fù)雜性。”指揮集群超級計(jì)算機(jī)運(yùn)行這些基于物理的模擬可能需要幾秒鐘或幾分鐘才能獲得單個(gè)全息圖像。此外,現(xiàn)有算法不能以逼真的精度對遮擋進(jìn)行建模。所以施的團(tuán)隊(duì)采取了不同的方法:讓計(jì)算機(jī)自學(xué)物理。
他們使用深度學(xué)習(xí)來加速計(jì)算機(jī)生成的全息圖,從而實(shí)現(xiàn)實(shí)時(shí)全息圖生成。該團(tuán)隊(duì)設(shè)計(jì)了一個(gè)卷積神經(jīng)網(wǎng)絡(luò)——一種使用一系列可訓(xùn)練張量來粗略模擬人類如何處理視覺信息的處理技術(shù)。訓(xùn)練神經(jīng)網(wǎng)絡(luò)通常需要一個(gè)大型、高質(zhì)量的數(shù)據(jù)集,而3D全息圖以前不存在這種數(shù)據(jù)集。
該團(tuán)隊(duì)建立了一個(gè)包含4,000對計(jì)算機(jī)生成圖像的自定義數(shù)據(jù)庫。每對匹配一張圖片——包括每個(gè)像素的顏色和深度信息——與其對應(yīng)的全息圖。為了在新數(shù)據(jù)庫中創(chuàng)建全息圖,研究人員使用了形狀和顏色復(fù)雜多變的場景,像素深度從背景到前景均勻分布,并使用一組新的基于物理的計(jì)算來處理遮擋。這種方法產(chǎn)生了逼真的訓(xùn)練數(shù)據(jù)。接下來,算法開始工作。
通過從每個(gè)圖像對中學(xué)習(xí),張量網(wǎng)絡(luò)調(diào)整了自己計(jì)算的參數(shù),連續(xù)增強(qiáng)了其創(chuàng)建全息圖的能力。完全優(yōu)化的網(wǎng)絡(luò)運(yùn)行速度比基于物理的計(jì)算快幾個(gè)數(shù)量級。這種效率讓團(tuán)隊(duì)自己感到驚訝。
“我們對它的表現(xiàn)感到驚訝,”Matusik說。在短短幾毫秒內(nèi),張量全息術(shù)可以根據(jù)具有深度信息的圖像制作全息圖——這些信息由典型的計(jì)算機(jī)生成圖像提供,并且可以通過多攝像頭設(shè)置或激光雷達(dá)傳感器(兩者都是一些新智能手機(jī)的標(biāo)準(zhǔn)配置)進(jìn)行計(jì)算。這一進(jìn)步為實(shí)時(shí)3D全息技術(shù)鋪平了道路。更重要的是,緊湊型張量網(wǎng)絡(luò)需要不到1MB的內(nèi)存。“考慮到最新款手機(jī)上有數(shù)十和數(shù)百GB的可用空間,這可以忽略不計(jì),”他說。
這項(xiàng)研究“表明真正的3D全息顯示器是實(shí)用的,只需要適度的計(jì)算要求,”微軟首席光學(xué)架構(gòu)師喬爾科林說,他沒有參與這項(xiàng)研究。他補(bǔ)充說,“與之前的工作相比,這篇論文的圖像質(zhì)量有了顯著的提高”,這將“為觀看者增添真實(shí)感和舒適感”。Kollin還暗示了像這樣的全息顯示器甚至可以根據(jù)觀眾的眼科處方進(jìn)行定制的可能性。“全息顯示器可以校正眼睛的像差。這使得顯示圖像比用戶使用隱形眼鏡或眼鏡看到的更清晰,這只能校正低階像差,如聚焦和散光。”
“相當(dāng)大的飛躍”
實(shí)時(shí)3D全息將增強(qiáng)從VR到3D打印的一系列系統(tǒng)。該團(tuán)隊(duì)表示,新系統(tǒng)可以幫助VR觀眾沉浸在更逼真的風(fēng)景中,同時(shí)消除長期使用VR帶來的眼睛疲勞和其他副作用。該技術(shù)可以輕松部署在調(diào)制光波相位的顯示器上。目前,大多數(shù)經(jīng)濟(jì)實(shí)惠的消費(fèi)級顯示器僅調(diào)節(jié)亮度,但如果廣泛采用相位調(diào)制顯示器的成本會(huì)下降。
研究人員說,3D全息還可以促進(jìn)體積3D打印的發(fā)展。事實(shí)證明,這項(xiàng)技術(shù)比傳統(tǒng)的逐層3D打印更快、更精確,因?yàn)榱Ⅲw3D打印允許同時(shí)投影整個(gè)3D圖案。其他應(yīng)用包括顯微鏡、醫(yī)療數(shù)據(jù)可視化以及具有獨(dú)特光學(xué)特性的表面設(shè)計(jì)。
“這是一個(gè)相當(dāng)大的飛躍,可以徹底改變?nèi)藗儗θ⒌膽B(tài)度,”Matusik說。“我們覺得神經(jīng)網(wǎng)絡(luò)就是為這項(xiàng)任務(wù)而生的。”
標(biāo)簽: