幾個月前,顯示屏霸主三星聯(lián)合首爾大學(xué),設(shè)計出了一款超薄交互式全息顯示屏。只要按方向鍵,屏幕上的海龜立即就朝特定方向游起來了。
三星表示,這款顯示屏可以從多個角度提供高分辨率的、真實度極高的 3D 視頻,有朝一日還會集成到手機。
本以為這已經(jīng)夠硬核了,沒想到的是,在索尼爸爸的支(資)持下,MIT 的一組研究人員宣稱已經(jīng)用手機生成了 3D 全息圖!想要對一張圖片上的任意物體進行對焦,只需短短幾毫秒。
何謂「全息」?首先來了解一下所謂的「全息」。本質(zhì)上,全息投影是一種 3D 技術(shù),英文名稱為 Holographic Projection,其中 holo 源于希臘語,意為 “完全的信息”。“完全的信息”要傳遞,需要下面這兩步:
拍攝:利用干涉原理(即:兩列或以上的波在空間中重疊時發(fā)生疊加,形成新的波形),將被攝物體在激光輻照下形成的物光束和射到全息底片上的激光參考光束進行疊加,產(chǎn)生干涉并記錄下來。經(jīng)過一定處理后得到全息照片。
成像:利用衍射原理(即:波遇到障礙物時會偏離原來的直線傳播),利用相干激光照射全息圖,一張線性記錄的正弦型全息圖的衍射光波可給出兩個象,圖像的立體感增強,也有了真實的視覺效果。
其原理可以這樣簡單理解:全息圖的每個像素上散射了光波,這些光波相互作用,就能產(chǎn)生一種深度上的錯覺,呈現(xiàn)出一種立體感?;诖?,全息投影又稱虛擬成像。
正如 IEEE Spectrum 所說:全息圖本質(zhì)上就像一個觀察 3D 場景的 2D 窗口。值得一提的是,人們在觀看 3D 全息圖像時不會覺得眼睛疲勞,這與傳統(tǒng)的 3D 顯示(使用 2D 圖像產(chǎn)生深度錯覺)不同。
即便三星已經(jīng)設(shè)計出了全息顯示屏,使得全息投影技術(shù)在硬件上有了重要突破,但不可否認,要在電子設(shè)備上顯示全息數(shù)據(jù),仍是一項重大挑戰(zhàn)。IEEE Spectrum 表示,每個全息圖都意味著編碼大量的數(shù)據(jù),只有這樣才能打造出深度錯覺。因此,生成全息視頻通常需要一臺超算的算力。此前就有科研團隊嘗試過一些解決策略,希望減少所需的計算量,例如用簡單
而 MIT的思路則是設(shè)計卷積神經(jīng)網(wǎng)絡(luò)。具體來講,他們打造了一種基于深度學(xué)習(xí)的 CGH(computer-generated holography,計算機生成全息術(shù),可通過對衍射和干涉的數(shù)值模擬實現(xiàn)高空間角度分辨率的三維投影)管道,該管道能夠從單一 RGB(注:工業(yè)界的一種顏色標準,通過對紅(R)、綠(G)、藍(B)三色通道的變化及其相互間的疊加來得到各式各樣的顏色)深度圖像實時合成逼真的彩色 3D 全息圖。
研究團隊使用了一系列可訓(xùn)練的張量來模擬人類處理視覺信息的過程,建立了一個包含著 4000 對(每一對都是一張 RGB 深度照片及其對應(yīng)的 3D 全息圖,如下圖所示)計算機生成圖像的數(shù)據(jù)庫。
最終,研究團隊做到了在短短幾毫秒內(nèi)就能創(chuàng)建出無斑點、自然、高分辨率的3D 全息圖。
據(jù)了解,卷積神經(jīng)網(wǎng)絡(luò)的內(nèi)存不到 620 KB,能保證單個消費級圖形處理單元平均每秒生成 60 幅分辨率 1920 × 1080 的全息圖。
利用低功耗的人工智能加速芯片,該卷積神經(jīng)網(wǎng)絡(luò)能在移動設(shè)備(在 iPhone 11 Pro 上每秒生成 1.1 張全息圖)和邊緣設(shè)備(在谷歌 edge TPU 上每秒生成 2 張全息圖)上交互運行。
MIT的方法究竟有何重要意義,其實可以通過下面這個比喻來理解:計算機生成全息圖的過程就像是在切蛋糕。
使用查找表生成全息圖,就像是在切蛋糕之前標記每塊蛋糕的邊界一樣。使用物理模擬來計算空間中每個點的外觀,類似于用 8 次精確切割切出 8 塊蛋糕。盡管通過省掉計算切割位置的步驟可以省一些時間,但這依然是個耗時的大工程。而 MIT利用深度學(xué)習(xí),本質(zhì)上實現(xiàn)了用 3 次精確切割就將蛋糕切成 8 塊。
未來,研究團隊或許還將增添眼動追蹤技術(shù)加快系統(tǒng)運行速度,這項成果后續(xù)也將在 VR、AR 耳機等領(lǐng)域中得到應(yīng)用。