Nvidia的AI 研究人員開發(fā)了一種方法,通過使用超快速神經(jīng)網(wǎng)絡(luò)訓(xùn)練和快速渲染,幾乎可以立即將少量 2D 圖像轉(zhuǎn)換為 3D 場景。
該過程被稱為逆向渲染,利用AI來近似光線在現(xiàn)實世界中的表現(xiàn),從而將以不同角度拍攝的 2D 圖像轉(zhuǎn)換為 3D 場景。
Nvidia 的研究人員將他們的新方法應(yīng)用于一種流行的新技術(shù),稱為神經(jīng)輻射場或簡稱 NeRF。該公司稱之為 Instant NeRF 的結(jié)果是迄今為止最快的 NeRF 技術(shù),在某些情況下它的速度超過 1,000 倍。所使用的神經(jīng)模型只需要幾秒鐘就可以對幾十張靜態(tài)照片進(jìn)行訓(xùn)練,盡管它還需要有關(guān)拍攝它們的相機角度的數(shù)據(jù)。
Nvidia 圖形研究副總裁 David Luebke 在一篇博文中提供了 NeRF 和 Instant NeRF 之間差異的進(jìn)一步見解,他說:
“如果像多邊形網(wǎng)格這樣的傳統(tǒng) 3D 表示類似于矢量圖像,那么 NeRF 就像位圖圖像:它們密集地捕捉光從物體或場景中輻射的方式。從這個意義上說,Instant NeRF 對 3D 的重要性可能不亞于數(shù)碼相機和 JPEG 壓縮對 2D 攝影的重要性——極大地提高了 3D 捕獲和共享的速度、易用性和范圍?!?/p>
潛在用例
通過使用神經(jīng)網(wǎng)絡(luò),NeRFs 能夠基于 2D 圖像的輸入集合來渲染逼真的 3D 場景。然而,最有趣的部分是用于創(chuàng)建它們的神經(jīng)網(wǎng)絡(luò)如何能夠填充 2D 圖像之間的空白,即使其中的物體或人被障礙物阻擋。
通常,使用傳統(tǒng)方法創(chuàng)建 3D 場景可能需要幾個小時到幾個小時,具體取決于可視化的復(fù)雜性和分辨率。不過,通過將 AI 引入圖片,即使是早期的 NeRF 模型也能夠在經(jīng)過幾個小時的訓(xùn)練后,在幾分鐘內(nèi)渲染出沒有偽影的清晰場景。
Nvidia 的 Instant NeRF 能夠使用該公司開發(fā)的一種稱為多分辨率哈希網(wǎng)格編碼的技術(shù)將所需的渲染時間減少幾個數(shù)量級,該技術(shù)已經(jīng)過優(yōu)化,可在Nvidia GPU上高效運行。該公司在GTC 2022上展示的模型使用 Nvidia CUDA 工具包和 Tiny CUDA 神經(jīng)網(wǎng)絡(luò)庫,可以在單個 Nvidia GPU 上進(jìn)行訓(xùn)練和運行,盡管具有Nvidia Tensor Cores的顯卡可以更快地處理工作。
展望未來,Instant NeRF 技術(shù)可用于快速創(chuàng)建虛擬世界的化身或場景,以 3D 形式捕捉視頻會議參與者及其環(huán)境,或為 3D 數(shù)字地圖重建場景。或者,該技術(shù)還可以用于訓(xùn)練機器人和自動駕駛汽車,以便它們通過捕獲它們的 2D 圖像或視頻片段來更好地了解現(xiàn)實世界物體的大小和形狀。同時,建筑和娛樂行業(yè)可以使用 Instant NeRF 快速生成真實環(huán)境的數(shù)字表示,創(chuàng)作者可以在此基礎(chǔ)上進(jìn)行修改和構(gòu)建。
Nvidia 的研究人員還在探索如何使用他們的新輸入編碼技術(shù)來加速各種 AI 挑戰(zhàn),例如強化學(xué)習(xí)、語言翻譯和通用深度學(xué)習(xí)算法。
關(guān)鍵詞: 英偉達(dá)開發(fā)了一種將 照片轉(zhuǎn)換為 場景的方法