作為現(xiàn)階段最成功的VR內(nèi)容生態(tài)之一,Quest商店吸引了越來(lái)越多開(kāi)發(fā)者發(fā)布VR內(nèi)容,但這對(duì)于Meta來(lái)講似乎還不夠,其也在探索某種UGC VR生態(tài),比如在Horizon Worlds中提供可視化開(kāi)發(fā)工具,讓普通人也能創(chuàng)造VR應(yīng)用。而近期,Meta公布的一項(xiàng)新研究表明,未來(lái)制作AR/VR內(nèi)容可能就像拍短視頻那么簡(jiǎn)單。
(資料圖)
據(jù)了解,Meta為了簡(jiǎn)化AR/VR內(nèi)容開(kāi)發(fā)方式,研發(fā)了一種RGB-D圖像生成3D模型方案:MCC。MMC全稱(chēng)是多視圖壓縮編碼,它是一種基于Transformer的編碼器-解碼器模型,可根據(jù)一幀RGB-D圖像合成/重建3D模型,潛在應(yīng)用場(chǎng)景包括AR/VR、3D視覺(jué)重建、機(jī)器人導(dǎo)航、數(shù)字孿生/虛擬仿真等等。與普通彩色2D圖像不同,RGB-D是具有深度的彩色圖像,相當(dāng)于普通RGB三通道彩色圖像加上深度圖(Depth Map),二者是配準(zhǔn)的,像素一一對(duì)應(yīng)。
實(shí)際上,Meta在2018年的F8大會(huì)上,就曾公布3D照片研究,可通過(guò)雙攝手機(jī)拍攝出具有3D效果的照片,其中包含一定的深度信息。其甚至還研發(fā)了將2D圖像轉(zhuǎn)3D的CNN模型,特點(diǎn)是支持單攝手機(jī)。這意味著,它如果結(jié)合MCC方案,或許可以將單攝手機(jī)捕捉的2D圖像合成為3D模型。
而Transformer是一種采用自注意力機(jī)制的深度學(xué)習(xí)模型,谷歌曾使用它來(lái)增強(qiáng)搜索引擎,而近期比較火的ChatGPT模型也是基于Transformer。起初,Transformer更常用與自然語(yǔ)言處理領(lǐng)域,而隨著它與大規(guī)模、通用類(lèi)別的學(xué)習(xí)模型結(jié)合,便也開(kāi)始被用于語(yǔ)言處理之外的領(lǐng)域,比如圖像合成、圖像分析。
利用MCC方案,3D開(kāi)發(fā)/合成將有望實(shí)現(xiàn)規(guī)模化。隨著深度傳感器、深度捕捉AI模型在手機(jī)上普及,具有深度信息的圖像越來(lái)越容易獲得,因此MCC可使用的數(shù)據(jù)規(guī)模足夠大。
研究背景
Meta科研人員指出,視覺(jué)識(shí)別的一個(gè)核心目標(biāo)根據(jù)單個(gè)圖像來(lái)理解物體和場(chǎng)景。在大規(guī)模學(xué)習(xí)和通用表示推動(dòng)下,2D圖像識(shí)別技術(shù)得到大幅提升,但現(xiàn)階段識(shí)別3D場(chǎng)景/物體還存在挑戰(zhàn),因?yàn)?D圖像源中存在圖形遮擋,所以很難從單張圖像合成完整的3D模型。
為了解決這一問(wèn)題,一些3D合成模型依賴(lài)于多張不同角度的源圖像。而如果用CAD模型來(lái)訓(xùn)練,市面可用的數(shù)據(jù)集規(guī)模不夠多,因此限制了3D合成和理解技術(shù)的發(fā)展。
而MCC只需要RGB-D圖像就能訓(xùn)練,圖像中不可見(jiàn)的部分也能在3D模型中完整預(yù)測(cè)/合成。監(jiān)督所使用的數(shù)據(jù)則基于含有深度信息、相機(jī)姿態(tài)的視頻幀。
方案原理
MCC采用簡(jiǎn)單的解碼器-編碼器架構(gòu),將RGB-D圖像輸入到MCC中會(huì)產(chǎn)生輸入編碼,然后解碼器將在輸入編碼中訪(fǎng)問(wèn)3D點(diǎn)數(shù)據(jù),以預(yù)測(cè)該點(diǎn)的占用率和RGB色彩(將3D重建定義為二元分類(lèi)問(wèn)題)。簡(jiǎn)單來(lái)講,MCC只需要處理3D點(diǎn)云數(shù)據(jù),而3D點(diǎn)可以捕捉任何對(duì)象或場(chǎng)景,通用性比網(wǎng)格和立體像素更好,因此用大規(guī)模RGB-D圖像數(shù)據(jù)就能訓(xùn)練模型。另外,RGB-D圖像可通過(guò)手機(jī)的LiDAR傳感器來(lái)捕捉,或是由深度模型來(lái)計(jì)算(比如MiDas、COLMAP)。
科研人員利用來(lái)自不同數(shù)據(jù)集的深度圖像/視頻來(lái)訓(xùn)練MCC,這些數(shù)據(jù)部分未包含3D場(chǎng)景、3D對(duì)象的全部角度,而這將需要AI重新構(gòu)建。此外,MCC也可以將AI合成的圖像轉(zhuǎn)化為3D模型。
因此,MCC最大的特點(diǎn)是可預(yù)測(cè)RGB-D圖像中看不見(jiàn)、被遮擋的3D幾何形狀??蒲腥藛T表示:MCC模型與基于圖像的自監(jiān)督學(xué)習(xí)、掩碼自動(dòng)編碼器(MAE)的最新進(jìn)展有直接關(guān)系,MAE也是通過(guò)預(yù)測(cè)圖像中看不見(jiàn)的形狀來(lái)學(xué)習(xí)圖像表示。此外,MCC無(wú)需具有注釋的3D數(shù)據(jù),成本更低、數(shù)據(jù)更容易收集。
科研人員表示:研究結(jié)果表明,將基于點(diǎn)云的3D合成模型與通用類(lèi)別的大規(guī)模訓(xùn)練結(jié)合,是有效的。未來(lái),希望將這種成果擴(kuò)展為通用的3D分析視覺(jué)系統(tǒng),讓3D重建/合成效果更接近人腦的想象力。
對(duì)比其他方案
谷歌、NVIDIA等科技公司也曾研發(fā)2D圖轉(zhuǎn)3D技術(shù),分別依賴(lài)于NeRF、逆向渲染(3D MoMa),缺點(diǎn)是需要多張圖像,而且NeRF很那從單個(gè)圖像生成新的場(chǎng)景。其他一些方案需要使用3D CAD模型等規(guī)模有限的數(shù)據(jù)來(lái)訓(xùn)練,而MCC只需要通過(guò)RGB-D圖像就能訓(xùn)練3D重建。
此外,MCC普適性好,對(duì)于未曾見(jiàn)過(guò)的新對(duì)象類(lèi)別,也能實(shí)現(xiàn)“開(kāi)箱即用”(支持零樣本學(xué)習(xí)),直接處理成3D模型。
為了展示MCC與不同數(shù)據(jù)來(lái)源的兼容性,科研人員將其與多個(gè)圖像源結(jié)合,比如:
iPhone 14 Pro(LiDAR傳感器)
圖像生成AI DALL-E 2
Facebook的開(kāi)源3D重建數(shù)據(jù)集CO3D(Common Objects in 3D)
大型視覺(jué)數(shù)據(jù)庫(kù)ImageNet
3D仿真數(shù)據(jù)集Hypersim
室內(nèi)場(chǎng)景數(shù)據(jù)集Taskonomy
這些數(shù)據(jù)集包含了50多種常見(jiàn)對(duì)象類(lèi)型,以及大規(guī)模場(chǎng)景,比如倉(cāng)庫(kù)、禮堂、閣樓、餐廳等等,利用它們重建的3D模型還不能一比一還原,而是看起來(lái)比原來(lái)更圓潤(rùn)、更卡通化,但應(yīng)用在3D開(kāi)發(fā)中質(zhì)量足夠好。未來(lái),隨著用更多數(shù)據(jù)、更多樣化對(duì)象進(jìn)行訓(xùn)練,MCC的性能還可以顯著提升。
參考:Meta
關(guān)鍵詞: Meta MCC通過(guò)3D感知編碼器 改善2D圖像到3D模型質(zhì)量