十八禁禁久久精品,日韩一级精品视频,自拍偷自拍亚洲精品10p

作為現(xiàn)階段最成功的VR內(nèi)容生態(tài)之一，Quest商店吸引了越來(lái)越多開(kāi)發(fā)者發(fā)布VR內(nèi)容，但這對(duì)于Meta來(lái)講似乎還不夠，其也在探索某種UGC VR生態(tài)，比如在Horizon Worlds中提供可視化開(kāi)發(fā)工具，讓普通人也能創(chuàng)造VR應(yīng)用。而近期，Meta公布的一項(xiàng)新研究表明，未來(lái)制作AR/VR內(nèi)容可能就像拍短視頻那么簡(jiǎn)單。

(資料圖)

據(jù)了解，Meta為了簡(jiǎn)化AR/VR內(nèi)容開(kāi)發(fā)方式，研發(fā)了一種RGB-D圖像生成3D模型方案：MCC。MMC全稱(chēng)是多視圖壓縮編碼，它是一種基于Transformer的編碼器-解碼器模型，可根據(jù)一幀RGB-D圖像合成/重建3D模型，潛在應(yīng)用場(chǎng)景包括AR/VR、3D視覺(jué)重建、機(jī)器人導(dǎo)航、數(shù)字孿生/虛擬仿真等等。與普通彩色2D圖像不同，RGB-D是具有深度的彩色圖像，相當(dāng)于普通RGB三通道彩色圖像加上深度圖（Depth Map），二者是配準(zhǔn)的，像素一一對(duì)應(yīng)。

實(shí)際上，Meta在2018年的F8大會(huì)上，就曾公布3D照片研究，可通過(guò)雙攝手機(jī)拍攝出具有3D效果的照片，其中包含一定的深度信息。其甚至還研發(fā)了將2D圖像轉(zhuǎn)3D的CNN模型，特點(diǎn)是支持單攝手機(jī)。這意味著，它如果結(jié)合MCC方案，或許可以將單攝手機(jī)捕捉的2D圖像合成為3D模型。

而Transformer是一種采用自注意力機(jī)制的深度學(xué)習(xí)模型，谷歌曾使用它來(lái)增強(qiáng)搜索引擎，而近期比較火的ChatGPT模型也是基于Transformer。起初，Transformer更常用與自然語(yǔ)言處理領(lǐng)域，而隨著它與大規(guī)模、通用類(lèi)別的學(xué)習(xí)模型結(jié)合，便也開(kāi)始被用于語(yǔ)言處理之外的領(lǐng)域，比如圖像合成、圖像分析。

利用MCC方案，3D開(kāi)發(fā)/合成將有望實(shí)現(xiàn)規(guī)模化。隨著深度傳感器、深度捕捉AI模型在手機(jī)上普及，具有深度信息的圖像越來(lái)越容易獲得，因此MCC可使用的數(shù)據(jù)規(guī)模足夠大。

研究背景

Meta科研人員指出，視覺(jué)識(shí)別的一個(gè)核心目標(biāo)根據(jù)單個(gè)圖像來(lái)理解物體和場(chǎng)景。在大規(guī)模學(xué)習(xí)和通用表示推動(dòng)下，2D圖像識(shí)別技術(shù)得到大幅提升，但現(xiàn)階段識(shí)別3D場(chǎng)景/物體還存在挑戰(zhàn)，因?yàn)?D圖像源中存在圖形遮擋，所以很難從單張圖像合成完整的3D模型。

為了解決這一問(wèn)題，一些3D合成模型依賴(lài)于多張不同角度的源圖像。而如果用CAD模型來(lái)訓(xùn)練，市面可用的數(shù)據(jù)集規(guī)模不夠多，因此限制了3D合成和理解技術(shù)的發(fā)展。

而MCC只需要RGB-D圖像就能訓(xùn)練，圖像中不可見(jiàn)的部分也能在3D模型中完整預(yù)測(cè)/合成。監(jiān)督所使用的數(shù)據(jù)則基于含有深度信息、相機(jī)姿態(tài)的視頻幀。

方案原理

MCC采用簡(jiǎn)單的解碼器-編碼器架構(gòu)，將RGB-D圖像輸入到MCC中會(huì)產(chǎn)生輸入編碼，然后解碼器將在輸入編碼中訪(fǎng)問(wèn)3D點(diǎn)數(shù)據(jù)，以預(yù)測(cè)該點(diǎn)的占用率和RGB色彩（將3D重建定義為二元分類(lèi)問(wèn)題）。簡(jiǎn)單來(lái)講，MCC只需要處理3D點(diǎn)云數(shù)據(jù)，而3D點(diǎn)可以捕捉任何對(duì)象或場(chǎng)景，通用性比網(wǎng)格和立體像素更好，因此用大規(guī)模RGB-D圖像數(shù)據(jù)就能訓(xùn)練模型。另外，RGB-D圖像可通過(guò)手機(jī)的LiDAR傳感器來(lái)捕捉，或是由深度模型來(lái)計(jì)算（比如MiDas、COLMAP）。

科研人員利用來(lái)自不同數(shù)據(jù)集的深度圖像/視頻來(lái)訓(xùn)練MCC，這些數(shù)據(jù)部分未包含3D場(chǎng)景、3D對(duì)象的全部角度，而這將需要AI重新構(gòu)建。此外，MCC也可以將AI合成的圖像轉(zhuǎn)化為3D模型。

因此，MCC最大的特點(diǎn)是可預(yù)測(cè)RGB-D圖像中看不見(jiàn)、被遮擋的3D幾何形狀?？蒲腥藛T表示：MCC模型與基于圖像的自監(jiān)督學(xué)習(xí)、掩碼自動(dòng)編碼器（MAE）的最新進(jìn)展有直接關(guān)系，MAE也是通過(guò)預(yù)測(cè)圖像中看不見(jiàn)的形狀來(lái)學(xué)習(xí)圖像表示。此外，MCC無(wú)需具有注釋的3D數(shù)據(jù)，成本更低、數(shù)據(jù)更容易收集。

科研人員表示：研究結(jié)果表明，將基于點(diǎn)云的3D合成模型與通用類(lèi)別的大規(guī)模訓(xùn)練結(jié)合，是有效的。未來(lái)，希望將這種成果擴(kuò)展為通用的3D分析視覺(jué)系統(tǒng)，讓3D重建/合成效果更接近人腦的想象力。

對(duì)比其他方案

谷歌、NVIDIA等科技公司也曾研發(fā)2D圖轉(zhuǎn)3D技術(shù)，分別依賴(lài)于NeRF、逆向渲染（3D MoMa），缺點(diǎn)是需要多張圖像，而且NeRF很那從單個(gè)圖像生成新的場(chǎng)景。其他一些方案需要使用3D CAD模型等規(guī)模有限的數(shù)據(jù)來(lái)訓(xùn)練，而MCC只需要通過(guò)RGB-D圖像就能訓(xùn)練3D重建。

此外，MCC普適性好，對(duì)于未曾見(jiàn)過(guò)的新對(duì)象類(lèi)別，也能實(shí)現(xiàn)“開(kāi)箱即用”（支持零樣本學(xué)習(xí)），直接處理成3D模型。

為了展示MCC與不同數(shù)據(jù)來(lái)源的兼容性，科研人員將其與多個(gè)圖像源結(jié)合，比如：

iPhone 14 Pro（LiDAR傳感器）

圖像生成AI DALL-E 2

Facebook的開(kāi)源3D重建數(shù)據(jù)集CO3D（Common Objects in 3D）

大型視覺(jué)數(shù)據(jù)庫(kù)ImageNet

3D仿真數(shù)據(jù)集Hypersim

室內(nèi)場(chǎng)景數(shù)據(jù)集Taskonomy

這些數(shù)據(jù)集包含了50多種常見(jiàn)對(duì)象類(lèi)型，以及大規(guī)模場(chǎng)景，比如倉(cāng)庫(kù)、禮堂、閣樓、餐廳等等，利用它們重建的3D模型還不能一比一還原，而是看起來(lái)比原來(lái)更圓潤(rùn)、更卡通化，但應(yīng)用在3D開(kāi)發(fā)中質(zhì)量足夠好。未來(lái)，隨著用更多數(shù)據(jù)、更多樣化對(duì)象進(jìn)行訓(xùn)練，MCC的性能還可以顯著提升。

參考：Meta

關(guān)鍵詞： Meta MCC通過(guò)3D感知編碼器改善2D圖像到3D模型質(zhì)量