逼人去學(xué)挖掘機(jī):朱俊彥團(tuán)隊(duì)新AI模型發(fā)布,設(shè)計(jì)圈看了心慌慌|環(huán)球?qū)崟r(shí)

發(fā)布時(shí)間:2023-02-20 15:31:52  |  來(lái)源:騰訊網(wǎng)  

明敏 發(fā)自 凹非寺

量子位 | 公眾號(hào) QbitAI


【資料圖】

CV大佬朱俊彥的新論文,讓設(shè)計(jì)師們感覺(jué)危了。

事情是這樣的:

量子位在微博上搬運(yùn)了朱俊彥團(tuán)隊(duì)的新成果,一個(gè)能將2D草圖一鍵變成3D模型的新算法,卻意外引發(fā)設(shè)計(jì)圈盆友們的熱烈轉(zhuǎn)發(fā)討論。

配文全是“沃日”、“???”……

簡(jiǎn)單來(lái)說(shuō),這個(gè)模型能讓非常粗糙的簡(jiǎn)筆畫(huà),一鍵變成逼真3D模型。

還支持實(shí)時(shí)編輯,不滿(mǎn)意的地方擦掉重畫(huà),立馬生成一個(gè)新的:

要知道之前的“圖轉(zhuǎn)圖”模型,基本都是停留在2D層面,這回直接變3D真是一個(gè)突破。

也確實(shí)是生產(chǎn)力利器。

但沒(méi)想到,是設(shè)計(jì)圈先感到了危機(jī)。有圈內(nèi)博主就覺(jué)得又要被AI搶飯碗了,隨后也有很多人跟轉(zhuǎn)了這一條。

所以論文成果到底說(shuō)了啥?一起來(lái)看。

可從任意角度實(shí)時(shí)編輯

現(xiàn)在有很多圖-圖的轉(zhuǎn)換模型,但基本上都是2D-2D。

這是因?yàn)閺?D到3D,在訓(xùn)練和測(cè)試過(guò)程中都有很大挑戰(zhàn)。

訓(xùn)練方面,想要把2D輸入圖像和3D輸出圖像配對(duì),需要龐大數(shù)據(jù)集,成本會(huì)很高。

測(cè)試方面,為了得到不同角度的3D模型,需要輸入圖像的多個(gè)視角,但是二者之間可能存在不一致的情況,導(dǎo)致生成效果不好。

為了解決這些問(wèn)題,朱俊彥團(tuán)隊(duì)提出了使用3D神經(jīng)場(chǎng)景表示(3D neural scene representations)的條件生成模型。

它只需要給定一個(gè)2D標(biāo)簽圖(如語(yǔ)義分割圖和勾線圖),能為每個(gè)3D點(diǎn)匹配標(biāo)簽、顏色和密度等。實(shí)現(xiàn)在渲染圖像的同時(shí),像素對(duì)齊標(biāo)簽圖像。

通過(guò)構(gòu)建一個(gè)交互式系統(tǒng),用戶(hù)能在任何視角修改標(biāo)簽圖,并生成與之相對(duì)的輸出。

為了實(shí)現(xiàn)跨視圖編輯,需要將額外的語(yǔ)音信息編碼為3D的,然后通過(guò)圖像重建和對(duì)抗損失(adversarial losses)的2D監(jiān)督,來(lái)學(xué)習(xí)上述3D表示。

重建損失可以確保2D用戶(hù)輸入和相應(yīng)的3D內(nèi)容對(duì)齊,像素對(duì)齊條件鑒別器( pixel-alignedconditional discriminator)也進(jìn)一步促使外觀和標(biāo)簽對(duì)應(yīng)合理,并在新視角時(shí)也保持像素對(duì)齊。

最后,方法還提出了跨視圖一致性損失,強(qiáng)制潛碼在不同視點(diǎn)保持一致。

和不同模型對(duì)比顯示,pix2pix-3D能在保持多視角一致的情況下,生成高質(zhì)量結(jié)果。

消融實(shí)驗(yàn)結(jié)果同樣顯示,該方法的生成結(jié)果能更好和輸入圖像對(duì)齊。

不過(guò)研究團(tuán)隊(duì)也提出了方法的一些局限性。

第一,目前它還只能針對(duì)于單個(gè)對(duì)象;

第二,模型在訓(xùn)練過(guò)程中,需要與每個(gè)訓(xùn)練圖像關(guān)聯(lián)相機(jī)姿態(tài)(camera pose),推理時(shí)不需要。如果能不依賴(lài)于相機(jī)姿態(tài),可以進(jìn)一步擴(kuò)大模型的使用范圍。

朱俊彥團(tuán)隊(duì)出品

該論文成果來(lái)自朱俊彥團(tuán)隊(duì)。

朱俊彥,現(xiàn)任CMU計(jì)算機(jī)科學(xué)學(xué)院助理教授,是AI領(lǐng)域知名的青年學(xué)者。

2008年,朱俊彥進(jìn)入清華大學(xué)計(jì)算機(jī)科學(xué)系,學(xué)習(xí)計(jì)算機(jī)科學(xué)專(zhuān)業(yè)。在同專(zhuān)業(yè)140人中,朱俊彥排名第2。

2012年清華本科畢業(yè)后,朱俊彥奔赴美國(guó),在CMU和UC伯克利經(jīng)過(guò)5年學(xué)習(xí),獲得了UC伯克利電氣工程與計(jì)算機(jī)科學(xué)系的博士學(xué)位,師從Alexei Efros。

其博士畢業(yè)論文Learning to Generate Images,獲得了計(jì)算機(jī)圖形學(xué)頂會(huì)ACM SIGGRAPH 2018“杰出博士論文獎(jiǎng)”。

博士畢業(yè)后,朱俊彥來(lái)到MIT計(jì)算機(jī)與人工智能實(shí)驗(yàn)室(CSAIL),成為一名博士后研究員。2020年秋季,他回到曾經(jīng)的母校CMU(卡內(nèi)基梅隆大學(xué)),擔(dān)任助理教授一職。

曾提出CycleGAN、GauGAN等明星模型。

△GauGAN支持涂鴉變風(fēng)景畫(huà)

△vid2vid支持從語(yǔ)義圖生成真實(shí)場(chǎng)景

論文一作為Kangle Deng。他現(xiàn)在是卡耐基梅隆大學(xué)機(jī)器人學(xué)院的一名在讀博士。

2020年從北京大學(xué)本科畢業(yè)。他以第一作者身份發(fā)表的論文,曾被CVPR 2022、ICLR 2021接收。

論文地址:

https://arxiv.org/abs/2302.08509

關(guān)鍵詞: 逼人去學(xué)挖掘機(jī)朱俊彥團(tuán)隊(duì)新AI模型發(fā)布 設(shè)計(jì)圈看了心慌慌

 

網(wǎng)站介紹  |  版權(quán)說(shuō)明  |  聯(lián)系我們  |  網(wǎng)站地圖 

星際派備案號(hào):京ICP備2022016840號(hào)-16 營(yíng)業(yè)執(zhí)照公示信息版權(quán)所有 郵箱聯(lián)系:920 891 263@qq.com