作者丨青暮
編輯丨岑峰
元宇宙被認(rèn)為是互聯(lián)網(wǎng)的自然迭代階段,是人類社會(huì)在發(fā)明語(yǔ)言、文本、數(shù)學(xué)、圖像之后,信息爆炸逼迫我們將數(shù)據(jù)不斷抽象為高維數(shù)據(jù)的當(dāng)下,將交流媒介徹底具象化的另一極革命。有句話說(shuō)得好,“文化即元宇宙”。元宇宙的世界源于現(xiàn)實(shí),又別于現(xiàn)實(shí)、超越現(xiàn)實(shí),我們可以輕易在其中跨越物理距離面對(duì)面交流,超越現(xiàn)實(shí)的含義之更深層的,乃是超越規(guī)則。但在超越規(guī)則之前,我們?cè)诘谝徊缴先燥@稚嫩。
而如今,也正有無(wú)數(shù)學(xué)者正在探索元宇宙的第一步,即還原現(xiàn)實(shí)。在視覺領(lǐng)域,他們研究如何獲取城市高樓的三維形狀,如何模擬櫻桃與水面的接觸,以及如何讓幾何人學(xué)會(huì)走路和跳舞。
通過研究三維對(duì)象的幾何與行為,這個(gè)領(lǐng)域——計(jì)算機(jī)圖形學(xué),正在展示其還原世界的無(wú)限潛力。
在與陳寶權(quán)、王濱、劉利斌三位學(xué)者的交流中,我們可以感受到,盡管元宇宙還遙不可及,但“種子早已萌芽”。陳寶權(quán)主要研究幾何也就是三維建模,王濱和劉利斌主要研究行為,也就是物理仿真和運(yùn)動(dòng)控制。
幾何與行為正是北京大學(xué)智能圖形團(tuán)隊(duì)重點(diǎn)發(fā)展的研究方向,二者構(gòu)成了“形”與“力”的二重奏。
1
三維建模
正如恩里科·費(fèi)米所言:If you can not create it,you cannot understand it.
“圖形學(xué)也是在人們探索理解這個(gè)世界的一個(gè)必經(jīng)階段,同時(shí)重建世界也是圖形學(xué)一直在倡導(dǎo)的一個(gè)理念。在多年的累積中,圖形學(xué)已經(jīng)累積了大量關(guān)于世界的知識(shí)。比如物體的幾何形體表達(dá)、物理特性、光照等等。要實(shí)現(xiàn)視覺智能,圖形學(xué)是很重要的一步?!标悓殭?quán)說(shuō)到。
陳寶權(quán),北京大學(xué)博雅特聘教授。研究領(lǐng)域?yàn)橛?jì)算機(jī)圖形學(xué)、三維視覺與可視化。2017年當(dāng)選中國(guó)計(jì)算機(jī)學(xué)會(huì)會(huì)士,2020年當(dāng)選 IEEE Fellow,2021年入選IEEE Visualization Academy,當(dāng)選中國(guó)圖象圖形學(xué)學(xué)會(huì)會(huì)士。
計(jì)算機(jī)上還原的世界的時(shí)間是可回溯的。在2022年冬奧會(huì)上,陳寶權(quán)就為我們展示了這一時(shí)間魔法。觀眾用手機(jī)觀看冰球比賽時(shí),可以隨時(shí)暫停比賽畫面,并可360度轉(zhuǎn)動(dòng)冰球場(chǎng),品味精彩瞬間。
這一技術(shù)也僅僅是陳寶權(quán)研究三維建模多年經(jīng)驗(yàn)的小試牛刀。陳寶權(quán)從2000年就開始關(guān)注對(duì)真實(shí)場(chǎng)景進(jìn)行三維建模。在2009年為深圳構(gòu)建城市3D建模的項(xiàng)目中,陳寶權(quán)團(tuán)隊(duì)采用了激光掃描等手段得到現(xiàn)實(shí)場(chǎng)景的三維點(diǎn)云,再進(jìn)行重建,這項(xiàng)技術(shù)已成為智慧城市建設(shè)的基礎(chǔ)。
2008年陳寶權(quán)回國(guó)之初創(chuàng)建的“城市建模仿真與可視化“系列國(guó)際論壇第一屆,聚集了國(guó)內(nèi)外該領(lǐng)域許多頂級(jí)專家來(lái)參會(huì)。
2009年陳寶權(quán)創(chuàng)建的基于移動(dòng)車載激光掃描的大規(guī)模城市場(chǎng)景三維重建團(tuán)隊(duì)。
由于室外環(huán)境限制,比如樹木的遮擋,不可能得到建筑物每個(gè)面的點(diǎn)云數(shù)據(jù)。因此,陳寶權(quán)團(tuán)隊(duì)提出了結(jié)合先驗(yàn)知識(shí)的方法,通過從稀疏點(diǎn)云中識(shí)別平面區(qū)域,計(jì)算平面之間的交線和交點(diǎn),以得到完整的多邊形,其中平面區(qū)域是通過聚類得到的。下圖給出了稀疏缺失的三維點(diǎn)云、聚類后的點(diǎn)云以及重建后的三維模型。
稀疏點(diǎn)云三維重建。圖源:大規(guī)模城市場(chǎng)景建模與理解
綜合二維圖像和三維點(diǎn)云的優(yōu)點(diǎn),陳寶權(quán)團(tuán)隊(duì)在論文“2D-3D fusion for layer decomposition of urban facades”中提出了 一種融合二維圖像和三維點(diǎn)云的分層建筑物墻面重建方法。通過將三維點(diǎn)云的深度信息賦予二維圖像,還原了高分辨率、無(wú)噪聲的建筑物模型。下圖給出了三維點(diǎn)云與二維圖像、 注冊(cè)后的點(diǎn)云和圖像、重建后的建筑物三維模型以及粘貼紋理之后的模型。
融合點(diǎn)云和圖像建筑物三維重建。圖源:大規(guī)模城市場(chǎng)景建模與理解
建筑和植物是城市中最常見的兩類實(shí)體,其三維模型也是城市三維場(chǎng)景的主要構(gòu)成要素。不同于具備規(guī)則性的人工建筑,植物屬自然產(chǎn)物,三維結(jié)構(gòu)特征更加復(fù)雜。盡管也可以采用規(guī)則方法建模植物,但基本上很難描述給定的模型或真實(shí)樹木?;趯?shí)際采集數(shù)據(jù)(一般是圖像和點(diǎn)云),則可以得到低層次的模型描述,比如三角網(wǎng)格模型。
陳寶權(quán)團(tuán)隊(duì)在論文“Automatic reconstruction of tree skeletal structures from point clouds”中提出了基于激光點(diǎn)云的自動(dòng)樹木骨架重建方法,通過一系列全局優(yōu)化方法在稀疏的、不完整的、嘈雜的點(diǎn)云中適配樹木的骨架結(jié)構(gòu)。該算法無(wú)需對(duì)點(diǎn)云進(jìn)行分割,即可重建互相交疊的樹枝結(jié)構(gòu)。
基于激光點(diǎn)云的自動(dòng)樹木骨架重建。圖源:大規(guī)模城市場(chǎng)景建模與理解
意識(shí)到同一樹種局部結(jié)構(gòu)存在的相似性之后,團(tuán)隊(duì)又在論文“Texture-Lobes for Tree Modelling”中提出了基于 Lobe 表示的樹木快速三維建模方法,以克服前述方法的效率局限性。
基于Lobe表示的樹木三維建模。圖源:大規(guī)模城市場(chǎng)景建模與理解
近十年后,在智慧城市快速發(fā)展的年代,場(chǎng)景規(guī)模越來(lái)越大、顆粒度越來(lái)越細(xì)、更新頻率越來(lái)越高,成為了智慧城市三維建模的新要求。
在原始采集數(shù)據(jù)稀疏甚至缺失的情況下,基于先驗(yàn)知識(shí)和幾何內(nèi)在規(guī)則約束的建模方法有局限性,陳寶權(quán)團(tuán)隊(duì)提出了“主動(dòng)式”掃描機(jī)制,將采集和重建構(gòu)成一個(gè)閉環(huán),為重建提供數(shù)據(jù)保障。而主動(dòng)式采集可以依靠機(jī)器人或人來(lái)完成。
為此,陳寶權(quán)團(tuán)隊(duì)提出了城市場(chǎng)景漸進(jìn)式構(gòu)建思路。該思路認(rèn)為,城市場(chǎng)景規(guī)模大且永遠(yuǎn)處在快速變化當(dāng)中,集中式重建的成本昂貴且其完整性和實(shí)時(shí)更新變得不可能,應(yīng)該構(gòu)建一種分布式機(jī)制來(lái)實(shí)現(xiàn)對(duì)重建數(shù)據(jù)的擴(kuò)充和修正,由此達(dá)到城市場(chǎng)景的瞬時(shí)更新。智能體(單/多機(jī)器人或人群)具有主動(dòng)探索能力,是場(chǎng)景漸進(jìn)式構(gòu)建的主要載體。
在論文“Autoscanning for coupled scene reconstruction and proactive object analysis”中,陳寶權(quán)團(tuán)隊(duì)提出了基于場(chǎng)景物體置信度引導(dǎo)的單機(jī)器人主動(dòng)探索方法,通過對(duì)低置信度場(chǎng)景進(jìn)行交互以驗(yàn)證并提高結(jié)果準(zhǔn)確性,從而逐漸精細(xì)化室內(nèi)場(chǎng)景。
而到了城市室外場(chǎng)景時(shí),由于環(huán)境是開放的,無(wú)法事先進(jìn)行建模,直接應(yīng)用相同方法會(huì)導(dǎo)致效率問題?!皩?duì)于一個(gè)不斷變化的場(chǎng)景,機(jī)器人要如何進(jìn)行自我導(dǎo)航、場(chǎng)景探索,也是一個(gè)難題。畢竟其中不僅涉及機(jī)器人的運(yùn)動(dòng),還涉及到機(jī)器人和環(huán)境的交互。”陳寶權(quán)表示。
為此,在論文“Autonomous reconstruction of unknown indoor scenes guided by time-varying tensor fields”中,陳寶權(quán)團(tuán)隊(duì)提出了一種時(shí)變張量場(chǎng)驅(qū)動(dòng)的未知室內(nèi)場(chǎng)景自動(dòng)重建策略,在規(guī)劃?rùn)C(jī)器人移動(dòng)路徑時(shí),對(duì)城市場(chǎng)景對(duì)象進(jìn)行約束和更新,生成機(jī)器人路徑指導(dǎo)其進(jìn)行探索,從而兼顧效率和精度。
一臺(tái)機(jī)器人的工作效率始終有限,因此,多機(jī)器人協(xié)同探索就成了自然的選擇?!皺C(jī)器人協(xié)同的難點(diǎn)在于,N個(gè)機(jī)器人能不能達(dá)到N倍的效率。我們甚至還希望達(dá)到1+1>2的效果,比如兩個(gè)機(jī)器人之間的信息融合可以讓彼此對(duì)環(huán)境都更加了解,這是所謂協(xié)作的關(guān)鍵。”陳寶權(quán)表示。
在論文“Multi-robot collaborative dense scene reconstruction”中,陳寶權(quán)團(tuán)隊(duì)提出了基于最優(yōu)質(zhì)量傳輸理論的多機(jī)器人協(xié)同探索以及主動(dòng)漸進(jìn)式重建位置城市場(chǎng)景模型的算法。最優(yōu)質(zhì)量傳輸理論的目標(biāo)是求出兩個(gè)分布(或者說(shuō)集合)之間的映射關(guān)系,使得該映射在給定的度量下代價(jià)最低。
在多機(jī)器人掃描重建問題中,把機(jī)器人看作是場(chǎng)景掃描任務(wù)的“供給方”,未知環(huán)境看作是場(chǎng)景掃描任務(wù)的“需求方”,而機(jī)器人實(shí)際執(zhí)行掃描任務(wù)所需要的代價(jià)(如移動(dòng)距離)作為映射的度量。以此為基礎(chǔ),可以通過求解最優(yōu)質(zhì)量傳輸,可得到機(jī)器人和掃描任務(wù)之間的映射,使掃描代價(jià)最低。
一種用于未知室內(nèi)場(chǎng)景的多機(jī)器人協(xié)同密集重建算法。圖源:Multi-Robot Collaborative Dense Scene Reconstruction
“整體上,我們既需要用全局規(guī)劃來(lái)統(tǒng)籌所有機(jī)器人之間的協(xié)作和任務(wù)分配,也要基于機(jī)器人的局部視角去規(guī)劃其單獨(dú)就能完成的任務(wù)。這是這類任務(wù)的算法設(shè)置的基本策略。”
世界不是靜態(tài)知識(shí)的集合,陳寶權(quán)在科研征途上也不斷擁抱進(jìn)步,采用先驗(yàn)知識(shí)結(jié)合數(shù)據(jù)學(xué)習(xí)的方式,見證了幾何建模在尺度規(guī)模以及精細(xì)度不斷延展的歷程。然而,如果僅僅局限于幾何建模本身,這樣的世界也是靜態(tài)的。
“從生成一個(gè)世界到理解一個(gè)世界,兩者已經(jīng)密不可分。生成是為了理解,而理解了之后也是為了更好地生成,兩者在不斷地互相增強(qiáng)?!崩斫獠恢故菍⑽矬w進(jìn)行分類、語(yǔ)義分割,而是要還原其在現(xiàn)實(shí)世界中與其它物體接觸、碰撞的真實(shí)力學(xué)乃至動(dòng)力學(xué)反應(yīng)。
“幾何建模是物理仿真的基礎(chǔ)。通常我們要先得到物體的幾何參數(shù),再根據(jù)幾何形狀的動(dòng)態(tài)變化去推測(cè)物理參數(shù),比如王濱老師做的荷葉研究。劉利斌老師做的人體運(yùn)動(dòng)控制研究也一樣,要控制一個(gè)人的姿態(tài),也需要先獲取真實(shí)的人體數(shù)據(jù)來(lái)學(xué)習(xí)。但面對(duì)自然現(xiàn)象,幾何建模與物理仿真有時(shí)需要同時(shí)進(jìn)行,通過全局優(yōu)化來(lái)獲得對(duì)現(xiàn)象的動(dòng)態(tài)重建。”陳寶權(quán)表示。
2
物理仿真
“通過外力讓一片荷葉晃動(dòng),我們就得到了荷葉的動(dòng)態(tài)數(shù)據(jù),據(jù)此不僅可以推斷出荷葉的幾何形狀,還可以推斷出荷葉的物理參數(shù)?!蓖鯙I說(shuō)到,“這些物理參數(shù)不僅包括材料的硬度,還包括阻尼特性、原始形狀等等。”
王濱,現(xiàn)任北京通用人工智能研究院(BIGAI)全職研究員,在加入BIGAI之前,她于2017年至2021年擔(dān)任北京電影學(xué)院未來(lái)影像高精尖創(chuàng)新中心研究員。
王濱博士畢業(yè)于北京航空航天大學(xué),期間研究方向是虛擬現(xiàn)實(shí)和人機(jī)交互,在當(dāng)時(shí)來(lái)說(shuō)是一個(gè)很前沿的方向。之后她到UBC進(jìn)行訪問研究,主要進(jìn)行手部的仿真和模擬。
在訪問研究的過程中,王濱逐漸對(duì)物理仿真感興趣。由于物理仿真的門檻較高,于是王濱從碰撞檢測(cè)的課題入手,逐漸進(jìn)入仿真領(lǐng)域,并進(jìn)行深耕。
王濱告訴我們,研究物理仿真之前,在數(shù)學(xué)和物理方面都需要深厚積累,也需要很強(qiáng)的代碼實(shí)現(xiàn)能力,“在算法實(shí)現(xiàn)方面,物理仿真的代碼量較大,而且沒有很多開源的項(xiàng)目作為實(shí)現(xiàn)基礎(chǔ),我們往往需要從零開始造輪子。另外物理模擬的計(jì)算量大,因此需要較好的算法結(jié)構(gòu)設(shè)計(jì)和高效的實(shí)現(xiàn)。為了提高計(jì)算效率,一些計(jì)算工作還需要轉(zhuǎn)移到GPU上,也對(duì)編程能力有一些更高的要求。”
在數(shù)學(xué)方面,物理模擬主要涉及數(shù)值計(jì)算和最優(yōu)化的數(shù)學(xué)理論支撐,“比如在逆向分析算法中,就需要優(yōu)化算法基礎(chǔ)。在模擬中,也需要進(jìn)行大型線性系統(tǒng)的求解,因此涉及到算法的選擇和數(shù)學(xué)近似等數(shù)值計(jì)算工作?!蓖鯙I說(shuō)到。
后來(lái),王濱到新加坡國(guó)立大學(xué)進(jìn)行物理仿真領(lǐng)域的博士后研究工作,“材料仿真建模是當(dāng)時(shí)的萌芽課題,也是在那個(gè)時(shí)候和深圳先進(jìn)研究所有了深入的交流和合作。”回到北京后,王濱加入北京電影學(xué)院未來(lái)影像高精尖創(chuàng)新中心工作5年,最近加入北京通用人工智能研究院,一直和北京大學(xué)及國(guó)外高校展開合作,進(jìn)行過很多物理仿真模擬的研究,例如材料反向建模、流體模擬、磁性物質(zhì)模擬等。
荷花的物理參數(shù)推斷就屬于材料反向建模研究,相關(guān)成果發(fā)表在論文“Deformation Capture and Modeling of Soft Objects”中,由王濱與劉利斌等人合作完成。
系統(tǒng)可以僅從運(yùn)動(dòng)學(xué)數(shù)據(jù)中捕獲和重建軟物體的動(dòng)力學(xué)模型。然后,利用這一模型可以合成滿足用戶指定約束并響應(yīng)動(dòng)態(tài)擾動(dòng)的新運(yùn)動(dòng)。上圖左:一只正在行走的恐龍;中間:一個(gè)鍋架在跳躍;上圖右:一個(gè)衣架在跳躍。下圖:荷葉在人造風(fēng)場(chǎng)中晃動(dòng)。圖源:Deformation Capture and Modeling of Soft Objects
圖形學(xué)的交互驅(qū)動(dòng)可以分為兩個(gè)分支,一個(gè)是幾何數(shù)據(jù)驅(qū)動(dòng),一個(gè)是力學(xué)驅(qū)動(dòng)。幾何數(shù)據(jù)驅(qū)動(dòng)是指對(duì)一個(gè)現(xiàn)象進(jìn)行致密幾何形狀采樣,而后通過其進(jìn)行插值并得到結(jié)果,而荷花的研究工作是基于力學(xué)的驅(qū)動(dòng)。
“整體的交互是按照物理模型進(jìn)行驅(qū)動(dòng),而模型的關(guān)鍵參數(shù)是通過數(shù)據(jù)驅(qū)動(dòng)的方式求解的。例如物體的軟硬程度、阻尼系數(shù)和參考形狀(失重狀態(tài)下的自然舒張狀態(tài))。這是從運(yùn)動(dòng)數(shù)據(jù)逆向推導(dǎo)出系統(tǒng)力學(xué)和物理系數(shù)的建模方法。”王濱說(shuō)到。
反向材料系數(shù)生成后,也可以對(duì)其進(jìn)行修改和定制,遷移到其他類似的物體上?;谶\(yùn)動(dòng)數(shù)據(jù)驅(qū)動(dòng)的模型反演也可以用來(lái)擬合那些現(xiàn)實(shí)中不存在的超級(jí)材料?!胺聪虿牧辖5哪康氖菧p小仿真和真實(shí)的差異,當(dāng)我們需要控制模型的某些參數(shù),使其具有新的特性時(shí),模型也可以通過參數(shù)調(diào)整進(jìn)行人為干預(yù)。”
在材料模型和系數(shù)的設(shè)計(jì)方面,一般不使用AI方法進(jìn)行表述,“因?yàn)樗ǔo(wú)法滿足很多先驗(yàn)的約束,直觀理解就是很多硬約束條件無(wú)法先天滿足。數(shù)據(jù)少、容易過擬合、泛化性差。深度學(xué)習(xí)的耦合性很強(qiáng),目前來(lái)說(shuō)無(wú)法或很難解釋各個(gè)參數(shù)的控制變量,也無(wú)法從端到端的模型學(xué)習(xí)工作中確定其可解釋意義?!崩纾捎谄渲袛?shù)據(jù)缺失和噪聲嚴(yán)重,可變形物體的反向材料建模就需要很好地將數(shù)據(jù)驅(qū)動(dòng)與先驗(yàn)知識(shí)相結(jié)合。
材料反向建模通常限于單個(gè)物體,不會(huì)進(jìn)行多個(gè)物體交互的場(chǎng)景數(shù)據(jù)采集,因?yàn)樯婕敖佑|力等很多參數(shù)是無(wú)法測(cè)量和采集的。不過,王濱依然在朝這個(gè)方向邁進(jìn)。
在論文“Solid-Fluid Interaction with Surface-Tension-Dominant Contact”中,王濱與陳寶權(quán)等人合作研究了強(qiáng)表面張力下的的流固耦合模擬——具有表面張力主導(dǎo)接觸的固流相互作用。在這項(xiàng)研究中,無(wú)論是鋼回形針、櫻桃、秋葉還是水黽機(jī)器人,都可以在表面張力的作用下浮在水面,并蕩漾出了真實(shí)自然的波紋。
三向耦合方法可以模擬固體和液體之間以表面張力為主的接觸動(dòng)力學(xué),包括鋼回形針的靜態(tài)接觸、水面上的櫻桃、秋葉在小溪中漂浮和旋轉(zhuǎn) ,以及由其關(guān)節(jié)驅(qū)動(dòng)的水黽機(jī)器人。圖源:Solid-Fluid Interaction with Surface-Tension-Dominant Contact
這種固液表面接觸的最大特點(diǎn)是強(qiáng)表面張力,比如鋼回形針的密度是水的8倍,但仍然可以漂浮在水面上,就是因?yàn)樗谋砻鎻埩ο禂?shù)較高。
對(duì)于在水面上的固體物體,它的力平衡可以理解為重力_g、浮力f_、毛細(xì)力f_三個(gè)力之間的平衡:_g = f_ + f_。浮力的作用是通過對(duì)與水接觸的體積的流體壓力進(jìn)行積分來(lái)推斷的,而毛細(xì)力是通過對(duì)沿體積接觸周長(zhǎng)的表面張力進(jìn)行積分來(lái)計(jì)算的。
固體和流體相互作用。在重力、浮力f_和毛細(xì)力f_之間的平衡下,實(shí)心圓漂浮在水面上。圖源:Solid-Fluid Interaction with Surface-Tension-Dominant Contact
從計(jì)算的角度來(lái)看,準(zhǔn)確地模擬這三種力之間的相互作用需要對(duì)三個(gè)子系統(tǒng)進(jìn)行適當(dāng)?shù)奶幚怼后w、固體以及它們之間的強(qiáng)張力液體界面。
然而,在計(jì)算物理學(xué)和計(jì)算機(jī)圖形學(xué)界,由于缺乏有效的計(jì)算工具來(lái)精確模擬三個(gè)子系統(tǒng)之間的相互作用,模擬強(qiáng)耦合的表面張力主導(dǎo)接觸過程的問題在很大程度上仍未得到探索。
在傳統(tǒng)的雙向耦合系統(tǒng)中,沒有直接的途徑來(lái)橋接液體和固體,使得無(wú)法模擬流固體系中至關(guān)重要的f_項(xiàng)?!傲黧w的歐拉網(wǎng)格通常無(wú)法很好地跟蹤表面,表面張力和曲率相關(guān),而歐拉網(wǎng)格不易準(zhǔn)確計(jì)算曲率。”
為此,王濱與團(tuán)隊(duì)提出了一種新穎的“三向”耦合機(jī)制來(lái)模擬由強(qiáng)表面張力驅(qū)動(dòng)的固液耦合,“關(guān)鍵是將表面張力主導(dǎo)界面視為同時(shí)與液體體積和固體物體耦合的拉格朗日薄膜,界面不再是一個(gè)無(wú)限薄的數(shù)值載體,而是具有有限的小厚度。拉格朗日方法可以精確追蹤表面,并計(jì)算表面的張力。同時(shí),拉格朗日方法也可以很好表述表面和物體的碰撞,并將水分子的張力施加到固體上。”
團(tuán)隊(duì)圍繞這種“三向”耦合思想開發(fā)了一整套數(shù)值基礎(chǔ)設(shè)施,以全面適應(yīng)不可壓縮性、浮力、表面張力、剛性關(guān)節(jié)及其各種復(fù)雜相互作用的處理?!拔覀兊臄?shù)值解的一個(gè)重要特征是它能夠處理液體和高密度比固體系統(tǒng)之間的耦合,這對(duì)于所有以前的方法都是不可行的?!?/p>
除了物體的漂浮,該方法還可以模擬“Cheerios 效應(yīng)”(比如牛奶上的麥片互相吸引)、由表面活性成分引起的表面張力減弱效應(yīng)(比如洗潔精加入水中)等現(xiàn)象?!八?,通過數(shù)值方案,我們能夠?qū)崿F(xiàn)多尺度多物理場(chǎng)的耦合。其基本思路都是基于背后的物理機(jī)制,再設(shè)計(jì)數(shù)值計(jì)算的框架將其描述表述出來(lái)?!?/p>
落入水中的球體。由于薄液膜的網(wǎng)格表示,因此可獲得由固體運(yùn)動(dòng)刺激的精細(xì)波傳播。圖源:Solid-Fluid Interaction with Surface-Tension-Dominant Contact
荷葉模擬和回形針模擬都是經(jīng)典力學(xué)問題,在論文“A Level-Set Method for Magnetic Substance Simulation”中,王濱和陳寶權(quán)等人合作挑戰(zhàn)了磁流體模擬問題,并對(duì)領(lǐng)域內(nèi)的一個(gè)多年?duì)幷摻o出了一個(gè)解決方法。
這個(gè)爭(zhēng)論是“施加在物質(zhì)上的磁力是體積力還是表面力?”即使在今天,這個(gè)問題仍然沒有得到明確的回答,爭(zhēng)論的起源可以追溯到 150 年前麥克斯韋方程的誕生。
在表面張力驅(qū)動(dòng)的現(xiàn)象中,磁流體表現(xiàn)出其獨(dú)特的表面幾何形狀和動(dòng)力學(xué)特征,即尖銳的錐形結(jié)構(gòu)陣列的出現(xiàn)和演變。這些吸引人的特征是由于重力、表面張力和磁力之間的多邊相互作用而產(chǎn)生的。
王濱和團(tuán)隊(duì)提出,無(wú)論是理論上還是計(jì)算上,磁力耦合系統(tǒng)都可以作為界面問題來(lái)解決,“磁流體一般是基于背景網(wǎng)格進(jìn)行計(jì)算。但實(shí)際上磁力既可以表達(dá)為場(chǎng),也可以表達(dá)為表面力。在我們的研究中沒有使用對(duì)等的場(chǎng)力建模,而使用了表面力形式來(lái)建模?!?/p>
使用表面力建模方法可以巧妙地利用邊界的跳變模擬表面力,這方面恰好有良好的數(shù)學(xué)方法進(jìn)行描述,從而可以順利計(jì)算,“因此在磁流體建模中,我們僅需要基于歐拉網(wǎng)格便可以進(jìn)行良好的描述。”
從磁場(chǎng)到機(jī)械系統(tǒng)的前向耦合是界面的,通過模擬亥姆霍茲力對(duì)運(yùn)動(dòng)物體(例如,流體或固體)的表面效應(yīng),而從物理系統(tǒng)到磁場(chǎng)的后向耦合是體積的,通過跟蹤浸入背景磁場(chǎng)中的移動(dòng)磁性材料(水平集、粒子或網(wǎng)格)。
該計(jì)算框架可以很容易地集成到標(biāo)準(zhǔn)的歐拉流體求解器中,實(shí)現(xiàn)復(fù)雜磁場(chǎng)的模擬和可視化。由于方法的歐拉性質(zhì),其天生能夠準(zhǔn)確計(jì)算長(zhǎng)程磁相互作用,而不管浸入物體之間的距離如何。他們提出的方法對(duì)包括鐵磁流體、剛性磁體、可變形磁體和多相耦合等對(duì)象的模擬表現(xiàn)出豐富的幾何和動(dòng)態(tài)特性。
基于統(tǒng)一水平集的方法可以模擬和可視化各種磁現(xiàn)象的動(dòng)力學(xué),包括鐵磁流體、可變形磁體、剛性磁體和多物理場(chǎng)相互作用。圖源:A Level-Set Method for Magnetic Substance Simulation
就像我們?cè)诮炭茣锝?jīng)??吹降?,很多物理問題都有很限定的對(duì)象和邊界條件,但是計(jì)算機(jī)圖形學(xué)模擬的物理現(xiàn)象,不管是上述提到的固液耦合還是磁流體,往往空間、時(shí)間、相變的跨度很大,并且也涉及多個(gè)現(xiàn)象,跨越了多個(gè)邊界條件。
“也就是說(shuō),我們需要在一個(gè)求解里面實(shí)現(xiàn)跨度很大的現(xiàn)象變化和邊界條件變化,這和傳統(tǒng)的數(shù)學(xué)物理領(lǐng)域的求解很不一樣。”陳寶權(quán)表示,“要求解這樣的復(fù)雜現(xiàn)象會(huì)涉及到不同體系的方法,要將它們?nèi)诤显谝黄穑瑫r(shí)在幾何的表達(dá)上有一個(gè)連續(xù)的表達(dá),是很難做到的。比如,固體和流體耦合的模擬中,固體有固體的表達(dá),流體有流體的表達(dá),它們之間還有能量的傳遞。換句話說(shuō),就是固體有一個(gè)方程,流體有一個(gè)方程,同時(shí)還要將兩個(gè)方程做一個(gè)關(guān)聯(lián)?!?/p>
磁流體的仿真挑戰(zhàn)在于多物理場(chǎng)模擬。例如磁流體模擬中,其本質(zhì)是在固體仿真中添加一個(gè)磁場(chǎng),磁場(chǎng)和固體具有相互作用的性質(zhì)。這項(xiàng)額外添加的磁場(chǎng)會(huì)讓整體系統(tǒng)更加復(fù)雜,因此經(jīng)典力學(xué)和電動(dòng)力學(xué)的耦合是其關(guān)鍵所在。類似的挑戰(zhàn)還存在于剛性和彈性體的耦合仿真中。
3
運(yùn)動(dòng)控制
彈性體與剛體的聯(lián)合建模的最大應(yīng)用方向是人體的仿真。之前人體仿真工作都是將人體簡(jiǎn)化為剛體鉸鏈結(jié)構(gòu),并沒有考慮肌肉脂肪對(duì)人體所帶來(lái)的影響。但實(shí)際上,這些彈性體人體組織對(duì)運(yùn)動(dòng)行為的影響很大?!叭绻覀兊目刂扑惴ㄎ传@得此類肌肉脂肪對(duì)骨骼的影響,那么其逼真度就會(huì)大幅下降。因此,我們要將所有對(duì)運(yùn)動(dòng)產(chǎn)生影響的因素考慮進(jìn)去?!标悓殭?quán)表示。
目前的很多游戲中,此類仿真應(yīng)用較少,“原因是無(wú)需如此精準(zhǔn)的仿真,他們追求的更多是計(jì)算效率以及視覺效果。”
彈性體與剛體的聯(lián)合建模涉及到數(shù)字人的研究建模,數(shù)字人的建模難題在于如何對(duì)數(shù)字人進(jìn)行全方位的描述,包括紋理、動(dòng)作的復(fù)現(xiàn),以及醫(yī)學(xué)生理結(jié)構(gòu)(比如血管、肌肉、神經(jīng)等)。
在論文“Learning Skeletal Articulations with Neural Blend Shapes”中,劉利斌與陳寶權(quán)等人提出了一種新方法,克服了3D數(shù)字人模型在運(yùn)動(dòng)中常見的變形缺陷,例如在關(guān)節(jié)處出現(xiàn)蒙皮塌陷(形變?nèi)毕莠F(xiàn)象),從而實(shí)現(xiàn)了高質(zhì)量的蒙皮變形。
傳統(tǒng)的蒙皮和裝配變形模型過于簡(jiǎn)化了人類和動(dòng)物的移動(dòng)方式,導(dǎo)致了經(jīng)典的形變?nèi)毕莠F(xiàn)象,而使用混合形狀技術(shù)則可以在關(guān)節(jié)等敏感區(qū)域提供細(xì)粒度控制?;谶@一點(diǎn),這項(xiàng)工作提出了一種新的基于人工神經(jīng)網(wǎng)絡(luò)的“神經(jīng)混合形狀”技術(shù),能夠自動(dòng)處理具有不同形狀和連通性的數(shù)字模型。
通過神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)為具有任意連通性的人體輸入綁定骨骼和蒙皮,并生成神經(jīng)混合形狀。該框架可以生成與姿勢(shì)相關(guān)的位移,導(dǎo)致高質(zhì)量的變形,尤其是在關(guān)節(jié)區(qū)域。圖源:Learning Skeletal Articulations with Neural Blend Shapes
在訓(xùn)練期間,網(wǎng)絡(luò)觀察形狀的變形,并學(xué)習(xí)使用間接監(jiān)督來(lái)推斷相應(yīng)的綁定、皮膚和混合形狀,繞過提供監(jiān)督包絡(luò)或混合形狀變形參數(shù)的需要。由于不假設(shè)訓(xùn)練數(shù)據(jù)具有特定的潛在變形模型,間接監(jiān)督能夠?qū)W習(xí)任意數(shù)量的混合形狀。
包絡(luò)變形分支。給定 T-pose (V, F) 和關(guān)節(jié)旋轉(zhuǎn) (R) 的網(wǎng)格,神經(jīng)網(wǎng)絡(luò)通過觀察角色關(guān)節(jié)頂點(diǎn)位置,通過間接監(jiān)督來(lái)推斷蒙皮 (W) 和裝配 (O) 參數(shù)。圖源:Learning Skeletal Articulations with Neural Blend Shapes
“這項(xiàng)工作是第一個(gè)基于深度學(xué)習(xí)的自動(dòng)包絡(luò)方法,結(jié)合了與姿勢(shì)相關(guān)的混合形狀,可用于具有任意連通性的皮膚網(wǎng)格。”劉利斌說(shuō)到,“值得注意的是,我們的模型具備很強(qiáng)的對(duì)人體細(xì)節(jié)形變(例如,肌肉的抖動(dòng))的捕捉能力?!?/p>
陳寶權(quán)表示,“我們目前已經(jīng)實(shí)現(xiàn)了單向的建模,也就是將動(dòng)作復(fù)現(xiàn)出來(lái),而后再修改肌肉的形狀反應(yīng),而非由于肌肉的變化而導(dǎo)致對(duì)應(yīng)的運(yùn)動(dòng)控制。因此肌肉的收縮和脂肪的抖動(dòng)存在差異,仿真與實(shí)際還是存在差異?!?/p>
“人的動(dòng)作是一個(gè)主觀過程的結(jié)果。因此,我們通常無(wú)法通過既定的規(guī)則和規(guī)定限制動(dòng)作的過程和表現(xiàn),其本質(zhì)上是一個(gè)統(tǒng)計(jì)學(xué)模型。所以,對(duì)于動(dòng)作生成更多使用基于數(shù)據(jù)驅(qū)動(dòng)進(jìn)行研究,AI是很好的解決方法,目前相關(guān)前沿工作也是更多基于AI的突破,其中深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)扮演和起到了重要的角色?!眲⒗笱a(bǔ)充到。
劉利斌,北京大學(xué)前沿計(jì)算研究中心助理教授,主要研究方向是計(jì)算機(jī)圖形學(xué)、物理仿真、運(yùn)動(dòng)控制以及相關(guān)的優(yōu)化控制、機(jī)器學(xué)習(xí)、增強(qiáng)學(xué)習(xí)等領(lǐng)域。
加入中心之前,劉利斌博士曾于加拿大不列顛哥倫比亞大學(xué)(The University of British Columbia)及美國(guó)迪士尼研究院(Disney Research)進(jìn)行博士后研究,后加入美國(guó)硅谷創(chuàng)業(yè)公司DeepMotion Inc.擔(dān)任首席科學(xué)家。
劉利斌重點(diǎn)關(guān)注運(yùn)動(dòng)控制,這項(xiàng)技術(shù)最重要的應(yīng)用之一是角色動(dòng)畫。傳統(tǒng)角色動(dòng)畫的生成涉及建模、骨骼綁定、相機(jī)控制和動(dòng)作生成等過程,整個(gè)過程需要耗費(fèi)大量時(shí)間和人力,結(jié)合人工智能技術(shù),有望實(shí)現(xiàn)動(dòng)畫生成的加速。實(shí)際上,在博士期間,劉利斌就開始了對(duì)動(dòng)畫角色運(yùn)動(dòng)技能學(xué)習(xí)的探索。
和物理仿真不同,角色動(dòng)畫領(lǐng)域也沒有足夠的體系化的領(lǐng)域知識(shí),因此劉利斌和團(tuán)隊(duì)開始嘗試基于強(qiáng)化學(xué)習(xí)的方法。研究發(fā)現(xiàn),無(wú)論是對(duì)單個(gè)技能還是技能組合的學(xué)習(xí),強(qiáng)化學(xué)習(xí)都比傳統(tǒng)方法有更好的效果。
“我認(rèn)為完整的人工智能應(yīng)該具有良好的運(yùn)動(dòng)能力,它可以支持智能體探索較大的空間,并能完成更加復(fù)雜的任務(wù)。因此,我們希望未來(lái)的人工智能能夠主動(dòng)地去感知運(yùn)動(dòng),自主的學(xué)習(xí)新的運(yùn)動(dòng)技能,并且能夠根據(jù)實(shí)際情況來(lái)協(xié)調(diào)運(yùn)用這些技能,從而與人和其他人工智能進(jìn)行交互與協(xié)作。”劉利斌表示。
當(dāng)然,縱使肌肉抖動(dòng)能夠很好地還原,要用人工智能生成流暢的動(dòng)作,還需要進(jìn)行大量動(dòng)作數(shù)據(jù)的學(xué)習(xí)。從動(dòng)畫師手動(dòng)調(diào)整角色關(guān)鍵幀中的姿態(tài),到動(dòng)作捕捉技術(shù),再到基于深度學(xué)習(xí)的監(jiān)督姿態(tài)估計(jì)技術(shù),實(shí)際上,動(dòng)作學(xué)習(xí)還可以再進(jìn)一步——無(wú)監(jiān)督動(dòng)作學(xué)習(xí)。
在論文“Unsupervised Co-part Segmentation through Assembly”中,劉利斌與王濱、陳寶權(quán)等人合作提出了基于無(wú)監(jiān)督學(xué)習(xí)的圖像共同部分分割方法。該方法可以對(duì)人體、手、四足動(dòng)物和機(jī)器人手臂等物體實(shí)現(xiàn)有效的部件分割,進(jìn)而有效地捕捉視頻中的動(dòng)作信息,這些信息融合到動(dòng)畫角色模型上后,就可以自然地生成動(dòng)作。
在不同場(chǎng)景下測(cè)試的視覺分割結(jié)果,包括人類、手、四足動(dòng)物和機(jī)械臂。圖源:Unsupervised Co-part Segmentation through Assembly
視頻序列包含動(dòng)作的所有結(jié)構(gòu)和運(yùn)動(dòng)信息,包括主體在任何時(shí)間的姿勢(shì)以及姿勢(shì)之間的動(dòng)態(tài)轉(zhuǎn)換。
劉利斌和團(tuán)隊(duì)在這項(xiàng)研究中的目標(biāo)是從視頻中提取基于部件的通用表示。得到了部件的表示之后,就可以進(jìn)行自由的組合。
具體來(lái)說(shuō),在訓(xùn)練過程中,圖像編碼器將源圖像輸入轉(zhuǎn)換為源潛在特征圖和源部件變換,其中源部件變換可以將源潛在特征圖逆變換成規(guī)范特征圖,規(guī)范特征圖是特征圖的“原點(diǎn)”。同時(shí),還有另一張目標(biāo)圖像作為輸入,被轉(zhuǎn)換為目標(biāo)潛在特征圖和目標(biāo)部件變換。規(guī)范特征圖經(jīng)過目標(biāo)部件變換轉(zhuǎn)換為重定位特征圖。判斷網(wǎng)絡(luò)學(xué)習(xí)效果的指標(biāo)是將重定位特征圖解碼為目標(biāo)圖像的還原度,以及將源潛在特征圖解碼為源圖像的還原度。
訓(xùn)練過程,以端到端的方式訓(xùn)練分割網(wǎng)絡(luò)。圖源:Unsupervised Co-part Segmentation through Assembly
由于不是通過全局圖像扭曲而是混合每個(gè)部分的扭曲圖像來(lái)生成最終圖像。從本質(zhì)上講,基于圖像的裝配操作有效地約束了每個(gè)單獨(dú)零件的流形,從而改善了最終結(jié)果。
與基于單個(gè)圖像的分割相比,自監(jiān)督的學(xué)習(xí)模式聚合了來(lái)自多個(gè)圖像的形狀相關(guān)信息,從而改進(jìn)單個(gè)圖像的分割。
在電影等場(chǎng)景中,相機(jī)鏡頭也是敘事的重要部分?;跀z影方面的先驗(yàn)知識(shí)生成相機(jī)軌跡固然是一種思路,但這種先驗(yàn)知識(shí)很難用數(shù)學(xué)語(yǔ)言表達(dá)。為此,在論文“Example-driven Virtual Cinematography by Learning Camera Behaviors”中,王濱和陳寶權(quán)等人合作提出了從輸入視頻提取相機(jī)風(fēng)格表示的方法,使拍攝虛擬動(dòng)畫場(chǎng)景的過程展現(xiàn)出相似的風(fēng)格。
一種攝像機(jī)運(yùn)動(dòng)控制器的設(shè)計(jì),該控制器能夠自動(dòng)從不同的電影剪輯中提取攝像機(jī)行為(左)并將這些行為重新應(yīng)用于 3D 動(dòng)畫(中)。在此示例中,模型從三個(gè)不同的參考剪輯中自動(dòng)生成了三個(gè)不同的相機(jī)軌跡(紅色、藍(lán)色和黃色曲線)。右邊顯示了沿每個(gè)相機(jī)軌跡的 4 個(gè)特定時(shí)刻的視點(diǎn),展示了系統(tǒng)從不同的輸入示例中編碼和再現(xiàn)相機(jī)行為的能力。來(lái)源:Example-driven Virtual Cinematography by Learning Camera Behaviors
王濱表示,該工作中人工智能比重較大,因?yàn)樗臀锢砟M有所差異?!拔锢砟M背后有豐富和扎實(shí)的形式化知識(shí),無(wú)需AI重復(fù)造輪子。而對(duì)于鏡頭語(yǔ)言,它的語(yǔ)義性質(zhì)強(qiáng),目前沒有合適的數(shù)學(xué)模型進(jìn)行描述。而這正是神經(jīng)網(wǎng)絡(luò)的優(yōu)勢(shì)之處,它更適合這種語(yǔ)義性質(zhì)強(qiáng)的事物建模和描述?!?/p>
“在運(yùn)動(dòng)生成中,目前沒有很多的語(yǔ)義級(jí)表征?!眲⒗笱a(bǔ)充到,“在風(fēng)格表征中會(huì)有類似的工作和元素存在,例如表示歡快或者悲傷的情緒的語(yǔ)義表達(dá)變量。但是在運(yùn)動(dòng)生成中,目前沒有類似成果。但我認(rèn)為這是一個(gè)未來(lái)的方向,因?yàn)檫\(yùn)動(dòng)控制是多種動(dòng)作的有機(jī)組合,其抽象、語(yǔ)義級(jí)的表示可能是一個(gè)有前景的方向,目前也有類似的苗頭和前期工作出現(xiàn),很有意義?!?/p>
談及選擇深耕運(yùn)動(dòng)控制的原因,劉利斌說(shuō)到,“對(duì)于運(yùn)動(dòng)控制方向,學(xué)界的探索還是領(lǐng)先的。目前來(lái)看其生成的效果尚不能達(dá)到業(yè)界需求,雖然可以提供基本的控制能力,但是其效率、真實(shí)性離工業(yè)界的實(shí)際需求還有較大距離。這個(gè)方向有很大的研究空間。”
當(dāng)下的工作還不會(huì)對(duì)環(huán)境進(jìn)行建模,但在未來(lái),運(yùn)動(dòng)控制可能需要和物理環(huán)境進(jìn)行交互,“我們會(huì)考慮加入環(huán)境物理建模的步驟,增加其真實(shí)性?!?/p>
“在運(yùn)動(dòng)控制領(lǐng)域內(nèi),目前人們主要關(guān)注多技能的學(xué)習(xí)。例如對(duì)抗(格斗)和協(xié)同(跳舞)等類型的技能中,就涉及了多種技能的組合。”多技能學(xué)習(xí)不僅對(duì)于娛樂有用,在智能駕駛、服務(wù)機(jī)器人等領(lǐng)域也大有用處。
劉利斌認(rèn)為,技能遷移在未來(lái)會(huì)是個(gè)潛在研究熱點(diǎn),比如獲取到一些控制經(jīng)驗(yàn)后,如何利用已有知識(shí)進(jìn)行更好的其他部分的協(xié)同和學(xué)習(xí)?當(dāng)機(jī)器人學(xué)會(huì)平衡技能后,學(xué)習(xí)后空翻動(dòng)作時(shí)如何利用平衡技能?因?yàn)楹罂辗瓌?dòng)作完成后也涉及到平衡狀態(tài)?!斑@有點(diǎn)像NLP的預(yù)訓(xùn)練模型,對(duì)于動(dòng)作控制,我們也可以進(jìn)行類似的研究,可以稱之為‘?dāng)?shù)字小腦’。”
“可以說(shuō),我們目前在進(jìn)行小腦人工智能的研究和開發(fā),大腦部分更多的是語(yǔ)言、視覺等方面。在未來(lái),這兩個(gè)大部分可能會(huì)更多的融合,從而綻放更美的火花。目前小腦部分還在開發(fā),尤其是多技能集合的學(xué)習(xí)和擴(kuò)充,相信有一天我們可以實(shí)現(xiàn)完備的數(shù)字小腦?!?/p>
4
挑戰(zhàn)
盡管計(jì)算機(jī)圖形學(xué)在技術(shù)應(yīng)用上已經(jīng)觸達(dá)了現(xiàn)實(shí)生活,但仍存在基本的挑戰(zhàn)。
“幾何建模在基礎(chǔ)理論層面仍有一個(gè)遠(yuǎn)未實(shí)現(xiàn)的目標(biāo),那就是對(duì)隨時(shí)間變化的事物進(jìn)行連續(xù)、高效、統(tǒng)一的幾何表達(dá)。比如一棵樹在從春天到冬天會(huì)發(fā)生很大的形態(tài)變化,在這過程中,如何進(jìn)行幾何表達(dá),同時(shí)兼顧關(guān)系屬性、動(dòng)態(tài)表達(dá),就是個(gè)大難題。而具體到物理、動(dòng)態(tài)的時(shí)候,對(duì)于每種屬性的表達(dá)都會(huì)有所不同,最終可能會(huì)導(dǎo)致不一致的輸出結(jié)果。在工程系統(tǒng)方面存在諸多挑戰(zhàn),計(jì)算機(jī)圖形學(xué)的工程系統(tǒng)涉及傳感器、傳感器通訊、計(jì)算、存儲(chǔ)等等,需要推動(dòng)這方面的發(fā)展,GPU便是一個(gè)實(shí)例?!标悓殭?quán)表示。
在物理仿真領(lǐng)域,多物理場(chǎng)景、多尺度模擬都還存在許多挑戰(zhàn),而諸如相變、碰撞、翻轉(zhuǎn)、形變等不可微現(xiàn)象也對(duì)基于梯度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)應(yīng)用帶來(lái)了根本困難。
“我不是很贊同使用深度學(xué)習(xí)完全替代物理公式模型,因?yàn)槲锢韺W(xué)家已經(jīng)對(duì)該場(chǎng)景進(jìn)行了長(zhǎng)久的研究,并給出了理論模型的近似。而神經(jīng)網(wǎng)絡(luò)并沒有能夠像人類一樣對(duì)類似場(chǎng)景進(jìn)行類似量級(jí)的歸納總結(jié)和表達(dá),因此其通用性較為受制。換句話說(shuō),基于數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)模型通常無(wú)法學(xué)習(xí)到物理世界的底層邏輯,也無(wú)法保證物理模擬特征的可控性?!蓖鯙I表示。
對(duì)于上述挑戰(zhàn),目前的研究方向之一是使用統(tǒng)一的模擬方法進(jìn)行描述和建模。“比如MPM方法既適配流體又適配剛體的模擬,得到了領(lǐng)域的認(rèn)可。而IPC方法能夠?qū)⑴鲎彩褂媚芰啃问蕉羌s束形式加入到物理系統(tǒng)中,其普適性體現(xiàn)于對(duì)于單邊約束的仿真統(tǒng)一解法的歸一和簡(jiǎn)化,能夠穩(wěn)定簡(jiǎn)單地進(jìn)行求解,并保證每一步都沒有穿透,且操作可微?!?/p>
人工智能目前并沒有大規(guī)模利用在物理仿真場(chǎng)景中,但是王濱也指出,在未來(lái),物理模擬系統(tǒng)中的很多棘手問題可以通過AI進(jìn)行解決,“AI并不是推翻一切物理定律、重新造輪子的技術(shù)。它更應(yīng)該像是一個(gè)工具,解決現(xiàn)有系統(tǒng)中的難以解決的步驟和問題。在未來(lái),我相信結(jié)合傳統(tǒng)物理建模和人工智能方法的思路會(huì)逐漸成為主流。”
王濱認(rèn)為,深度學(xué)習(xí)也許在響應(yīng)的即時(shí)性方面能夠給予不錯(cuò)的補(bǔ)充,因?yàn)樗鼈兺ǔD軌蛘业揭粋€(gè)不可解釋的快速的滿足要求的解,“這個(gè)解可以表達(dá)我們想要的內(nèi)容,并且速度較為快速?!?/p>
“比如,在仿真的過程中我們通常需要解一些大型的線性系統(tǒng),但是該矩陣的條件樹通常不夠完備,此時(shí)我們需要使用一些其他技術(shù),例如預(yù)條件來(lái)得到這種場(chǎng)景下的比較可靠的解,這是一項(xiàng)很難和耗時(shí)的工作,它和物理問題強(qiáng)相關(guān)。此時(shí),AI也許也能夠幫助我們快速解開方程,得到一個(gè)合適的預(yù)條件,并解開病態(tài)方程。”
運(yùn)動(dòng)控制基本屬于基于經(jīng)驗(yàn)的學(xué)習(xí),因此其和深度學(xué)習(xí)所面臨的問題相同,比如可解釋性,劉利斌說(shuō)到,“其基礎(chǔ)理論挑戰(zhàn)也可以參考人工智能的基礎(chǔ)理論問題。而工程系統(tǒng)方面,仿真本身需要大量計(jì)算,因此需要考慮效率。在應(yīng)用方面主要的問題在于生成的質(zhì)量,很多工作目前還是無(wú)法滿足工業(yè)使用的需求。”
5
計(jì)算機(jī)圖形學(xué)與人工智能
不像計(jì)算機(jī)視覺幾乎有著全面擁抱深度學(xué)習(xí)的趨勢(shì),計(jì)算機(jī)圖形學(xué)仍然非??粗叵闰?yàn)知識(shí)的作用,而隨著兩者不斷深入交匯,或許將帶來(lái)無(wú)法預(yù)料的新發(fā)展。
計(jì)算機(jī)圖形學(xué)對(duì)人工智能有何促進(jìn)作用呢?陳寶權(quán)表示,可以分成兩個(gè)層次。
第一個(gè)層次是為人工智能提供訓(xùn)練與測(cè)試的任務(wù)環(huán)境?!笆紫仁翘峁┯?xùn)練數(shù)據(jù)。我們可以通過仿真的手段得到大量的仿真數(shù)據(jù)。一些數(shù)據(jù)的獲取通常十分昂貴,真實(shí)世界的數(shù)據(jù)采集可能無(wú)法滿足訓(xùn)練需求,此時(shí)模擬可提供幫助。其次是為智能算法提供虛擬測(cè)試環(huán)境。總的來(lái)說(shuō),我們可以通過搭建仿真環(huán)境,讓智能體在其中運(yùn)行得到訓(xùn)練、測(cè)試與反饋,這樣的模式在自動(dòng)駕駛場(chǎng)景中已經(jīng)得到廣泛應(yīng)用?!?/p>
第二個(gè)層次是為人工智能算法本身提供問題對(duì)象的表達(dá)模型。比如,基于模型的強(qiáng)化學(xué)習(xí),可以直接基于計(jì)算機(jī)圖形學(xué)對(duì)環(huán)境的建模參數(shù)作為數(shù)據(jù)輸入來(lái)學(xué)習(xí),從而使得學(xué)習(xí)的數(shù)據(jù)量大幅降低。“這相當(dāng)于幫助AI簡(jiǎn)化環(huán)境的復(fù)雜度,也就是說(shuō),計(jì)算機(jī)圖形學(xué)已經(jīng)幫助AI壓縮了環(huán)境信息,提取出最重要的因素。同時(shí),基于這個(gè)學(xué)習(xí)過程得到的模型也更具知識(shí)性,更具可解釋性。此外,計(jì)算機(jī)圖形學(xué)提供的虛擬環(huán)境也更加可控,可以控制知識(shí)和難度等等因素,避免不必要的偶然因素?!?/p>
計(jì)算機(jī)圖形學(xué)方法一般是基于約束條件,用顯式的方法去建模。AI一般是數(shù)據(jù)驅(qū)動(dòng),但它們能達(dá)到的效果是不一樣的,“如果要建模更加復(fù)雜的物體,就需要將問題分解,看哪些需要CG,哪些需要AI,哪些需要結(jié)合兩者?!?/p>
一般而言,在最初階段,我們傾向于用計(jì)算機(jī)圖形學(xué)的知識(shí)將問題分解,到了問題樹的節(jié)點(diǎn)處,或者說(shuō)最后一公里處,問題就變得不太容易顯式建模了,這時(shí)候就需要結(jié)合AI方法。例如,當(dāng)知道所建立的模型是一棵樹,那么我們會(huì)基于這個(gè)先驗(yàn)知識(shí)建立一個(gè)母模型,使其具有樹木的基礎(chǔ)特點(diǎn),而后再根據(jù)數(shù)據(jù)去特定的描述這棵樹的參數(shù)。
同樣,物理建模具有很完備的知識(shí)體系,而AI還處于比較黑盒的階段,依賴數(shù)據(jù)學(xué)習(xí)。知識(shí)和數(shù)據(jù)之間的關(guān)系如何?王濱表示,“知識(shí)是從數(shù)據(jù)中得到的歸納總結(jié)的模型,而數(shù)據(jù)的優(yōu)點(diǎn)在于和真實(shí)世界的差距更小,因此信息量更大。知識(shí)更加宏觀,數(shù)據(jù)更加微觀和特定,這可能是兩者之間的最大差異?!?/p>
6
形與力的二重奏
科學(xué)中互相接近的概念不可能完全獨(dú)立。正如荷花的幾何數(shù)據(jù)可以推斷其力學(xué)參數(shù),磁場(chǎng)的分布可以推斷磁流體的形態(tài),幾何建模背后的形、物理仿真和運(yùn)動(dòng)控制背后的力,都是互相衍生、不可分離的存在。亦如相對(duì)論中,勻速運(yùn)動(dòng)轉(zhuǎn)動(dòng)了光錐,導(dǎo)致鐘慢尺縮效應(yīng),質(zhì)量扭曲了光錐,導(dǎo)致自由下落效應(yīng),時(shí)間與空間不可分離,質(zhì)量與時(shí)空亦不可分離。
形與力盡管無(wú)法涵蓋計(jì)算機(jī)圖形學(xué)的全部,也不是構(gòu)建元宇宙的全部基石,但二者必然在未來(lái)攜手,并與人工智能相互推動(dòng),在元宇宙中還原現(xiàn)實(shí)中最重要的體驗(yàn)之一——觸摸世界。
參考資料
北京大學(xué)前沿計(jì)算研究中心可視計(jì)算日
智源新星劉利斌:讓 AI 無(wú)限逼近人類的運(yùn)動(dòng)能力
北京大學(xué)劉利斌:「元宇宙」支撐技術(shù)大揭秘——角色動(dòng)畫生成
清華大學(xué):元宇宙發(fā)展研究報(bào)告2.0版發(fā)布
從數(shù)字城市到數(shù)字孿生城市
Autoscanning for Coupled Scene Reconstruction and Proactive Object Analysis
https://kevinkaixu.net/papers/xu_siga15_pr2scene.pdf
Multi-Robot Collaborative Dense Scene Reconstruction
https://taiya.github.io/pubs/dong2019multirobot/paper.pdf
Deformation Capture and Modeling of Soft Objects
https://binwangbfa.github.io/publication/sig15_deformationcapture/SIG15_DeformationCapture.pdf
Solid-Fluid Interaction with Surface-Tension-Dominant Contact
https://binwangbfa.github.io/publication/sig21_waterstrider/sig21_waterstrider.pdf
A Level-Set Method for Magnetic Substance Simulation
https://binwangbfa.github.io/publication/sig20_ferrofluid/SIG20_FerroFluid.pdf
Example-driven Virtual Cinematography by Learning CameraBehaviors
https://binwangbfa.github.io/publication/sig20_camerabehavior/SIG20_CameraBehavior.pdf
Learning Skeletal Articulations with Neural Blend Shapes
https://peizhuoli.github.io/neural-blend-shapes/papers/neural-blend-shapes-camera-ready.pdf
Unsupervised Co-part Segmentation through Assembly
https://binwangbfa.github.io/publication/icml21_copart/ICML21_Copart.pdf
關(guān)鍵詞: 北大智能圖形學(xué)初探形與力協(xié)奏 知識(shí)與數(shù)據(jù)交融