新智元報道
編輯:David 如願
2009年,當(dāng)時還在普林斯頓大學(xué)任教的計算機(jī)科學(xué)家李飛飛發(fā)明了一個數(shù)據(jù)集,后來改變了人工智能的發(fā)展史。
【資料圖】
該數(shù)據(jù)集被稱為ImageNet,包括數(shù)以百萬計的標(biāo)記圖像,可以訓(xùn)練復(fù)雜的機(jī)器學(xué)習(xí)模型來識別圖片中的目標(biāo)。
2015年,用這個數(shù)據(jù)集訓(xùn)練出來的機(jī)器,超過了人類的識別能力。不久之后,李飛飛開始尋找她所謂的另一顆 「北極星」,推動人工智能走向真正的智能化。
靠訓(xùn)練讓機(jī)器識圖,還是沒那么智能。她開始尋求與人類智能的起源更接近的方式。
她回顧了5.3億年前的「寒武紀(jì)大爆炸」,并找到了靈感,當(dāng)時,眾多物種的陸生動物首次出現(xiàn)。有理論認(rèn)為,新物種的爆發(fā)部分是由眼睛的出現(xiàn)推動的,眼睛可以第一次讓動物看到了它們周圍的世界。
李飛飛認(rèn)為,動物的視覺從來都不是單獨形成的,而是深深結(jié)合整個身體的過程中發(fā)生的,因為動物需要在快速變化的環(huán)境中移動、導(dǎo)航、生存,并做出改變?!?/p>
現(xiàn)在,李飛飛的工作更加側(cè)重于AI智能體。與十幾年前不同的是,這些智能體除了接受來自數(shù)據(jù)集的靜態(tài)圖像,還可以在三維虛擬世界的模擬中移動,并與環(huán)境互動。
這是一個被稱為 「具身AI」的新領(lǐng)域,該領(lǐng)域與機(jī)器人學(xué)的研究方向有諸多交集,因為機(jī)器人可以作為現(xiàn)實世界中具身AI智能體的物理等價物,在強(qiáng)化學(xué)習(xí)上,兩個領(lǐng)域也有著共同的特征。
李飛飛和該領(lǐng)域的其他研究人員認(rèn)為,「具身AI」帶來的重大轉(zhuǎn)變,是讓AI從學(xué)習(xí)直接的能力,如識別圖像,到學(xué)習(xí)如何執(zhí)行類似人類的多個步驟的復(fù)雜任務(wù),比如煎蛋卷。
今天,具身研究包括任何能夠探測和改變自身環(huán)境的智能體。在機(jī)器人學(xué)中,AI智能體總是生活在一個機(jī)器人的身體里,但現(xiàn)實模擬中的智能體可能只有虛擬身體,或者只是通過一個移動的攝像機(jī)來感知世界,但仍然可以與周圍環(huán)境互動。
「所謂「具身」的意義,其實不在于身體本身,而是與環(huán)境互動行為的整體需求和功能?!估铒w飛說。
這種互動給了智能體一種全新的了解世界的方式。簡單來說,過去是觀察兩個物體之間可能存在的關(guān)系,現(xiàn)在是自己進(jìn)行實驗并導(dǎo)致這種關(guān)系的產(chǎn)生。
有了這種新的理解,就會有更高的智能。隨著新的虛擬世界的建立和運行,具身AI智能體已經(jīng)開始兌現(xiàn)這一潛力,在新環(huán)境中取得了重大進(jìn)展。
越來越完美的環(huán)境模擬
長期以來,研究人員一直想為AI智能體創(chuàng)造逼真的虛擬世界,但直到五年前,這個想法才開始成為現(xiàn)實。這要歸功于電影和視頻游戲行業(yè)所推動的圖形化領(lǐng)域的技術(shù)進(jìn)步。
2017年,AI智能體首次實現(xiàn)了在一個逼真的室內(nèi)虛擬空間中實現(xiàn)了身臨其境的居家感。
這個名為「AI2-Thor」的模擬器,由艾倫人工智能研究所的計算機(jī)科學(xué)家建造,讓智能體在自然的廚房、浴室、客廳和臥室中漫步。
智能體周圍的3D視圖隨著它們的移動而移動,當(dāng)智能體停下來仔細(xì)觀察時,又會展示出新的角度。
這樣的「新世界」也讓智能體有機(jī)會對新維度的變化進(jìn)行推理:時間維度。
西蒙弗雷澤大學(xué)(Simon Fraser University)的計算機(jī)圖形研究人員Manolis Savva認(rèn)為:「這就是與以往的最大區(qū)別,在具身AI環(huán)境中......可以獲得時間上連貫的信息流,而且可以控制?!?/p>
這些模擬世界現(xiàn)在已經(jīng)足夠逼真,可以訓(xùn)練智能體完成全新任務(wù)?,F(xiàn)在的智能體不僅能識別目標(biāo),還能與之互動,比如拿起目標(biāo),并在其周圍導(dǎo)航。這些步驟看似很不起眼,但對于任何智能體了解環(huán)境來說都是必不可少的。
2020年,虛擬智能體超越了視覺層面,聽到了虛擬環(huán)境中發(fā)出的聲音,用另一種方式了解世界。
當(dāng)然,這并不是說這項工作已經(jīng)大功告成了。
斯坦福大學(xué)的計算機(jī)科學(xué)家丹尼爾·亞明斯(Daniel Yamins)說:「即使是最好的模擬器,也遠(yuǎn)不如現(xiàn)實世界那么真實」。
與麻省理工學(xué)院和IBM的同事一起,Yamins共同開發(fā)了ThreeDWorld,把重點放在虛擬世界中模仿現(xiàn)實生活中的物理學(xué)--比如液體的行為方式
「這真的很難,挑戰(zhàn)很大,但這足以讓AI智能體開始以新的方式學(xué)習(xí)?!?/p>
比傳統(tǒng)神經(jīng)網(wǎng)絡(luò)更接近大腦
到目前為止,衡量「具身AI」進(jìn)展的一個簡單方法是,將具身智能體的表現(xiàn)與在更簡單的靜態(tài)圖像任務(wù)上訓(xùn)練的算法進(jìn)行比較。
研究人員指出,這些比較并不完美,但早期結(jié)果確實表明,具身AI智能體的學(xué)習(xí)方式不同,有時效果確實比其前輩更好。
在最近的一篇論文中,研究人員發(fā)現(xiàn)一個具身的AI智能體在檢測指定的物體時的表現(xiàn)更加準(zhǔn)確,比傳統(tǒng)方法提高了近12%。
艾倫人工智能研究所的計算機(jī)科學(xué)家、論文共同作者之一的Roozbeh Mottaghi說:「物體檢測界花了三年多的時間才實現(xiàn)了這種水平的改進(jìn)。方法僅僅是通過與世界的互動?!?/p>
還有論文表明,如果將具身AI智能體賦予有形的形式,并讓它們只探索一次虛擬空間,或者讓它們四處移動,收集目標(biāo)的多個視圖時,在目標(biāo)檢測任務(wù)中的表現(xiàn)也強(qiáng)于傳統(tǒng)的訓(xùn)練算法。
研究人員還發(fā)現(xiàn),具身AI的算法和傳統(tǒng)算法在學(xué)習(xí)方式上有根本不同。
以神經(jīng)網(wǎng)絡(luò)為例,研究人員發(fā)現(xiàn),具身AI智能體中的神經(jīng)網(wǎng)絡(luò),在響應(yīng)視覺信息時活躍的神經(jīng)元相對較少,這表明每個單獨的神經(jīng)元有更大的余地選擇響應(yīng)哪些內(nèi)容。
相比之下,傳統(tǒng)AI智能體的效率要低得多,需要更多的神經(jīng)元在大部分時間內(nèi)處于活躍狀態(tài)。
研究人員將具身和非具身的神經(jīng)網(wǎng)絡(luò)與活體大腦(小鼠的視覺皮層)中的神經(jīng)元活動進(jìn)行了比較,發(fā)現(xiàn)具身AI智能體與活體大腦的活動是最接近的。
不過研究人員也指出,這并不一定意味著具身AI更好,二者只是不同而已。
與物體探測論文不同的是,Clay和Lindsay在比較相同神經(jīng)網(wǎng)絡(luò)的潛在差異中,要讓智能體執(zhí)行完全不同的任務(wù),所以可能需要工作方式不同的神經(jīng)網(wǎng)絡(luò)來完成各自的目標(biāo)。
但是,雖然將具身神經(jīng)網(wǎng)絡(luò)與非具身神經(jīng)網(wǎng)絡(luò)進(jìn)行比較是一種相對進(jìn)步的衡量標(biāo)準(zhǔn),但研究人員并不是真的會對如何提高具身智能體在當(dāng)前任務(wù)中的表現(xiàn)感興趣。
這項工作將繼續(xù)進(jìn)行,使用傳統(tǒng)的訓(xùn)練方式。真正的目標(biāo)是學(xué)習(xí)更復(fù)雜的、類人的任務(wù),這也是研究人員最感興趣的地方。
在短短幾年內(nèi),由Meta AI研究主任、佐治亞理工學(xué)院計算機(jī)科學(xué)家Dhruv Batra領(lǐng)導(dǎo)的團(tuán)隊迅速提高了一種名為point-goal navigation的特定導(dǎo)航任務(wù)的性能。
一個agent會被放置在一個全新的環(huán)境中,并且必須在沒有地圖的情況下導(dǎo)航到相對于起始位置的目標(biāo)坐標(biāo)(「往北5米,往東10米的地方」)。
通過給agent一個GPS和一個指南針,并在Meta的虛擬世界,即AI棲息地中訓(xùn)練它,Batra表示:「我們能夠在標(biāo)準(zhǔn)數(shù)據(jù)集上獲得超過99.9%的準(zhǔn)確性?!?/p>
這個月,他們成功地將訓(xùn)練結(jié)果擴(kuò)展到一個更困難卻更現(xiàn)實的場景,即agent沒有GPS或指南針。該agent只能通過移動時看到的像素流來估計其位置,不過其準(zhǔn)確率也達(dá)到94%。
Mottaghi說:「這是一個了不起的進(jìn)步。然而,這并不意味著導(dǎo)航問題已經(jīng)完全被解決了?!?/p>
在某種程度上,這是因為許多其他類型的導(dǎo)航任務(wù)需要使用更復(fù)雜的語言指令,比如「經(jīng)過廚房去拿臥室床頭柜上的眼鏡」,其準(zhǔn)確率仍然只有30%到40%左右。
但導(dǎo)航仍然是「具身AI」中最簡單的任務(wù)之一,因為agent在環(huán)境中移動時不需要操作任何內(nèi)容。
到目前為止,「具身AI」的agent還尚未掌握任何與對象相關(guān)的任務(wù)。一部分挑戰(zhàn)在于,當(dāng)agent與新對象進(jìn)行交互時,它可能會出現(xiàn)很多錯誤,然后錯誤很可能會堆積起來。
目前,大多數(shù)研究人員通過選擇只包含幾個步驟的任務(wù)來克服這個問題,但大多數(shù)類人類的活動,比如烘焙或洗碗,需要對多個物體進(jìn)行長序列的動作。若要實現(xiàn)這一目標(biāo),人工智能agent將需要更大的推動。
在這方面,李飛飛可能又一次走在了前沿,她開發(fā)了一個數(shù)據(jù)集,希望能像她的ImageNet項目為人工智能物體識別所做的那樣,為「具身AI」做貢獻(xiàn)。
她曾經(jīng)為人工智能社區(qū)提供了一個巨大的圖像數(shù)據(jù)集,用于實驗室標(biāo)準(zhǔn)化輸入數(shù)據(jù),現(xiàn)在她的團(tuán)隊發(fā)布了一個標(biāo)準(zhǔn)化的模擬數(shù)據(jù)集,其中包括100個類似人類的活動,供agent完成,并且可以在任何虛擬世界中進(jìn)行測試。
一旦agent成功完成了這些復(fù)雜的任務(wù),李飛飛認(rèn)為模擬的目的,就是為了在最終的可操作空間,即真實世界,進(jìn)行訓(xùn)練。
李飛飛表示:「在我看來,模擬是機(jī)器人研究中最重要、最令人興奮的領(lǐng)域之一?!?/p>
機(jī)器人的新前沿
機(jī)器人本質(zhì)上就是一個具身「AI智能體」。
通過寄居在現(xiàn)實世界中的某種物理軀體,它們代表了最極端的具身AI智能形式。但許多研究人員現(xiàn)在發(fā)現(xiàn),這些agent甚至能從虛擬世界的訓(xùn)練中受益。
Mottaghi說:「機(jī)器人技術(shù)中SOTA算法,比如強(qiáng)化學(xué)習(xí),通常需要數(shù)百萬次迭代來學(xué)習(xí)那些有意義的東西?!挂虼?,訓(xùn)練真正的機(jī)器人去完成艱巨的任務(wù),這可能需要若干年的時間。
但在虛擬世界中訓(xùn)練他們首先提供了比實時訓(xùn)練更快的機(jī)會,并且數(shù)千名agent可以在數(shù)千個具有細(xì)微差別的房間中同時訓(xùn)練。此外,虛擬訓(xùn)練對機(jī)器人以及機(jī)器人附近的人類,都更加安全。
2018年,許多機(jī)器人專家開始更重視模擬器,OpenAI的研究人員證明,將模擬技能轉(zhuǎn)移到現(xiàn)實世界是可能的。他們訓(xùn)練一只機(jī)械手去操作一個只在模擬中見過的立方體。
最近的成功進(jìn)展讓無人機(jī)學(xué)會了如何在空中避免碰撞;讓自動駕駛汽車實現(xiàn)跨城市測試;讓具有四條腿的,像小狗一樣的機(jī)器人在瑞士阿爾卑斯山完成一小時的徒步,這和人類所需要的時間一樣。
在未來,研究人員還可能通過虛擬現(xiàn)實頭盔將人類送入虛擬空間,從而縮小模擬世界和現(xiàn)實世界之間的差距。
英偉達(dá)機(jī)器人研究高級主管、華盛頓大學(xué)教授Dieter Fox指出,機(jī)器人研究的一個關(guān)鍵目標(biāo)是制造出在現(xiàn)實世界中對人類有幫助的機(jī)器人。但要做到這一點,它們必須要先接觸并學(xué)習(xí)如何與人類互動。
Fox說:「利用虛擬現(xiàn)實技術(shù)讓人類進(jìn)入這些模擬環(huán)境,使他們能夠演示東西,并與機(jī)器人進(jìn)行互動,這是非常了不起的事情?!?/p>
無論它們是存在于模擬世界還是現(xiàn)實世界,具身人工智能agent都在學(xué)習(xí)如何更像我們。
該領(lǐng)域同時在所有方面取得進(jìn)展——新的世界、新的任務(wù)以及新的學(xué)習(xí)算法。
李飛飛表示:「我看到了深度學(xué)習(xí)、機(jī)器人學(xué)習(xí)、視覺甚至語言的融合?,F(xiàn)在我認(rèn)為,通過這一面向具身人工智能的登月或北極星計劃,我們將學(xué)習(xí)AI的基礎(chǔ)技術(shù),從而真正實現(xiàn)重大突破?!?/p>
參考資料:
https://twitter.com/drfeifei/status/1417265544164646923
https://www.quantamagazine.org/ai-makes-strides-in-virtual-worlds-more-like-our-own-20220624/
關(guān)鍵詞: 在虛擬世界里探索 李飛飛的具身AI離大腦更接近了