這段時間,關(guān)于“AI未來往哪走的”討論,可以說是越來越激烈了。
(資料圖片僅供參考)
先是Meta被曝AI相關(guān)部門大重組,又有谷歌AI是否具備人格大討論,幾乎每一次討論都能看到Y(jié)ann LeCun的身影。
現(xiàn)在,LeCun終于坐不住了。
他用一篇長達(dá)62頁的最新論文,詳細(xì)介紹了他未來十年要做什么樣的AI研究:
自主機(jī)器智能(Autonomous Machine Intelligence)。
LeCun表示,在大數(shù)從業(yè)者都不會提前將自己的研究內(nèi)容公布出來的“學(xué)術(shù)風(fēng)氣”下,他這一舉動可以說是很特別了。
究其原因,除了發(fā)揚開放的科學(xué)研究精神,也是為了號召更多人一起加入其中,一起研究。
那么,他說的這個自主人工智能,究竟是什么,又要如何開展?
可以模擬世界運作的AI
在論文中,LeCun先是舉了一個例子:
一個年輕人可以最快在20小時內(nèi)就學(xué)會開車;
一個當(dāng)今世界最優(yōu)秀的自動駕駛系統(tǒng),卻要用到數(shù)百萬甚至數(shù)十億條帶標(biāo)簽的訓(xùn)練數(shù)據(jù),并在虛擬環(huán)境中進(jìn)行數(shù)百萬次強(qiáng)化學(xué)習(xí)才能得出——還完全達(dá)不到人類的水平。
從這個例子我們可以得出,盡管我們在人工智能方面的研究取得了不少進(jìn)展,但離創(chuàng)造出一個能真正像人類一樣思考和學(xué)習(xí)的AI還差得遠(yuǎn)。
LeCun所提出的自主人工智能就是要解決這個問題。
在他看來,對“世界模型”(世界如何運作的內(nèi)部模型)進(jìn)行學(xué)習(xí)的能力可能是關(guān)鍵。
眾所周知,人類和其他動物總是能通過觀察和少量互動,就能以無監(jiān)督的方式學(xué)習(xí)到大量關(guān)于世間萬物如何運轉(zhuǎn)的背景知識。
這些知識就是我們所說的常識,而常識就是構(gòu)成“世界模型”的基礎(chǔ)。
有了常識,我們在不熟悉的場景下也能開展行動。比如開頭那位從來沒有開過車的年輕人,碰到雪地,不用教也知道這樣的路很滑得慢慢開。
此外,常識還可以幫我們填補(bǔ)信息在時間和空間上的缺失。比如一名司機(jī)聽到了金屬等物質(zhì)的碰撞聲,即使沒有看到現(xiàn)場,也能知道那可能是有車禍發(fā)生。
在這些概念之上,LeCun提出了構(gòu)建自主人工智能的第一個挑戰(zhàn):
如何設(shè)計一個學(xué)習(xí)范式和體系架構(gòu),讓機(jī)器能夠以自監(jiān)督學(xué)習(xí)(也就是不需要標(biāo)注數(shù)據(jù))的方式學(xué)習(xí)“世界模型”,然后用這個模型去進(jìn)行預(yù)測、推理和行動。
在這里,他重新組合了認(rèn)知科學(xué)、系統(tǒng)神經(jīng)科學(xué)、最優(yōu)控制、強(qiáng)化學(xué)習(xí)和“傳統(tǒng)”人工智能等各個學(xué)科中提出的想法,并將它們與機(jī)器學(xué)習(xí)中的新概念相結(jié)合,提出了一個由六個獨立模塊組成的自主智能架構(gòu)。
其中,每個模塊都是可微的,每一個都可以很容易地計算某個目標(biāo)函數(shù)相對于自己的輸入的梯度估計,并將梯度信息傳播到上游模塊。
六模塊自主智能架構(gòu)
LeCun設(shè)想的六個模塊分別為:
1、配置模塊:負(fù)責(zé)執(zhí)行控制。給定要執(zhí)行的任務(wù),它可以通過調(diào)節(jié)其他模塊的參數(shù),為任務(wù)預(yù)先配置感知模塊、世界模塊等其他三個模塊的值。
2、感知模塊:負(fù)責(zé)接收來自傳感器的信號并估計世界的當(dāng)前狀態(tài)。
3、世界模型模塊:是這個架構(gòu)中最復(fù)雜的一部分。有兩個作用:
(1)估計感知模塊無法提供的關(guān)于世界狀態(tài)缺失的信息;
(2)預(yù)測未來可能的狀態(tài)。由于世界充滿了不確定性,該模塊必須能夠涵蓋出多種可能的預(yù)測。
4、成本模塊:用來計算標(biāo)量(scalar)的輸出,它可以預(yù)測智能體的不適程度(discomfort of the agent,智能體受到的損害、違反硬編碼的行為約束等)。
該模塊又有兩個子模塊:
(1)內(nèi)在成本模塊(cost),用來即時計算“不適感”;
(2)評判家(critic):預(yù)測內(nèi)在成本模塊的未來值。
5、行動模塊:用來計算要實現(xiàn)的動作序列。行動模塊可以找到一個使未來成本模塊最小化的最優(yōu)動作序列,并以類似于經(jīng)典最優(yōu)控制的方式,以最優(yōu)序列輸出第一個動作。
6、短期內(nèi)存模塊:跟蹤當(dāng)前和預(yù)測的世界狀態(tài)以及相關(guān)成本。
其中,對于這個架構(gòu)的核心——世界模塊,最關(guān)鍵的挑戰(zhàn)是如何使其能夠表示出多個合理的預(yù)測。
此外,它在學(xué)習(xí)世界的抽象表示時,還要學(xué)會忽略不相關(guān)的信息,只保留最有用的細(xì)節(jié)。
比如在開車時,只需要預(yù)測駕駛員周圍的汽車會做什么,不需要預(yù)測道路兩旁樹木中每片葉子的詳細(xì)位置。
對此,LeCun也給了一個可能的解決方案:
聯(lián)合嵌入預(yù)測架構(gòu) (JEPA),用它來處理預(yù)測中的不確定性。
同時,他還提出用非對比自監(jiān)督學(xué)習(xí)對JEPA進(jìn)行訓(xùn)練,以及從不同時間尺度上進(jìn)行預(yù)測的分級JEPA,它可以將復(fù)雜任務(wù)拆解為一系列不那么抽象的子任務(wù)。
AI待解決的問題還有很多
LeCun表示,對于未來幾十年來說,訓(xùn)練出來這樣一個世界模型是人工智能要取得突破性進(jìn)展必須面對的最大挑戰(zhàn)。
目前來看,要想實現(xiàn)上面這個架構(gòu),還有很多方面都有待定義:比如如何精確地訓(xùn)練critic、如何構(gòu)造和訓(xùn)練配置器、以及如何使用短期內(nèi)存跟蹤世界狀態(tài),并存儲世界狀態(tài)、動作和相關(guān)內(nèi)在成本的歷史來調(diào)整critic……
除此之外,LeCun也在論文中指出,對于未來的自主人工智能研究:
(1)擴(kuò)大模型規(guī)模有必要,但不夠;
(2)獎勵機(jī)制也不夠,基于觀察的自監(jiān)督學(xué)習(xí)才是更有效的方式;
(3)推理(reason)和計劃(plan)實質(zhì)上都?xì)w結(jié)于推斷(inference):找到一系列動作和潛在變量,以最小化(可微)目標(biāo)。這也是使推理與基于梯度的學(xué)習(xí)能夠兼容的辦法。
(4)在以上這種情況下,可能就不需要明確的符號操作機(jī)制了。
關(guān)鍵詞: LeCun用62頁論文公布未來十年研究計劃AI自主智能