Yann LeCun最新訪談:能量模型是通向自主人工智能系統(tǒng)的起點(diǎn)

發(fā)布時(shí)間:2022-04-07 16:46:00  |  來源:騰訊網(wǎng)  

Yann LeCun認(rèn)為,「能量模型」開辟了通往「抽象預(yù)測」的道路,為能夠進(jìn)行規(guī)劃的人工智能提供了「統(tǒng)一世界模型」。

來源 | ZDNet

編譯 | 錢磊

編輯 | 陳彩嫻

繼自監(jiān)督學(xué)習(xí)之后,Yann LeCun 在接受 ZDNet 的最新訪談中又著重探討了他在幾年前曾大篇幅推崇的概念:「能量模型」(energy-based models)。

什么是能量模型?

Yoshua Bengio、 Ian Goodfellow 和 Aaron Courville 等人在2019年出版的《深度學(xué)習(xí)》(又稱「花書」)一書中將「概率函數(shù)」定義為「描述了一個(gè)或一組隨機(jī)變量呈現(xiàn)其每種可能狀態(tài)的可能性大小」,而能量模型則簡化了兩個(gè)變量之間的一致性。能量模型借用統(tǒng)計(jì)物理學(xué)的概念,假設(shè)兩個(gè)變量之間的能量在它們不相容的情況下上升,在一致的情況下則下降。這可以消除將概率分布“標(biāo)準(zhǔn)化”過程中出現(xiàn)的復(fù)雜性。

在機(jī)器學(xué)習(xí)領(lǐng)域,能量模型是一個(gè)「老」概念,至少可以追溯到20世紀(jì)80年代。但近年來,越來越多成果使能量模型變得更可行。據(jù)ZDNet報(bào)道,近年來隨著對能量模型的思考不斷深入,LeCun圍繞該概念做了幾次演講,包括2019年在普林斯頓高等研究院的一次演講。

最近,LeCun在兩篇論文中描述了能量模型的研究現(xiàn)狀:一篇是 LeCun 與Facebook AI 實(shí)驗(yàn)室(FAIR)的同事于去年夏天共同發(fā)表的“Barlow Twins”;另一篇?jiǎng)t是他與 FAIR、Inria 合作發(fā)表于今年1月的“VICReg”。

正如LeCun在采訪中所說,他目前的研究與量子電動(dòng)力學(xué)有一些有趣的相似之處,盡管這不是他的重點(diǎn)。他關(guān)注的重點(diǎn)是人工智能系統(tǒng)的預(yù)測可以進(jìn)步到何種程度。

LeCun自己開發(fā)了一種叫做“聯(lián)合嵌入模型(joint embedding model)”的現(xiàn)代能量模型,他相信這能為深度學(xué)習(xí)系統(tǒng)帶來“巨大的優(yōu)勢”,這個(gè)優(yōu)勢就是“抽象表示空間中的預(yù)測”。

LeCun認(rèn)為,這種模型為“預(yù)測世界的抽象表征”開辟了道路。抽象預(yù)測能力是深度學(xué)習(xí)系統(tǒng)廣義上的發(fā)展前景,當(dāng)系統(tǒng)處于推斷模式時(shí),這種抽象預(yù)測機(jī)器的“堆棧”可以分層生成規(guī)劃場景。

這種模型可能是實(shí)現(xiàn)LeCun心目中的統(tǒng)一“世界模型”的重要工具,而這種統(tǒng)一的“世界模型”將推進(jìn)實(shí)現(xiàn)他心目中的自主人工智能,自主人工智能能夠通過對場景之間的相關(guān)性和圖像、語音和其他形式輸入數(shù)據(jù)的相關(guān)性建模來進(jìn)行規(guī)劃。

以下是ZDNet與LeCun通過Zoom的對話記錄,內(nèi)容有所編輯:

1

自監(jiān)督學(xué)習(xí) vs. 無監(jiān)督學(xué)習(xí)

ZDNet:首先,為了幫助我們學(xué)習(xí),請談?wù)勀?jīng)常說的機(jī)器學(xué)習(xí)中的「自監(jiān)督學(xué)習(xí)」和「無監(jiān)督學(xué)習(xí)」。無監(jiān)督學(xué)習(xí)和自監(jiān)督學(xué)習(xí)的關(guān)系是什么?

Yann LeCun:嗯,我認(rèn)為自監(jiān)督學(xué)習(xí)是一種特殊的無監(jiān)督學(xué)習(xí)方式。無監(jiān)督學(xué)習(xí)這個(gè)術(shù)語有點(diǎn)復(fù)雜,在機(jī)器學(xué)習(xí)的背景下不是很好定義。當(dāng)提到無監(jiān)督學(xué)習(xí)時(shí),人們會(huì)想到聚類算法和PCA(主成分分析),以及各種可視化方法。

而自監(jiān)督學(xué)習(xí)基本上是去嘗試使用對于非監(jiān)督學(xué)習(xí)來說相當(dāng)于監(jiān)督學(xué)習(xí)的方法:也就是使用了監(jiān)督學(xué)習(xí)方法,但訓(xùn)練的神經(jīng)網(wǎng)絡(luò)沒有人為提供的標(biāo)簽。比如說我們可以取一段視頻,給機(jī)器看一段視頻片段,然后讓它預(yù)測接下來會(huì)發(fā)生什么?;蛘咭部梢越o機(jī)器看兩段視頻,然后問它這個(gè)視頻是另一個(gè)視頻的后續(xù)嗎?我們要做的不是讓機(jī)器預(yù)測后續(xù),而是讓它告訴你這兩個(gè)場景是否相容?;蛘呦驒C(jī)器展示同一個(gè)物體的兩個(gè)不同的視圖,然后問它,這兩個(gè)東西是同一個(gè)物體嗎?在你給系統(tǒng)的所有數(shù)據(jù)基本上都是輸入數(shù)據(jù)的情況下,自監(jiān)督學(xué)習(xí)本質(zhì)上沒有真人的監(jiān)督。

ZDNet:近年來您做了幾次演講,包括2019年在新澤西州普林斯頓高等研究院(IAS)的演講,以及最近2月份百度主辦的關(guān)于深度學(xué)習(xí)基于能量的方法的演講。這些基于能量的模型屬于非監(jiān)督學(xué)習(xí)的自監(jiān)督部分嗎?

YL:是的。基于能量的模型中一切都能被假設(shè)。比如我給你X和Y;X是觀察,模型應(yīng)該捕獲Y關(guān)于X的相關(guān)性。例如,X是一個(gè)視頻的片段,Y是同一視頻的另一個(gè)片段,向系統(tǒng)展示X和Y,系統(tǒng)就應(yīng)該告訴我Y是不是X的后續(xù)?;蛘哒f給系統(tǒng)展示兩張圖片,系統(tǒng)就應(yīng)該告訴我兩張圖是彼此相關(guān)還是兩張完全不同的圖片。能量衡量的是相容性或不相容性,對吧?如果X和Y是相容的,能量就是零,如果能量比較大,那X和Y就是不相容的。

我們有兩種方法來訓(xùn)練基于能量的模型。第一種方式是向模型展示一對相容的X和Y,第二種是向模型展示一對不相容的X和Y,比如連不上的兩個(gè)視頻片段,兩個(gè)根本不相同的物體的圖片。對于這些不相容的XY對,我們需要設(shè)置高能量,而對于相容的XY對則降低能量值。

這是對比的方法。至少在某些情況下,我發(fā)明這種對比方法是為了一種叫做“孿生網(wǎng)絡(luò)(siamese nets)”的自監(jiān)督學(xué)習(xí)方法。我以前很喜歡這種方法,但現(xiàn)在我改變主意了。我認(rèn)為這種方法注定要失敗。我不認(rèn)為對比方法無用,但肯定是有不足之處的,因?yàn)檫@種方法不能很好地適應(yīng)這些東西的維度。正如那句名言:幸福的家庭都是相似的;不幸的家庭各有各的不幸。

兩個(gè)圖像相同或相容的情況比較少,可是兩幅圖像卻可以有很多不同的地方,而且空間是高維的。所以,基本上我們需要指數(shù)級量的對比能量樣本來推動(dòng)這些對比方法的工作。對比方法仍然很受歡迎,但在我看來這種方式的能力真的很有限。所以我更喜歡非對比法或者所謂的正則法。

而這些方法都是基于這樣一種想法,即構(gòu)造能量函數(shù)時(shí),你賦予其低能量值的空間體積是有限的。這可以用損失函數(shù)或能量函數(shù)中的一個(gè)術(shù)語來解釋,這個(gè)術(shù)語指的是最小化空間的體積,空間體積就可以某種方式使能量降低。我們有很多這樣的例子,其中一個(gè)例子就是積分稀疏編碼,這個(gè)概念可以追溯到20世紀(jì)90年代。近來我真正感到有興趣的是那些應(yīng)用于自監(jiān)督學(xué)習(xí)的非對比方法。

2

能量模型是未來的方向嗎?

ZDNet:你在演講里討論過"正則化的基于潛變量能量的模型"(regularized latent variable energy-based model),也就是 RLVEB。你認(rèn)為RLVEB就是未來的發(fā)展方向嗎?RLVEB是否能引領(lǐng)2020年代或者2030年代的發(fā)展?

YL:讓我這么說吧:自從卷積網(wǎng)絡(luò)之后,我對機(jī)器學(xué)習(xí)的東西就沒那么感興趣了。(笑)我不確定RLVEB是不是新的卷積,但我對此真的很興奮。當(dāng)我在IAS演講時(shí),我滿腦子都是RLVEB。RLVEB是生成模型,如果你想把它應(yīng)用到視頻預(yù)測之類的任務(wù)上,你給它一段視頻,可以讓它預(yù)測下一段視頻。

在過去的幾年里,我也改變了我的想法?,F(xiàn)在,我最喜歡的模型不是從X預(yù)測Y的生成模型,而是我所謂的聯(lián)合嵌入模型。我們?nèi),通過一個(gè)編碼器運(yùn)行它(如果你想的話,也可以用一個(gè)神經(jīng)網(wǎng)絡(luò)來運(yùn)行);取Y,并通過另一個(gè)編碼器運(yùn)行它;然后預(yù)測就會(huì)發(fā)生在這個(gè)抽象的表示空間中。這就是一個(gè)巨大的優(yōu)勢。

為什么我改變了主意?我改變主意是因?yàn)槲覀冎安恢涝撛趺醋觥,F(xiàn)在我們有一些方法可以派上用場。這些方法是在過去的兩年中出現(xiàn)的。我正在推動(dòng)的實(shí)際上有兩個(gè)方法:一個(gè)叫VIC-REG,另一個(gè)叫Barlow Twins。

ZDNet:那么在接下來的5到10年里,你認(rèn)為我們會(huì)在這方面看到什么進(jìn)展呢?

YL:我認(rèn)為現(xiàn)在我們至少有了一種方法來讓我們研究可以學(xué)習(xí)在抽象空間中進(jìn)行預(yù)測的系統(tǒng)。在學(xué)習(xí)抽象預(yù)測的同時(shí),系統(tǒng)也可以學(xué)習(xí)預(yù)測在抽象空間中隨著時(shí)間或狀態(tài)的變化會(huì)發(fā)生什么。對于一個(gè)自主的智能系統(tǒng)來說,這是非常重要的部分,例如,系統(tǒng)有某種世界模型,可以讓你提前預(yù)測世界將會(huì)發(fā)生什么,也可以預(yù)測行為的后果。因此,給定對世界狀態(tài)的估計(jì)以及你正在采取的行動(dòng),系統(tǒng)會(huì)給到你一個(gè)在你采取行動(dòng)后世界狀態(tài)的預(yù)測。

圖注:基于能量的模型:“VICREG”是“自監(jiān)督學(xué)習(xí)的方差-不變性-協(xié)方差重新正則化(Variance-Invariance-Covariance Re-Gularization For Self-Supervised Learning)”的縮寫,是LeCun在基于能量的神經(jīng)網(wǎng)絡(luò)架構(gòu)上的最新研究成果。一組圖像在兩個(gè)不同的管道中轉(zhuǎn)換,每個(gè)扭曲后的圖像會(huì)被發(fā)送到編碼器,該編碼器實(shí)質(zhì)上是對圖像進(jìn)行壓縮。然后,投影儀(也被稱為“擴(kuò)展器”)會(huì)將這些壓縮的表示解壓成最終的“嵌入”,即Z維。正因?yàn)檫@兩種嵌入之間的相似性不受其扭曲的影響,程序才能夠找到合適的低能量級別去識(shí)別出某些東西。(圖源:FAIR)

這個(gè)預(yù)測還取決于一些你無法觀察到的潛變量。比如,當(dāng)你開車的時(shí)候,你的前面有一輛車。這輛車可能剎車,可能加速,左轉(zhuǎn)或右轉(zhuǎn)。你不可能提前知道車輛的情況,這就是潛變量。所以整體架構(gòu)是這樣的,取最初的視頻集X和未來的視頻Y,將X、Y嵌入到某個(gè)神經(jīng)網(wǎng)絡(luò)中,從而得到X和Y的兩個(gè)抽象表示。然后在這個(gè)空間里做一個(gè)關(guān)于某個(gè)潛變量的基于能量的預(yù)測模型。

重點(diǎn)是,這個(gè)模型在預(yù)測世界抽象表示的時(shí)候,是不能預(yù)測世界上所有的細(xì)節(jié)的,因?yàn)檫@個(gè)世界上的很多細(xì)節(jié)可能是不相關(guān)的。在路上駕車的時(shí)候,可能會(huì)在路邊的一棵樹上看到一片葉子上非常復(fù)雜的部分。模型是絕對不可能預(yù)測這個(gè)的,或者說你也不想投入任何精力或資源來預(yù)測這點(diǎn)。所以這個(gè)編碼器本質(zhì)上可以在被問到之前就消除這些信息。

ZDNet:你認(rèn)為在未來的5到10年會(huì)出現(xiàn)一些具體的里程碑嗎?或者目標(biāo)?

YL:我預(yù)見到的是,我們可以使用「JEPA」(Joint Embedding Predictive Architecture)架構(gòu)來了解世界的預(yù)測模型,以一種自監(jiān)督的方式學(xué)習(xí)感知表示而又不需要為特定的任務(wù)訓(xùn)練系統(tǒng)。因?yàn)橄到y(tǒng)學(xué)習(xí)了X和Y的抽象表示,我們可以把它們堆疊起來。所以,一旦我們學(xué)會(huì)了對周圍世界的抽象表示,能夠做出短期預(yù)測了,我們就可以疊加另一層,從而可以學(xué)習(xí)更抽象的表示并獲得做出長期預(yù)測的能力。

所以讓系統(tǒng)通過觀察和觀看視頻來了解世界是如何運(yùn)作是很重要的。因?yàn)閶雰夯旧鲜峭ㄟ^觀察這個(gè)世界來學(xué)習(xí)的,學(xué)習(xí)直觀的物理,學(xué)習(xí)我們所知道的關(guān)于這個(gè)世界的一切。動(dòng)物也會(huì)這樣做。我們想讓我們的機(jī)器通過觀察來學(xué)會(huì)了解世界是如何運(yùn)作的。但是到目前為止,我們還沒有做到這一點(diǎn)。因此在我看來,使用JEPA并以分層的方式檢查它們,是實(shí)現(xiàn)系統(tǒng)觀察學(xué)習(xí)的途徑。

JEPA能給予深度學(xué)習(xí)機(jī)器的另一個(gè)好處是推理能力。目前有一個(gè)爭議:深度學(xué)習(xí)擅長的只有感知,因?yàn)檩斎牒洼敵鍪敲鞔_的。但如果你想要一個(gè)系統(tǒng)具備推理能力與規(guī)劃能力呢?世上存在具備一定的推理和規(guī)劃能力的復(fù)雜模型,但這樣的模型并不多。

那么,我們?nèi)绾巫寵C(jī)器去規(guī)劃呢?如果我們有一個(gè)世界預(yù)測模型,如果我們有一個(gè)能讓系統(tǒng)預(yù)測自己行為后果的模型,就可以讓系統(tǒng)想象其行動(dòng)路線并預(yù)測將會(huì)產(chǎn)生的結(jié)果。然后將這些信息提供給一些內(nèi)部函數(shù),這些函數(shù)會(huì)描述某個(gè)任務(wù)是否已完成。接著,通過優(yōu)化,可能使用梯度下降法找出使目標(biāo)最小化的一系列行動(dòng)。我們現(xiàn)在不是在討論學(xué)習(xí);我們現(xiàn)在討論的是推理與規(guī)劃。事實(shí)上,我現(xiàn)在描述的是一種經(jīng)典的計(jì)劃和模型預(yù)測控制的最優(yōu)控制方法。

最優(yōu)控制的不同之處在于,我們用的是一個(gè)經(jīng)過學(xué)習(xí)的世界模型,而不是一種固定的模型。我們的模型包含了所有可以處理這個(gè)世界的不確定性的變量,因此可以成為自主智能系統(tǒng)的基礎(chǔ),能夠預(yù)測未來并計(jì)劃一系列行動(dòng)。

我想從這里飛到舊金山,那我就需要去機(jī)場,趕飛機(jī)等等。要去機(jī)場,我就需要離開我的大樓,沿著街道走一段,然后打一輛出租車。要離開我的大樓,我就需要離開我的椅子,走向門,打開門,走向電梯或樓梯。要做到走向電梯或者樓梯,我需要弄清楚如何把這些動(dòng)作分解成一毫秒一毫秒的肌肉控制。這就叫做分層規(guī)劃。我們希望系統(tǒng)能夠做到這一點(diǎn),但目前我們還不能真正做到如此。這些通用架構(gòu)可以為我們提供這些東西。這是我的希望。

3

能量模型與其他方法之間的千絲萬縷

ZDNet:你描述能量模型的方式聽起來有點(diǎn)像量子電動(dòng)力學(xué)的內(nèi)容,比如 Dirac-Feynman 路徑積分或者波函數(shù)。這只是一種比喻,還是說也許這兩者實(shí)際上是一致的?

YL:這并不是比喻,而且兩者其實(shí)是有些不同的,并非完全一致。比如你有一個(gè)潛變量,這個(gè)潛變量可以取很多不同的值,通常你要做的就是遍歷這個(gè)潛變量所有可能的值。這可能有些不切實(shí)際。所以你可以從某個(gè)分布中對潛變量抽樣,然后計(jì)算可能結(jié)果的集合。但是,實(shí)際上你最終要計(jì)算的是一個(gè)代價(jià)函數(shù),這個(gè)代價(jià)函數(shù)給出了一個(gè)你對潛變量的可能值求平均的期望值。這看起來很像一個(gè)路徑積分。路徑積分實(shí)際上就是計(jì)算多條路徑的能量之和,至少在傳統(tǒng)意義上是如此。在量子方法中,你不是在把概率或分?jǐn)?shù)相加,而是在把復(fù)數(shù)相加,而復(fù)數(shù)可以互相抵消。雖然我們一直在考慮這樣的事情(至少我一直在思考同樣的東西),但我們的研究中沒有這樣的內(nèi)容。這個(gè)在上下文中沒有用到,但是潛變量的邊際化和路徑/軌跡的總和是非常相似的。

ZDNe:你曾做出兩個(gè)相當(dāng)驚人的斷言。一是深度學(xué)習(xí)的概率方法已經(jīng)過時(shí)。二是你說你正在討論的基于能源的模型與20世紀(jì)80年代的方法有一些聯(lián)系,例如 Hopfield 網(wǎng)絡(luò)。請問能詳細(xì)說明一下這兩點(diǎn)嗎?

YL:我們需要放棄概率模型的原因是,我們可以對兩個(gè)變量X和Y之間的相關(guān)性建模,但如果Y是高維的,如何表示Y上的分布呢?我們真的不知道該怎么做。我們只能寫出一個(gè)非常簡單的分布,一個(gè)高斯分布或者高斯分布的混合分布之類的。如果你想用復(fù)數(shù)概率去度量,我們不知道怎么做,或者說我們知道的唯一方法就是通過能量函數(shù)去度量。所以我們只能寫一個(gè)能量函數(shù),其中低能對應(yīng)著高概率,高能對應(yīng)著低概率,這就是物理學(xué)家理解能量的方式,對吧?問題是我們一直不太理解如何標(biāo)準(zhǔn)化。統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)和計(jì)算物理學(xué)等領(lǐng)域里有很多論文都是有關(guān)如何解決這個(gè)棘手問題的。

我所倡導(dǎo)的是忘掉概率模型,只考慮能量函數(shù)本身。它甚至不需要使能量變成可以標(biāo)準(zhǔn)化的形式。最終的結(jié)果是,你應(yīng)該有一種損失函數(shù),當(dāng)你訓(xùn)練你的數(shù)據(jù)模型,使得相容的能量函數(shù)低而不相容的能量函數(shù)高的時(shí)候,你就把損失函數(shù)最小化。就是這么簡單。

ZDNet:和Hopfield網(wǎng)絡(luò)之間的關(guān)系呢?

YL:Hopfield 網(wǎng)絡(luò)和 Boltzmann 機(jī)器當(dāng)然與此相關(guān)。Hopfield 網(wǎng)絡(luò)是以一種非對比的方式訓(xùn)練的能量模型,但效率很低,所以沒什么人用Hopfield 網(wǎng)絡(luò)。

Boltzmann 機(jī)器基本上是Hopfield網(wǎng)絡(luò)的一個(gè)對比版本, 你得到數(shù)據(jù)樣本并降低其能量,你生成其他樣本并提高其能量。這種方法在某種程度上更令人滿意,但也不是很有效,因?yàn)檫@種對比的方法不能很好地?cái)U(kuò)展。因?yàn)檫@個(gè)原因,這個(gè)方法也沒有被使用。

ZDNet:那么,正則化的、基于潛變量能量的模型(RLVEB)真的可以被認(rèn)為是Hopfield 網(wǎng)絡(luò)的2.0版本嗎?

YL:我不那么認(rèn)為。

4

“意識(shí)是人類大腦局限性的結(jié)果”

ZDNet:你提出了另一個(gè)相當(dāng)驚人的論斷,即“只有一個(gè)世界模型”并認(rèn)為意識(shí)是人類大腦中“一個(gè)世界模型的刻意配置”。你說這可能是個(gè)瘋狂的假設(shè)。這是你的猜想嗎?這到底是一個(gè)瘋狂的假設(shè),還是有什么證據(jù)可以證明呢?在這個(gè)案例里有什么證據(jù)呢?

YL:這是個(gè)猜想,一個(gè)瘋狂的設(shè)想。任何關(guān)于意識(shí)的東西,在某種程度上都是猜想。因?yàn)槲覀円婚_始并不知道意識(shí)是什么。我認(rèn)為意識(shí)是一種錯(cuò)覺。我想表達(dá)的是,意識(shí)被認(rèn)為是人類和一些動(dòng)物擁有的一種能力,我們認(rèn)為意識(shí)體現(xiàn)了這些生物的智慧,這有點(diǎn)可笑。我認(rèn)為意識(shí)是我們大腦局限性的結(jié)果,因?yàn)槲覀兊拇竽X中有一個(gè)單一的、類似于世界模型的引擎,我們需要一些東西來控制這個(gè)引擎,這個(gè)東西就是意識(shí)。于是我們產(chǎn)生了人類有意識(shí)的錯(cuò)覺。如果我們的大腦變得無限大,不再有限制,我們就不需要意識(shí)了。

至少有一些證據(jù)表明我們腦中或多或少存在一個(gè)單一的模擬引擎。比如,我們基本上在同一時(shí)間只能嘗試一項(xiàng)意識(shí)任務(wù),我們專注于任務(wù),我們會(huì)想象我們計(jì)劃的行為的后果。你一次只能做一件事,或者你可以同時(shí)做多件事,但這些多個(gè)任務(wù)是我們訓(xùn)練自己不用思考就能完成的潛意識(shí)行為。比如我們可以一邊開車一邊和身邊的人說話,只要我們練習(xí)開車的時(shí)間足夠長,開車就已經(jīng)成為一種下意識(shí)的行為。所以在剛開始學(xué)開車的幾個(gè)小時(shí)里,我們做不到一邊開車一邊說話,我們必須集中精力才能完成駕駛,因?yàn)槲覀儽仨毷褂梦覀兊氖澜缒P皖A(yù)測引擎來找出所有可能發(fā)生的可怕情況。

ZDNet:如果這只是一種猜想,那么它對你目前的工作并沒有什么實(shí)際意義,不是嗎?

YL:不,有一定意義。我提出的這個(gè)自主人工智能模型有一個(gè)可配置的世界模型模擬引擎,其目的是規(guī)劃和想象未來,填補(bǔ)你無法完全觀察到的空白??膳渲玫膯我荒P蜁?huì)帶來計(jì)算優(yōu)勢,可以讓系統(tǒng)在任務(wù)之間共享知識(shí),這些知識(shí)是你通過觀察或基本邏輯之類的東西學(xué)到的。使用你配置的大模型要比使用一個(gè)完全獨(dú)立的模型來處理不同的任務(wù)要有效得多,因?yàn)椴煌娜蝿?wù)可能需要單獨(dú)訓(xùn)練。但是我們已經(jīng)看到了,對吧?以前在Facebook(當(dāng)Meta名字還叫Facebook)的時(shí)候,我們用視覺來分析圖像,做排序和過濾,基本上對于不同的任務(wù),我們都有專門的神經(jīng)網(wǎng)絡(luò)和專門的卷積網(wǎng)絡(luò)來解決。而現(xiàn)在我們有一個(gè)大的網(wǎng)絡(luò),什么任務(wù)都能處理。我們以前有好幾個(gè)ConvNets,現(xiàn)在我們只有一個(gè)。

我們看到了這種簡化。我們現(xiàn)在甚至有可以做所有事情的架構(gòu):同一個(gè)架構(gòu)就可以處理視覺、文字、口語。這種架構(gòu)必須分別接受三個(gè)任務(wù)的訓(xùn)練,而這個(gè)架構(gòu) data2vec,是一種自監(jiān)督的方法。

ZDNet:真有意思!感謝你的分享。

https://www.zdnet.com/article/metas-ai-luminary-lecun-explores-deep-learnings-energy-frontier/

雷峰網(wǎng)

關(guān)鍵詞: Yann LeCun最新訪談能量模型是通向自主人工智能系統(tǒng)的

 

網(wǎng)站介紹  |  版權(quán)說明  |  聯(lián)系我們  |  網(wǎng)站地圖 

星際派備案號(hào):京ICP備2022016840號(hào)-16 營業(yè)執(zhí)照公示信息版權(quán)所有 郵箱聯(lián)系:920 891 263@qq.com