亚洲www在线,亚洲国产成a人v在线观看,色婷婷国产一区二区在线播放

Yann LeCun認(rèn)為，「能量模型」開辟了通往「抽象預(yù)測」的道路，為能夠進(jìn)行規(guī)劃的人工智能提供了「統(tǒng)一世界模型」。

來源 | ZDNet

編譯 | 錢磊

編輯 | 陳彩嫻

繼自監(jiān)督學(xué)習(xí)之后，Yann LeCun 在接受 ZDNet 的最新訪談中又著重探討了他在幾年前曾大篇幅推崇的概念：「能量模型」（energy-based models）。

什么是能量模型？

Yoshua Bengio、 Ian Goodfellow 和 Aaron Courville 等人在2019年出版的《深度學(xué)習(xí)》（又稱「花書」）一書中將「概率函數(shù)」定義為「描述了一個(gè)或一組隨機(jī)變量呈現(xiàn)其每種可能狀態(tài)的可能性大小」，而能量模型則簡化了兩個(gè)變量之間的一致性。能量模型借用統(tǒng)計(jì)物理學(xué)的概念，假設(shè)兩個(gè)變量之間的能量在它們不相容的情況下上升，在一致的情況下則下降。這可以消除將概率分布“標(biāo)準(zhǔn)化”過程中出現(xiàn)的復(fù)雜性。

在機(jī)器學(xué)習(xí)領(lǐng)域，能量模型是一個(gè)「老」概念，至少可以追溯到20世紀(jì)80年代。但近年來，越來越多成果使能量模型變得更可行。據(jù)ZDNet報(bào)道，近年來隨著對能量模型的思考不斷深入，LeCun圍繞該概念做了幾次演講，包括2019年在普林斯頓高等研究院的一次演講。

最近，LeCun在兩篇論文中描述了能量模型的研究現(xiàn)狀：一篇是 LeCun 與Facebook AI 實(shí)驗(yàn)室（FAIR）的同事于去年夏天共同發(fā)表的“Barlow Twins”；另一篇?jiǎng)t是他與 FAIR、Inria 合作發(fā)表于今年1月的“VICReg”。

正如LeCun在采訪中所說，他目前的研究與量子電動(dòng)力學(xué)有一些有趣的相似之處，盡管這不是他的重點(diǎn)。他關(guān)注的重點(diǎn)是人工智能系統(tǒng)的預(yù)測可以進(jìn)步到何種程度。

LeCun自己開發(fā)了一種叫做“聯(lián)合嵌入模型（joint embedding model）”的現(xiàn)代能量模型，他相信這能為深度學(xué)習(xí)系統(tǒng)帶來“巨大的優(yōu)勢”，這個(gè)優(yōu)勢就是“抽象表示空間中的預(yù)測”。

LeCun認(rèn)為，這種模型為“預(yù)測世界的抽象表征”開辟了道路。抽象預(yù)測能力是深度學(xué)習(xí)系統(tǒng)廣義上的發(fā)展前景，當(dāng)系統(tǒng)處于推斷模式時(shí)，這種抽象預(yù)測機(jī)器的“堆棧”可以分層生成規(guī)劃場景。

這種模型可能是實(shí)現(xiàn)LeCun心目中的統(tǒng)一“世界模型”的重要工具，而這種統(tǒng)一的“世界模型”將推進(jìn)實(shí)現(xiàn)他心目中的自主人工智能，自主人工智能能夠通過對場景之間的相關(guān)性和圖像、語音和其他形式輸入數(shù)據(jù)的相關(guān)性建模來進(jìn)行規(guī)劃。

以下是ZDNet與LeCun通過Zoom的對話記錄，內(nèi)容有所編輯：

自監(jiān)督學(xué)習(xí) vs. 無監(jiān)督學(xué)習(xí)

ZDNet：首先，為了幫助我們學(xué)習(xí)，請談?wù)勀?jīng)常說的機(jī)器學(xué)習(xí)中的「自監(jiān)督學(xué)習(xí)」和「無監(jiān)督學(xué)習(xí)」。無監(jiān)督學(xué)習(xí)和自監(jiān)督學(xué)習(xí)的關(guān)系是什么？

Yann LeCun：嗯，我認(rèn)為自監(jiān)督學(xué)習(xí)是一種特殊的無監(jiān)督學(xué)習(xí)方式。無監(jiān)督學(xué)習(xí)這個(gè)術(shù)語有點(diǎn)復(fù)雜，在機(jī)器學(xué)習(xí)的背景下不是很好定義。當(dāng)提到無監(jiān)督學(xué)習(xí)時(shí)，人們會(huì)想到聚類算法和PCA（主成分分析），以及各種可視化方法。

而自監(jiān)督學(xué)習(xí)基本上是去嘗試使用對于非監(jiān)督學(xué)習(xí)來說相當(dāng)于監(jiān)督學(xué)習(xí)的方法：也就是使用了監(jiān)督學(xué)習(xí)方法，但訓(xùn)練的神經(jīng)網(wǎng)絡(luò)沒有人為提供的標(biāo)簽。比如說我們可以取一段視頻，給機(jī)器看一段視頻片段，然后讓它預(yù)測接下來會(huì)發(fā)生什么?；蛘咭部梢越o機(jī)器看兩段視頻，然后問它這個(gè)視頻是另一個(gè)視頻的后續(xù)嗎？我們要做的不是讓機(jī)器預(yù)測后續(xù)，而是讓它告訴你這兩個(gè)場景是否相容?；蛘呦驒C(jī)器展示同一個(gè)物體的兩個(gè)不同的視圖，然后問它，這兩個(gè)東西是同一個(gè)物體嗎？在你給系統(tǒng)的所有數(shù)據(jù)基本上都是輸入數(shù)據(jù)的情況下，自監(jiān)督學(xué)習(xí)本質(zhì)上沒有真人的監(jiān)督。

ZDNet：近年來您做了幾次演講，包括2019年在新澤西州普林斯頓高等研究院（IAS）的演講，以及最近2月份百度主辦的關(guān)于深度學(xué)習(xí)基于能量的方法的演講。這些基于能量的模型屬于非監(jiān)督學(xué)習(xí)的自監(jiān)督部分嗎？

YL：是的。基于能量的模型中一切都能被假設(shè)。比如我給你X和Y；X是觀察，模型應(yīng)該捕獲Y關(guān)于X的相關(guān)性。例如，X是一個(gè)視頻的片段，Y是同一視頻的另一個(gè)片段，向系統(tǒng)展示X和Y，系統(tǒng)就應(yīng)該告訴我Y是不是X的后續(xù)?；蛘哒f給系統(tǒng)展示兩張圖片，系統(tǒng)就應(yīng)該告訴我兩張圖是彼此相關(guān)還是兩張完全不同的圖片。能量衡量的是相容性或不相容性，對吧？如果X和Y是相容的，能量就是零，如果能量比較大，那X和Y就是不相容的。

我們有兩種方法來訓(xùn)練基于能量的模型。第一種方式是向模型展示一對相容的X和Y，第二種是向模型展示一對不相容的X和Y，比如連不上的兩個(gè)視頻片段，兩個(gè)根本不相同的物體的圖片。對于這些不相容的XY對，我們需要設(shè)置高能量，而對于相容的XY對則降低能量值。

這是對比的方法。至少在某些情況下，我發(fā)明這種對比方法是為了一種叫做“孿生網(wǎng)絡(luò)（siamese nets）”的自監(jiān)督學(xué)習(xí)方法。我以前很喜歡這種方法，但現(xiàn)在我改變主意了。我認(rèn)為這種方法注定要失敗。我不認(rèn)為對比方法無用，但肯定是有不足之處的，因?yàn)檫@種方法不能很好地適應(yīng)這些東西的維度。正如那句名言：幸福的家庭都是相似的；不幸的家庭各有各的不幸。

兩個(gè)圖像相同或相容的情況比較少，可是兩幅圖像卻可以有很多不同的地方，而且空間是高維的。所以，基本上我們需要指數(shù)級量的對比能量樣本來推動(dòng)這些對比方法的工作。對比方法仍然很受歡迎，但在我看來這種方式的能力真的很有限。所以我更喜歡非對比法或者所謂的正則法。

而這些方法都是基于這樣一種想法，即構(gòu)造能量函數(shù)時(shí)，你賦予其低能量值的空間體積是有限的。這可以用損失函數(shù)或能量函數(shù)中的一個(gè)術(shù)語來解釋，這個(gè)術(shù)語指的是最小化空間的體積，空間體積就可以某種方式使能量降低。我們有很多這樣的例子，其中一個(gè)例子就是積分稀疏編碼，這個(gè)概念可以追溯到20世紀(jì)90年代。近來我真正感到有興趣的是那些應(yīng)用于自監(jiān)督學(xué)習(xí)的非對比方法。

能量模型是未來的方向嗎？

ZDNet：你在演講里討論過"正則化的基于潛變量能量的模型"（regularized latent variable energy-based model），也就是 RLVEB。你認(rèn)為RLVEB就是未來的發(fā)展方向嗎？RLVEB是否能引領(lǐng)2020年代或者2030年代的發(fā)展？

YL：讓我這么說吧：自從卷積網(wǎng)絡(luò)之后，我對機(jī)器學(xué)習(xí)的東西就沒那么感興趣了。（笑）我不確定RLVEB是不是新的卷積，但我對此真的很興奮。當(dāng)我在IAS演講時(shí)，我滿腦子都是RLVEB。RLVEB是生成模型，如果你想把它應(yīng)用到視頻預(yù)測之類的任務(wù)上，你給它一段視頻，可以讓它預(yù)測下一段視頻。

在過去的幾年里，我也改變了我的想法?，F(xiàn)在，我最喜歡的模型不是從X預(yù)測Y的生成模型，而是我所謂的聯(lián)合嵌入模型。我們?nèi)，通過一個(gè)編碼器運(yùn)行它（如果你想的話，也可以用一個(gè)神經(jīng)網(wǎng)絡(luò)來運(yùn)行）；取Y，并通過另一個(gè)編碼器運(yùn)行它；然后預(yù)測就會(huì)發(fā)生在這個(gè)抽象的表示空間中。這就是一個(gè)巨大的優(yōu)勢。

為什么我改變了主意？我改變主意是因?yàn)槲覀冎安恢涝撛趺醋觥，F(xiàn)在我們有一些方法可以派上用場。這些方法是在過去的兩年中出現(xiàn)的。我正在推動(dòng)的實(shí)際上有兩個(gè)方法：一個(gè)叫VIC-REG，另一個(gè)叫Barlow Twins。

ZDNet：那么在接下來的5到10年里，你認(rèn)為我們會(huì)在這方面看到什么進(jìn)展呢？

YL：我認(rèn)為現(xiàn)在我們至少有了一種方法來讓我們研究可以學(xué)習(xí)在抽象空間中進(jìn)行預(yù)測的系統(tǒng)。在學(xué)習(xí)抽象預(yù)測的同時(shí)，系統(tǒng)也可以學(xué)習(xí)預(yù)測在抽象空間中隨著時(shí)間或狀態(tài)的變化會(huì)發(fā)生什么。對于一個(gè)自主的智能系統(tǒng)來說，這是非常重要的部分，例如，系統(tǒng)有某種世界模型，可以讓你提前預(yù)測世界將會(huì)發(fā)生什么，也可以預(yù)測行為的后果。因此，給定對世界狀態(tài)的估計(jì)以及你正在采取的行動(dòng)，系統(tǒng)會(huì)給到你一個(gè)在你采取行動(dòng)后世界狀態(tài)的預(yù)測。

圖注：基于能量的模型：“VICREG”是“自監(jiān)督學(xué)習(xí)的方差-不變性-協(xié)方差重新正則化（Variance-Invariance-Covariance Re-Gularization For Self-Supervised Learning）”的縮寫，是LeCun在基于能量的神經(jīng)網(wǎng)絡(luò)架構(gòu)上的最新研究成果。一組圖像在兩個(gè)不同的管道中轉(zhuǎn)換，每個(gè)扭曲后的圖像會(huì)被發(fā)送到編碼器，該編碼器實(shí)質(zhì)上是對圖像進(jìn)行壓縮。然后，投影儀（也被稱為“擴(kuò)展器”）會(huì)將這些壓縮的表示解壓成最終的“嵌入”，即Z維。正因?yàn)檫@兩種嵌入之間的相似性不受其扭曲的影響，程序才能夠找到合適的低能量級別去識(shí)別出某些東西。（圖源：FAIR）

這個(gè)預(yù)測還取決于一些你無法觀察到的潛變量。比如，當(dāng)你開車的時(shí)候，你的前面有一輛車。這輛車可能剎車，可能加速，左轉(zhuǎn)或右轉(zhuǎn)。你不可能提前知道車輛的情況，這就是潛變量。所以整體架構(gòu)是這樣的，取最初的視頻集X和未來的視頻Y，將X、Y嵌入到某個(gè)神經(jīng)網(wǎng)絡(luò)中，從而得到X和Y的兩個(gè)抽象表示。然后在這個(gè)空間里做一個(gè)關(guān)于某個(gè)潛變量的基于能量的預(yù)測模型。

重點(diǎn)是，這個(gè)模型在預(yù)測世界抽象表示的時(shí)候，是不能預(yù)測世界上所有的細(xì)節(jié)的，因?yàn)檫@個(gè)世界上的很多細(xì)節(jié)可能是不相關(guān)的。在路上駕車的時(shí)候，可能會(huì)在路邊的一棵樹上看到一片葉子上非常復(fù)雜的部分。模型是絕對不可能預(yù)測這個(gè)的，或者說你也不想投入任何精力或資源來預(yù)測這點(diǎn)。所以這個(gè)編碼器本質(zhì)上可以在被問到之前就消除這些信息。

ZDNet：你認(rèn)為在未來的5到10年會(huì)出現(xiàn)一些具體的里程碑嗎？或者目標(biāo)？

YL：我預(yù)見到的是，我們可以使用「JEPA」（Joint Embedding Predictive Architecture）架構(gòu)來了解世界的預(yù)測模型，以一種自監(jiān)督的方式學(xué)習(xí)感知表示而又不需要為特定的任務(wù)訓(xùn)練系統(tǒng)。因?yàn)橄到y(tǒng)學(xué)習(xí)了X和Y的抽象表示，我們可以把它們堆疊起來。所以，一旦我們學(xué)會(huì)了對周圍世界的抽象表示，能夠做出短期預(yù)測了，我們就可以疊加另一層，從而可以學(xué)習(xí)更抽象的表示并獲得做出長期預(yù)測的能力。

所以讓系統(tǒng)通過觀察和觀看視頻來了解世界是如何運(yùn)作是很重要的。因?yàn)閶雰夯旧鲜峭ㄟ^觀察這個(gè)世界來學(xué)習(xí)的，學(xué)習(xí)直觀的物理，學(xué)習(xí)我們所知道的關(guān)于這個(gè)世界的一切。動(dòng)物也會(huì)這樣做。我們想讓我們的機(jī)器通過觀察來學(xué)會(huì)了解世界是如何運(yùn)作的。但是到目前為止，我們還沒有做到這一點(diǎn)。因此在我看來，使用JEPA并以分層的方式檢查它們，是實(shí)現(xiàn)系統(tǒng)觀察學(xué)習(xí)的途徑。

JEPA能給予深度學(xué)習(xí)機(jī)器的另一個(gè)好處是推理能力。目前有一個(gè)爭議：深度學(xué)習(xí)擅長的只有感知，因?yàn)檩斎牒洼敵鍪敲鞔_的。但如果你想要一個(gè)系統(tǒng)具備推理能力與規(guī)劃能力呢？世上存在具備一定的推理和規(guī)劃能力的復(fù)雜模型，但這樣的模型并不多。

那么，我們?nèi)绾巫寵C(jī)器去規(guī)劃呢？如果我們有一個(gè)世界預(yù)測模型，如果我們有一個(gè)能讓系統(tǒng)預(yù)測自己行為后果的模型，就可以讓系統(tǒng)想象其行動(dòng)路線并預(yù)測將會(huì)產(chǎn)生的結(jié)果。然后將這些信息提供給一些內(nèi)部函數(shù)，這些函數(shù)會(huì)描述某個(gè)任務(wù)是否已完成。接著，通過優(yōu)化，可能使用梯度下降法找出使目標(biāo)最小化的一系列行動(dòng)。我們現(xiàn)在不是在討論學(xué)習(xí)；我們現(xiàn)在討論的是推理與規(guī)劃。事實(shí)上，我現(xiàn)在描述的是一種經(jīng)典的計(jì)劃和模型預(yù)測控制的最優(yōu)控制方法。

最優(yōu)控制的不同之處在于，我們用的是一個(gè)經(jīng)過學(xué)習(xí)的世界模型，而不是一種固定的模型。我們的模型包含了所有可以處理這個(gè)世界的不確定性的變量，因此可以成為自主智能系統(tǒng)的基礎(chǔ)，能夠預(yù)測未來并計(jì)劃一系列行動(dòng)。

我想從這里飛到舊金山，那我就需要去機(jī)場，趕飛機(jī)等等。要去機(jī)場，我就需要離開我的大樓，沿著街道走一段，然后打一輛出租車。要離開我的大樓，我就需要離開我的椅子，走向門，打開門，走向電梯或樓梯。要做到走向電梯或者樓梯，我需要弄清楚如何把這些動(dòng)作分解成一毫秒一毫秒的肌肉控制。這就叫做分層規(guī)劃。我們希望系統(tǒng)能夠做到這一點(diǎn)，但目前我們還不能真正做到如此。這些通用架構(gòu)可以為我們提供這些東西。這是我的希望。

能量模型與其他方法之間的千絲萬縷

ZDNet：你描述能量模型的方式聽起來有點(diǎn)像量子電動(dòng)力學(xué)的內(nèi)容，比如 Dirac-Feynman 路徑積分或者波函數(shù)。這只是一種比喻，還是說也許這兩者實(shí)際上是一致的？

YL：這并不是比喻，而且兩者其實(shí)是有些不同的，并非完全一致。比如你有一個(gè)潛變量，這個(gè)潛變量可以取很多不同的值，通常你要做的就是遍歷這個(gè)潛變量所有可能的值。這可能有些不切實(shí)際。所以你可以從某個(gè)分布中對潛變量抽樣，然后計(jì)算可能結(jié)果的集合。但是，實(shí)際上你最終要計(jì)算的是一個(gè)代價(jià)函數(shù)，這個(gè)代價(jià)函數(shù)給出了一個(gè)你對潛變量的可能值求平均的期望值。這看起來很像一個(gè)路徑積分。路徑積分實(shí)際上就是計(jì)算多條路徑的能量之和，至少在傳統(tǒng)意義上是如此。在量子方法中，你不是在把概率或分?jǐn)?shù)相加，而是在把復(fù)數(shù)相加，而復(fù)數(shù)可以互相抵消。雖然我們一直在考慮這樣的事情（至少我一直在思考同樣的東西），但我們的研究中沒有這樣的內(nèi)容。這個(gè)在上下文中沒有用到，但是潛變量的邊際化和路徑/軌跡的總和是非常相似的。

ZDNe：你曾做出兩個(gè)相當(dāng)驚人的斷言。一是深度學(xué)習(xí)的概率方法已經(jīng)過時(shí)。二是你說你正在討論的基于能源的模型與20世紀(jì)80年代的方法有一些聯(lián)系，例如 Hopfield 網(wǎng)絡(luò)。請問能詳細(xì)說明一下這兩點(diǎn)嗎？

YL：我們需要放棄概率模型的原因是，我們可以對兩個(gè)變量X和Y之間的相關(guān)性建模，但如果Y是高維的，如何表示Y上的分布呢？我們真的不知道該怎么做。我們只能寫出一個(gè)非常簡單的分布，一個(gè)高斯分布或者高斯分布的混合分布之類的。如果你想用復(fù)數(shù)概率去度量，我們不知道怎么做，或者說我們知道的唯一方法就是通過能量函數(shù)去度量。所以我們只能寫一個(gè)能量函數(shù)，其中低能對應(yīng)著高概率，高能對應(yīng)著低概率，這就是物理學(xué)家理解能量的方式，對吧？問題是我們一直不太理解如何標(biāo)準(zhǔn)化。統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)和計(jì)算物理學(xué)等領(lǐng)域里有很多論文都是有關(guān)如何解決這個(gè)棘手問題的。

我所倡導(dǎo)的是忘掉概率模型，只考慮能量函數(shù)本身。它甚至不需要使能量變成可以標(biāo)準(zhǔn)化的形式。最終的結(jié)果是，你應(yīng)該有一種損失函數(shù)，當(dāng)你訓(xùn)練你的數(shù)據(jù)模型，使得相容的能量函數(shù)低而不相容的能量函數(shù)高的時(shí)候，你就把損失函數(shù)最小化。就是這么簡單。

ZDNet：和Hopfield網(wǎng)絡(luò)之間的關(guān)系呢？

YL：Hopfield 網(wǎng)絡(luò)和 Boltzmann 機(jī)器當(dāng)然與此相關(guān)。Hopfield 網(wǎng)絡(luò)是以一種非對比的方式訓(xùn)練的能量模型，但效率很低，所以沒什么人用Hopfield 網(wǎng)絡(luò)。

Boltzmann 機(jī)器基本上是Hopfield網(wǎng)絡(luò)的一個(gè)對比版本，你得到數(shù)據(jù)樣本并降低其能量，你生成其他樣本并提高其能量。這種方法在某種程度上更令人滿意，但也不是很有效，因?yàn)檫@種對比的方法不能很好地?cái)U(kuò)展。因?yàn)檫@個(gè)原因，這個(gè)方法也沒有被使用。

ZDNet：那么，正則化的、基于潛變量能量的模型（RLVEB）真的可以被認(rèn)為是Hopfield 網(wǎng)絡(luò)的2.0版本嗎？

YL：我不那么認(rèn)為。

“意識(shí)是人類大腦局限性的結(jié)果”

ZDNet：你提出了另一個(gè)相當(dāng)驚人的論斷，即“只有一個(gè)世界模型”并認(rèn)為意識(shí)是人類大腦中“一個(gè)世界模型的刻意配置”。你說這可能是個(gè)瘋狂的假設(shè)。這是你的猜想嗎？這到底是一個(gè)瘋狂的假設(shè)，還是有什么證據(jù)可以證明呢？在這個(gè)案例里有什么證據(jù)呢？

YL：這是個(gè)猜想，一個(gè)瘋狂的設(shè)想。任何關(guān)于意識(shí)的東西，在某種程度上都是猜想。因?yàn)槲覀円婚_始并不知道意識(shí)是什么。我認(rèn)為意識(shí)是一種錯(cuò)覺。我想表達(dá)的是，意識(shí)被認(rèn)為是人類和一些動(dòng)物擁有的一種能力，我們認(rèn)為意識(shí)體現(xiàn)了這些生物的智慧，這有點(diǎn)可笑。我認(rèn)為意識(shí)是我們大腦局限性的結(jié)果，因?yàn)槲覀兊拇竽X中有一個(gè)單一的、類似于世界模型的引擎，我們需要一些東西來控制這個(gè)引擎，這個(gè)東西就是意識(shí)。于是我們產(chǎn)生了人類有意識(shí)的錯(cuò)覺。如果我們的大腦變得無限大，不再有限制，我們就不需要意識(shí)了。

至少有一些證據(jù)表明我們腦中或多或少存在一個(gè)單一的模擬引擎。比如，我們基本上在同一時(shí)間只能嘗試一項(xiàng)意識(shí)任務(wù)，我們專注于任務(wù)，我們會(huì)想象我們計(jì)劃的行為的后果。你一次只能做一件事，或者你可以同時(shí)做多件事，但這些多個(gè)任務(wù)是我們訓(xùn)練自己不用思考就能完成的潛意識(shí)行為。比如我們可以一邊開車一邊和身邊的人說話，只要我們練習(xí)開車的時(shí)間足夠長，開車就已經(jīng)成為一種下意識(shí)的行為。所以在剛開始學(xué)開車的幾個(gè)小時(shí)里，我們做不到一邊開車一邊說話，我們必須集中精力才能完成駕駛，因?yàn)槲覀儽仨毷褂梦覀兊氖澜缒Ｐ皖A(yù)測引擎來找出所有可能發(fā)生的可怕情況。

ZDNet：如果這只是一種猜想，那么它對你目前的工作并沒有什么實(shí)際意義，不是嗎？

YL：不，有一定意義。我提出的這個(gè)自主人工智能模型有一個(gè)可配置的世界模型模擬引擎，其目的是規(guī)劃和想象未來，填補(bǔ)你無法完全觀察到的空白?？膳渲玫膯我荒Ｐ蜁?huì)帶來計(jì)算優(yōu)勢，可以讓系統(tǒng)在任務(wù)之間共享知識(shí)，這些知識(shí)是你通過觀察或基本邏輯之類的東西學(xué)到的。使用你配置的大模型要比使用一個(gè)完全獨(dú)立的模型來處理不同的任務(wù)要有效得多，因?yàn)椴煌娜蝿?wù)可能需要單獨(dú)訓(xùn)練。但是我們已經(jīng)看到了，對吧？以前在Facebook（當(dāng)Meta名字還叫Facebook）的時(shí)候，我們用視覺來分析圖像，做排序和過濾，基本上對于不同的任務(wù)，我們都有專門的神經(jīng)網(wǎng)絡(luò)和專門的卷積網(wǎng)絡(luò)來解決。而現(xiàn)在我們有一個(gè)大的網(wǎng)絡(luò)，什么任務(wù)都能處理。我們以前有好幾個(gè)ConvNets，現(xiàn)在我們只有一個(gè)。

我們看到了這種簡化。我們現(xiàn)在甚至有可以做所有事情的架構(gòu)：同一個(gè)架構(gòu)就可以處理視覺、文字、口語。這種架構(gòu)必須分別接受三個(gè)任務(wù)的訓(xùn)練，而這個(gè)架構(gòu) data2vec，是一種自監(jiān)督的方法。

ZDNet：真有意思！感謝你的分享。

https://www.zdnet.com/article/metas-ai-luminary-lecun-explores-deep-learnings-energy-frontier/

雷峰網(wǎng)

關(guān)鍵詞： Yann LeCun最新訪談能量模型是通向自主人工智能系統(tǒng)的