神經(jīng)網(wǎng)絡(luò)為何越大越好?這篇NeurIPS論文證明:魯棒性是泛化的基礎(chǔ)

發(fā)布時間:2022-02-23 05:57:10  |  來源:騰訊網(wǎng)  

新智元報道

編輯:LRS

【新智元導(dǎo)讀】神經(jīng)網(wǎng)絡(luò)越大越好幾乎已成了共識,但這種想法和傳統(tǒng)的函數(shù)擬合理論卻相悖。最近微軟的研究人員在NeurIPS上發(fā)表了一篇論文,用數(shù)學(xué)證明了大規(guī)模神經(jīng)網(wǎng)絡(luò)的必要性,甚至應(yīng)該比預(yù)期的網(wǎng)絡(luò)規(guī)模還大。

當(dāng)神經(jīng)網(wǎng)絡(luò)的研究方向逐漸轉(zhuǎn)為超大規(guī)模預(yù)訓(xùn)練模型,研究人員的目標(biāo)似乎變成了讓網(wǎng)絡(luò)擁有更大的參數(shù)量,更多的訓(xùn)練數(shù)據(jù),更多樣化的訓(xùn)練任務(wù)。

當(dāng)然,這個措施確實很有效,隨著神經(jīng)網(wǎng)絡(luò)越來越大,模型了解和掌握的數(shù)據(jù)也更多,在部分特定任務(wù)上已經(jīng)超越人類。

但在數(shù)學(xué)上,現(xiàn)代神經(jīng)網(wǎng)絡(luò)的規(guī)模實際上有些過于臃腫了,參數(shù)量通常遠(yuǎn)遠(yuǎn)超過了預(yù)測任務(wù)的需求,這種情況也被稱為過度參數(shù)化(overparameterization)。

NeurIPS上的一篇論文中最近就這一現(xiàn)象提出了一種全新的解釋。他們認(rèn)為這種比預(yù)期規(guī)模更大的神經(jīng)網(wǎng)絡(luò)是完全有必要的,只有這樣才能避免某些基本問題,這篇論文中的發(fā)現(xiàn)也為這一問題提供一種更通用的見解。

論文地址:https://arxiv.org/abs/2105.12806

文章的第一作者Sébastien Bubeck在MSR Redmond管理機(jī)器學(xué)習(xí)基礎(chǔ)研究組,主要在機(jī)器學(xué)習(xí)和理論計算機(jī)科學(xué)中跨越各種主題進(jìn)行交叉研究。

神經(jīng)網(wǎng)絡(luò)就該這么大

神經(jīng)網(wǎng)絡(luò)的一項常見任務(wù)是識別圖像中的目標(biāo)對象。

為了創(chuàng)建一個能夠完成該任務(wù)的網(wǎng)絡(luò),研究人員首先為其提供許多圖像和對應(yīng)目標(biāo)標(biāo)簽,對其進(jìn)行訓(xùn)練以學(xué)習(xí)它們之間的相關(guān)性。之后,網(wǎng)絡(luò)將正確識別它已經(jīng)看到的圖像中的目標(biāo)。

換句話說,訓(xùn)練過程使得神經(jīng)網(wǎng)絡(luò)記住了這些數(shù)據(jù)。

并且,一旦網(wǎng)絡(luò)記住了足夠多的訓(xùn)練數(shù)據(jù),它還能夠以不同程度的準(zhǔn)確度預(yù)測它從未見過的物體的標(biāo)簽,這個過程稱為泛化。

網(wǎng)絡(luò)的大小決定了它能記憶多少東西。

可以用圖形化的空間來理解。假設(shè)有兩個數(shù)據(jù)點(diǎn),把它們放在一個XY平面上,可以用一條由兩個參數(shù)描述的線來連接這些點(diǎn):線的斜率和它與縱軸相交時的高度。如果其他人也知道這條直線的參數(shù),以及其中一個原始數(shù)據(jù)點(diǎn)的X坐標(biāo),他們可以通過觀察這條直線(或使用參數(shù))來計算出相應(yīng)的Y坐標(biāo)。

也就是說,這條線已經(jīng)記住了這兩個數(shù)據(jù)點(diǎn),神經(jīng)網(wǎng)絡(luò)做的就是差不多類似的事情。

例如,圖像是由成百上千的數(shù)值描述的,每個像素都有一個對應(yīng)的值。可以把這個由許多自由值組成的集合在數(shù)學(xué)上相當(dāng)于高維空間中一個點(diǎn)的坐標(biāo),坐標(biāo)的數(shù)量也稱為維度。

傳統(tǒng)的數(shù)學(xué)結(jié)論認(rèn)為,要用一條曲線擬合n個數(shù)據(jù)點(diǎn),你需要一個有n個參數(shù)的函數(shù)。例如,在直線的例子中,兩個點(diǎn)是由一條有兩個參數(shù)的曲線描述的。

當(dāng)神經(jīng)網(wǎng)絡(luò)在20世紀(jì)80年代首次作為一種新模型出現(xiàn)時,研究人員也這么認(rèn)為,應(yīng)該只需要n個參數(shù)來適應(yīng)n個數(shù)據(jù)點(diǎn),而跟數(shù)據(jù)的維度無關(guān)。

德克薩斯大學(xué)奧斯汀分校的Alex Dimakis表示,現(xiàn)在實際情況已經(jīng)不是這樣了,神經(jīng)網(wǎng)絡(luò)的參數(shù)數(shù)量遠(yuǎn)遠(yuǎn)超過了訓(xùn)練樣本的數(shù)量,這說明了教科書上的內(nèi)容必須得重寫進(jìn)行修正。

研究人員正在研究神經(jīng)網(wǎng)絡(luò)的魯棒性(robustness),即網(wǎng)絡(luò)處理小變化的能力。例如,一個不魯棒的網(wǎng)絡(luò)可能已經(jīng)學(xué)會了識別長頸鹿,但它會把一個幾乎沒有修改的版本誤標(biāo)為沙鼠。

2019年,Bubeck和同事們正在尋求證明關(guān)于這個問題的定理,當(dāng)時他們就意識到這個問題與網(wǎng)絡(luò)的規(guī)模有關(guān)。

在他們的新證明中,研究人員表明,過度參數(shù)化對于網(wǎng)絡(luò)的魯棒性是必要的。他們提出平滑性(smoothness),來指出需要多少個參數(shù)才能用一條具有等同于魯棒性的數(shù)學(xué)特性的曲線來擬合數(shù)據(jù)點(diǎn)。

要想理解這一點(diǎn),可以再次想象平面上的一條曲線,其中x坐標(biāo)代表一個像素的顏色,y坐標(biāo)代表一個圖像標(biāo)簽。

由于曲線是平滑的,如果你稍微修改一下像素的顏色,沿著曲線移動一小段距離,相應(yīng)的預(yù)測值只會有少量的變化。另一方面,對于一條鋸齒狀的曲線,X坐標(biāo)(顏色)的微小變化會導(dǎo)致Y坐標(biāo)(圖像標(biāo)簽)的巨大變化,長頸鹿可以變成沙鼠。

Bubeck和Sellke在論文中證明,平滑擬合高維數(shù)據(jù)點(diǎn)不僅需要n個參數(shù),而且需要n×d個參數(shù),其中d是輸入的維度(例如,784個像素的圖像輸入維度為784)。

換句話說,如果你想讓一個網(wǎng)絡(luò)穩(wěn)健地記住它的訓(xùn)練數(shù)據(jù),過度參數(shù)化不僅是有幫助的,而且是必須的。該證明依賴于一個關(guān)于高維幾何的事實,即隨機(jī)分布在球體表面的點(diǎn)幾乎都是彼此相距一個直徑的距離,點(diǎn)與點(diǎn)之間的巨大間隔意味著用一條光滑的曲線來擬合它們需要許多額外的參數(shù)。

耶魯大學(xué)的Amin Karbasi稱贊論文中的證明是非常簡潔的,沒有大量的數(shù)學(xué)公式,而且它說的是非常通用的內(nèi)容。

這一證明結(jié)果也為理解為什么擴(kuò)大神經(jīng)網(wǎng)絡(luò)的簡單策略如此有效提供了一個新的途徑。

其他研究揭示了過量參數(shù)化有幫助的其他原因。例如,它可以提高訓(xùn)練過程的效率,也可以提高網(wǎng)絡(luò)的泛化能力。

雖然我們現(xiàn)在知道過量參數(shù)化對魯棒性是必要的,但還不清楚魯棒性對其他事情有多大必要。但通過將其與過度參數(shù)化聯(lián)系起來,新的證明暗示魯棒性可能比人們想象的更重要,這也可能為其他解釋大模型的益處研究做鋪墊。

魯棒性確實是泛化的一個先決條件,如果你建立了一個系統(tǒng),只是輕微地擾動它,然后它就失控了,那是什么樣的系統(tǒng)?顯然是不合理的。

所以,Bubeck認(rèn)為這是一個非?;A(chǔ)和基本的要求。

參考資料:

https://www.quantamagazine.org/computer-scientists-prove-why-bigger-neural-networks-do-better-20220210/

關(guān)鍵詞: 神經(jīng)網(wǎng)絡(luò)為何越大越好這篇NeurIPS論文證明魯棒性是泛

 

網(wǎng)站介紹  |  版權(quán)說明  |  聯(lián)系我們  |  網(wǎng)站地圖 

星際派備案號:京ICP備2022016840號-16 營業(yè)執(zhí)照公示信息版權(quán)所有 郵箱聯(lián)系:920 891 263@qq.com