人工神經(jīng)網(wǎng)絡(luò)的盡頭是一個神經(jīng)元?
——沒準(zhǔn)兒還真有可能。
當(dāng)前,最先進的AI系統(tǒng)通過創(chuàng)建多層神經(jīng)網(wǎng)絡(luò)來模仿人類大腦,旨在將盡可能多的神經(jīng)元塞進盡可能小的空間。
可惜,這樣的設(shè)計需要消耗大量的電力等資源,而產(chǎn)生的輸出結(jié)果與強大且“節(jié)能”的人腦比起來相形見絀。
最近,柏林工業(yè)大學(xué)的研究小組提供了一個新思路:把任意大小的深度神經(jīng)網(wǎng)絡(luò)折疊成單神經(jīng)元,這個神經(jīng)元具有多個延時反饋回路。
關(guān)于研究成果的論文發(fā)布于Nature子刊。
這個“單個神經(jīng)元的AI大腦”概念的提出,無疑給神經(jīng)網(wǎng)絡(luò)的發(fā)展指明了一個新方向。
下面就來看看這是一項怎樣的研究吧!
具體方法
研究團隊設(shè)計了一種多層前饋深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的完全時間折疊的方法(Fit-DNN)。
Fit-DNN的誕生主要受到“folded- in-time”概念的啟發(fā),即:使用單一的延遲環(huán)路配置和輸入數(shù)據(jù)的時間復(fù)用來模擬環(huán)形拓撲結(jié)構(gòu)。
傳統(tǒng)的深度神經(jīng)網(wǎng)絡(luò)由多層神經(jīng)元組成,以前饋結(jié)構(gòu)耦合。
如果用一個神經(jīng)元來實現(xiàn)傳統(tǒng)DNN的功能,需要保留各層的邏輯順序,同時找到一種方法來順序化層內(nèi)的操作。
這只能通過在時間上分割以前同時進行的過程來實現(xiàn):單個神經(jīng)元在正確的時間接受正確的輸入,依次模擬每一層的各個神經(jīng)元。
傳統(tǒng)的相鄰層之間的連接,轉(zhuǎn)變成單個神經(jīng)元在不同時間的連接,即:層間連接變成了延遲連接。
在不同時間對同一神經(jīng)元進行不同的加權(quán),權(quán)重由反向傳播算法確定。
這類似于單個客人通過快速切換座位并說出每個部分,來模擬大型餐桌上的對話。
Fit-DNN的核心由一個具有多個延遲和調(diào)制反饋的單一神經(jīng)元組成,上圖展示了其結(jié)構(gòu):
標(biāo)著字母f的黑色圓代表神經(jīng)元,它在t時的信號為x(t);這個信號是數(shù)據(jù)J(t)、偏移量b(t)和反饋信號之和。
可調(diào)節(jié)的元素用方塊表示:數(shù)據(jù)信號由輸入向量u產(chǎn)生,藍色方塊中的矩陣包含輸入權(quán)重。偏置系數(shù)產(chǎn)生灰色方塊中的偏置信號。每個反饋環(huán)路實現(xiàn)一個延遲和一個時間調(diào)制,來產(chǎn)生反饋信號。
最后,使用輸出權(quán)重矩陣從信號x(t)中獲得輸出。
注意,為了獲得數(shù)據(jù)信號J(t)和輸出,需要進行適當(dāng)?shù)念A(yù)處理或操作后處理。
與傳統(tǒng)多層層經(jīng)網(wǎng)絡(luò)的等效性
單神經(jīng)元的Fit-DNN在功能上真的可以等同于多層神經(jīng)網(wǎng)絡(luò)嗎?
如下圖所示,F(xiàn)it-DNN可以將具有多個延遲環(huán)的單個神經(jīng)元的動態(tài)性轉(zhuǎn)化為DNN。
圖a展示了信號x(t)的時間演化可以分為長度為T的時間間隔,每個間隔模擬一個隱藏層;實線上的黑點表示節(jié)點,θ代表節(jié)點分離值。
圖b表示原始的時間軌跡被切割成長度為T的區(qū)間,在各區(qū)間內(nèi),節(jié)點根據(jù)其網(wǎng)絡(luò)位置被標(biāo)記。
圖c由圖b的旋轉(zhuǎn)所得,在此基礎(chǔ)上增加了一個輸入和一個輸出層。
這些連接是由節(jié)點之間的動態(tài)依賴關(guān)系決定的,這些依賴關(guān)系可以根據(jù)θ的值精確計算。
當(dāng)節(jié)點分離值θ較大時,網(wǎng)絡(luò)節(jié)點之間將形成熟悉的多層DNN形狀。
不過,當(dāng)節(jié)點分離值θ較小時,每個節(jié)點的狀態(tài)都依賴于前一個節(jié)點,而不是完全獨立。這些額外的 “慣性 “連接在圖c中用黑色箭頭表示。
雖然研究者們用D = 2N - 1延遲環(huán)路恢復(fù)了一個全連接的DNN,但模擬測試表明,這并不完全符合要求。
實際上,用更少的延遲環(huán)路就可以獲得足夠的性能。在這種情況下,F(xiàn)it-DNN將實現(xiàn)一種特殊類型的稀疏DNNs。
可見,在一定條件下,F(xiàn)it-DNN可以完全恢復(fù)一個沒有卷積層的標(biāo)準(zhǔn)DNN,此時,它的性能與多層DNN相同。
單神經(jīng)元的Fit-DNN將前饋多層神經(jīng)網(wǎng)絡(luò)的拓撲復(fù)雜性,通過延遲環(huán)結(jié)構(gòu)折疊到時域。
這個延遲系統(tǒng)本身就擁有一個無限大的相空間,因此,只要有一個帶反饋的神經(jīng)元就足以折疊整個網(wǎng)絡(luò)。
Fit-DNN的計算機視覺功能測試
研究人員使用Fit-DNN進行圖像降噪,即:從噪聲版本中重建原始圖像。
他們把強度為1的高斯噪聲加入Fashion-MNIST數(shù)據(jù)集的圖像中,并將高斯噪聲視為值在0(白色)和1(黑色)之間的向量。
然后截斷閾值0和1處剪切所得的向量條目,以獲得有噪聲的灰度圖像。
如上圖所示,a行包含來自Fashion-MNIST數(shù)據(jù)集的原始圖像;b行為帶有額外高斯噪聲的相同圖像,這些噪聲圖像作為訓(xùn)練系統(tǒng)的輸入數(shù)據(jù)。c行表示獲得的原始圖像的重建結(jié)果。
可見,F(xiàn)it-DNN的圖像恢復(fù)效果不錯。
不過Fit-DNN真正的問題是,時間循環(huán)的單個神經(jīng)元是否能產(chǎn)生與數(shù)十億個神經(jīng)元相同的輸出。
為了證明Fit-DNN和時間狀態(tài)下的計算能力,研究人員選了五個圖像分類任務(wù):MNIST40、Fashion-MNIST41、CIFAR-10、CIFAR-100,以及SVHN。
實驗對比了隱藏層的節(jié)點數(shù)不同時(N=50,100,200,400),F(xiàn)it-DNN在上述任務(wù)中的表現(xiàn)。
結(jié)果表示,對于相對簡單的MNIST和Fashion-MNIST任務(wù),單個神經(jīng)元取得了很高的準(zhǔn)確率。
但對于更具挑戰(zhàn)性的CIFAR-10、CIFAR-100和SVHN任務(wù),單個神經(jīng)元的準(zhǔn)確率較低。
值得注意的是,這里的Fit-DNN只使用了權(quán)重矩陣可用對角線的一半。如果增加節(jié)點的個數(shù)N,將有效地提高性能。
研究團隊
感興趣的讀者可以戳下面的鏈接繼續(xù)深入了解。
Ingo Fischer是論文的共同作者之一。他取得了菲利普斯·馬爾堡大學(xué)獲得半導(dǎo)體物理領(lǐng)域博士學(xué)位,后在歐洲多國的大學(xué)中擔(dān)任工程和物理學(xué)的博士后研究員、助理教授和全職教授。
經(jīng)典的多層神經(jīng)網(wǎng)絡(luò),如火爆全球的GPT-3,目前已有750億個參數(shù),比其前身GPT-2的參數(shù)量要多100倍。
據(jù)估計,僅僅訓(xùn)練一次GPT-3就需要相當(dāng)于丹麥126個家庭一年使用的電力,或者約等于開車往返一次月球的耗能。
柏林團隊的研究人員認為,F(xiàn)it-DNN可以對抗訓(xùn)練強大神經(jīng)網(wǎng)絡(luò)所需能源成本的上升。
科學(xué)家們相信,隨著技術(shù)的發(fā)展,該系統(tǒng)可以擴展到從懸浮在時間中的神經(jīng)元創(chuàng)建 “無限數(shù)量的 “神經(jīng)元連接。
感興趣的讀者可以戳下面的鏈接繼續(xù)深入了解。
論文鏈接:https://www.nature.com/articles/s41467-021-25427-4.pdf參考鏈接:https://thenextweb.com/news/how-ai-brain-with-only-one-neuron-could-surpass-humans
關(guān)鍵詞: 單個神經(jīng)元也能實現(xiàn)DNN 圖像分類準(zhǔn)確率98% |Nature子刊