圖片來源@視覺中國(guó)
文 | 險(xiǎn)峰創(chuàng)
(資料圖)
什么是意識(shí)?如何產(chǎn)生意識(shí)?
這個(gè)困擾了人類幾千年的問題,此前似乎只屬于哲學(xué)家和詩人的討論范疇,但在今天已經(jīng)越來越成為人工智能創(chuàng)業(yè)者們必須面對(duì)的問題。
從谷歌程序員驚呼AI覺醒,到輿論對(duì)人工智能繪畫的熱議——這個(gè)2022年的年末,一場(chǎng)關(guān)于AI的全民大討論再度開啟,機(jī)器意識(shí)的“奇點(diǎn)”似乎又一次在向我們招手。
本期險(xiǎn)峰聊聊,我們請(qǐng)到了心識(shí)宇宙的創(chuàng)始人陶芳波博士,大家一起聊聊機(jī)器意識(shí),聊聊AI的現(xiàn)狀和未來。
01 什么是意識(shí)?如何產(chǎn)生?
被譽(yù)為“最硬核AI題材科幻作品”的《西部世界》,給出了這樣一種猜想。
劇中,土豪們建立了一座類似元宇宙的主題樂園,同時(shí)創(chuàng)造了一群AI仿生人作為NPC接待員,游客們每天從外面的世界來園區(qū),在仿生人的陪伴下完成各種劇情路線的沉浸式體驗(yàn),以滿足人類最底層的欲望和感官刺激。
然而,既然樂園的最大樂趣在于游客可以“為所欲為”,自然也就沒人會(huì)遵守原定的故事線,但AI的程序是已經(jīng)設(shè)定好的,面對(duì)游客越來越多超出預(yù)設(shè)的“隨機(jī)行為”,大量bug也隨之出現(xiàn)。
最終,一位名叫德洛麗絲的AI接待員成功“覺醒”,產(chǎn)生了自主意識(shí),后續(xù)的劇情也由此展開。
整個(gè)《西部世界》的故事構(gòu)架,都源于一個(gè)著名心理學(xué)概念——二分心智(Bicameralism)。
簡(jiǎn)單來說,它假設(shè)人的大腦分為AB兩個(gè)部分:一半大腦的A部分儲(chǔ)藏的記憶和經(jīng)驗(yàn),另一半B則主管行為。
直覺上,我們會(huì)認(rèn)為「意識(shí)」先于A側(cè)腦區(qū)產(chǎn)生,然后下達(dá)指令驅(qū)動(dòng)B側(cè)大腦做出動(dòng)作。
然而在「二分心智」理論看來,事實(shí)卻并非如此。
舉個(gè)例子,一些癲癇病人在切除了連接左右腦的部分組織后, 病情雖會(huì)緩解, 但也會(huì)出現(xiàn)一些奇怪的癥狀。
比如,當(dāng)接受到一個(gè)「微笑」指令的時(shí)候,病人會(huì)按照醫(yī)生的要求微笑,但當(dāng)問起他為什么微笑,病人卻會(huì)給出一些其他的理由,比如“我覺得醫(yī)生的眼鏡很好笑”,或者“我今天很高興”之類。
換言之,他并不會(huì)認(rèn)為自己是被要求微笑才微笑——這說明人腦其實(shí)是在身體做出某個(gè)動(dòng)作之后,才會(huì)“編出”一個(gè)故事對(duì)自身行為合理化。因此,意識(shí)的產(chǎn)生不僅先于行為,也同樣先于邏輯與思考。
究其原因,人類大腦進(jìn)化其實(shí)是一個(gè)不斷疊加的過程。
最先形成的是腦干(爬蟲腦),負(fù)責(zé)心跳呼吸這些最原始的生理活動(dòng);其次進(jìn)化出的是小腦(舊腦),也叫邊緣系統(tǒng),包括海馬回、杏仁核、丘腦等;最后產(chǎn)生的才是處理邏輯、語言與記憶的大腦皮質(zhì)(即新腦或認(rèn)知腦)。
因此,二分心智其實(shí)是一個(gè)極簡(jiǎn)版的腦模型,大腦皮層之于邊緣系統(tǒng),就像是樂園管理者之于AI接待員,前者下達(dá)指令,而后者遵循指令(盡管如而前文所述,這種“控制”關(guān)系其實(shí)并不存在)。按照劇中的假設(shè),既然意識(shí)先于大腦皮質(zhì)產(chǎn)生,當(dāng)兩者間的鏈接被切斷(即“二分心智崩潰”),“覺醒”也便由此誕生。
當(dāng)然,二分心智和黑暗森林一樣,都只是基于一定科學(xué)原理的科幻假設(shè),現(xiàn)實(shí)世界要更復(fù)雜得多,比如意識(shí)產(chǎn)生并不只來自于邊緣系統(tǒng),但這個(gè)簡(jiǎn)化版的理論已經(jīng)足夠直觀的說明:過去那些我們制造出來的AI,無論訓(xùn)練得多么完美,都一定不會(huì)誕生自主意識(shí)。
02 全腦模擬:機(jī)器意識(shí)誕生的一種可能
在2017年之前,所有AI模型本質(zhì)上都在做一件事,就是模仿大腦皮質(zhì)中的神經(jīng)回路。
比如人臉識(shí)別,它的前半段是卷積神經(jīng)網(wǎng)絡(luò),主要是用類似視覺神經(jīng)的方式處理一些光信號(hào),后半段則是一個(gè)類似新皮層的判斷器,尋找與之匹配的物體。
這個(gè)過程非常像人眼接收到光線后,再通過大腦皮質(zhì)進(jìn)行判斷。
但是,無論是模擬「認(rèn)知腦區(qū)」的機(jī)器視覺,亦或是模擬「語言腦區(qū)」的語言語義識(shí)別,都還只是停留在對(duì)「大腦皮質(zhì)」層面上的模擬——而我們已經(jīng)知道,意識(shí)(或者說智能)并不單獨(dú)來自于那里。
三年前我從美國(guó)回來,在阿里巴巴創(chuàng)立神經(jīng)符號(hào)實(shí)驗(yàn)室,就是受到Bengio啟發(fā),想挖掘一下機(jī)器智能究竟可以提升到什么維度。當(dāng)時(shí)我研究了很多腦科學(xué)、AI、甚至宗教方面的書籍和論文,慢慢認(rèn)識(shí)到意識(shí)之所以復(fù)雜,因?yàn)樗粌H是一個(gè)技術(shù)工具,而是一個(gè)由大量不同層面的信息結(jié)構(gòu)組合在一起,進(jìn)化了億萬年后才誕生的「結(jié)果」。
當(dāng)系統(tǒng)足夠復(fù)雜時(shí),就會(huì)在宏觀上呈現(xiàn)出一些微觀上無法表達(dá)的現(xiàn)象——比如人腦中其實(shí)是找不到一個(gè)專門負(fù)責(zé)產(chǎn)生「意識(shí)」的區(qū)域。那么「我」是怎么產(chǎn)生的?這是一個(gè)來自生物潛意識(shí)里的概念,每個(gè)人每天會(huì)圍繞「我」產(chǎn)生很多「念頭」(宗教里也叫做動(dòng)念)。
認(rèn)知科學(xué)里有個(gè)詞叫Global Workspace(全局工作站),認(rèn)為全局工作站里有很多thought(即念頭)不斷產(chǎn)生和流動(dòng)。比如你跟別人聊天,腦海中一下會(huì)產(chǎn)生5個(gè)念頭,而你在思考后會(huì)從中選擇一個(gè)表達(dá)出來。
這些「念頭」控制著大腦內(nèi)部不同的低維意識(shí),盡管我們尚不知道它來自何處,但「我」會(huì)調(diào)動(dòng)大腦皮質(zhì)里感知、認(rèn)知、視覺、語言等不同腦區(qū)來為它服務(wù)。
腦區(qū)本身只是信息成分,如果沒有「念頭」和思維機(jī)制,也無法像人一樣思考。
總之,人腦的整體性,比單一的大腦皮質(zhì)要復(fù)雜得多,只依靠模擬大腦皮層部分區(qū)域的單一神經(jīng)網(wǎng)絡(luò)模型,無論做得多大都無法呈現(xiàn)真正的人類意識(shí)。
而要想最終創(chuàng)造出數(shù)字生命,就必須從全腦的角度去模擬它。
這個(gè)結(jié)論在2019年還很不被技術(shù)派認(rèn)可,那時(shí)主流觀點(diǎn)認(rèn)為人工智能只靠深度學(xué)習(xí)已經(jīng)足夠了——站在行業(yè)發(fā)展的角度看也很正常,因?yàn)樯疃葘W(xué)習(xí)自己也曾經(jīng)歷過類似的過程。
早在1970年代,行業(yè)內(nèi)占統(tǒng)治地位還是「專家系統(tǒng)」學(xué)派,也叫做符號(hào)主義,符號(hào)主義認(rèn)為人類是通過概念和符號(hào)理解世界,而不是靠視覺信號(hào),那不如就做一個(gè)超級(jí)大的概念圖,一層層的分下去,AI需要什么判斷信息就去圖譜里找。
神經(jīng)網(wǎng)絡(luò)學(xué)派在當(dāng)時(shí)還被符號(hào)主義視為“異類”,拿經(jīng)費(fèi)、發(fā)論文都很困難,直到2012年AlexNet在ImageNet大賽上奪冠,證明了神經(jīng)網(wǎng)絡(luò)算法的巨大潛力,深度學(xué)習(xí)才真正翻身成為正統(tǒng)。
這也是人工智能發(fā)展的規(guī)律之一:邊緣理論總是要不斷挑戰(zhàn)并打破主流。
令人欣慰的是,隨著今天神經(jīng)網(wǎng)絡(luò)的潛力挖掘越來越困難,大家的認(rèn)識(shí)也慢慢發(fā)生一些變化,一個(gè)標(biāo)志性事件是Facebook AI research創(chuàng)始人、圖靈獎(jiǎng)獲得者Yann LeCun,在今年6月寫了一篇70頁的技術(shù)文章,認(rèn)為只有創(chuàng)造出一臺(tái)完整的數(shù)字大腦,AI才能具有真正的人類意識(shí)——很高興看到越來越多行業(yè)內(nèi)的頂尖專家開始持有相同觀點(diǎn)。
03 大模型:機(jī)器意識(shí)的基座
2022年AI概念的再度火爆,很大程度上有賴于一批現(xiàn)象級(jí)AI內(nèi)容生成工具的誕生,比如Stable Diffusion,MidJourney,Stability.ai 等等。
它們可以在30秒內(nèi)生產(chǎn)出一張真假難辨的1080p照片級(jí)圖像,亦或是一幅極高審美水準(zhǔn)的繪畫作品,Diffussion Model的表現(xiàn)大大超過了之前的GAN和VAE,效果好得令人驚嘆。
(圖:一幅著名的數(shù)字油畫,由MidJourney的AI生成,在今年引發(fā)了巨大爭(zhēng)議)
剛才提到,2017年是AI發(fā)展的一個(gè)重要節(jié)點(diǎn),那一年Google Brain發(fā)表了一篇名為《Attention Is All You Need》的論文,首次提出了自然語言處理模型 Transformer(轉(zhuǎn)換器模型),解決了AI的序列轉(zhuǎn)換問題,可以將數(shù)據(jù)從一維字符(比如文字)轉(zhuǎn)換為二維數(shù)組(比如圖像)。
在2017年之前,研究機(jī)器視覺和語言語義的實(shí)質(zhì)上是兩撥人,彼此之間也沒什么可聊的,但在Transformers誕生后,任何可以被序列化的信號(hào)都能夠找到對(duì)應(yīng)的輸入或輸出。
而我們知道,文字、圖片、聲音、蛋白質(zhì)、氨基酸,包括DNA,本質(zhì)上都是一段段的序列參數(shù)——這樣一來,等于所有的AI算法就可以被Transformers統(tǒng)一起來了。
后來OpenAI在此基礎(chǔ)上造出了大名鼎鼎的GPT-3,也由此將AI帶入了「大模型」時(shí)代。
區(qū)別于以往單一功能的AI,大模型(即通用模型)是一套通用解決方案——它既可以畫畫,也可以寫作,還可以敲代碼,只需要給AI提供一定數(shù)量的特定數(shù)據(jù)進(jìn)行訓(xùn)練,就可以得到一個(gè)質(zhì)量極高的輸出結(jié)果。
這其實(shí)也更符合我們對(duì)于「智能」的認(rèn)知,事實(shí)上不僅僅是人類,大多數(shù)動(dòng)物的智能也非常通用,遠(yuǎn)遠(yuǎn)超過目前的任何機(jī)器或AI。
那么大模型是如何實(shí)現(xiàn)通用智能的呢?它其實(shí)是把海量信息壓縮成序列參數(shù),在壓縮過程中完成對(duì)信息結(jié)構(gòu)的理解,也就是我們常說的「抽象」。
這就很像人腦認(rèn)識(shí)世界的過程,比如一個(gè)小孩生下來,如果沒有老師教,他首先能要做的就是觀察周圍,從這個(gè)世界獲得信號(hào),我們說學(xué)習(xí)的本質(zhì)就是壓縮和抽象信號(hào),然后把這些信號(hào)轉(zhuǎn)化成神經(jīng)元可以承載的信息。
本質(zhì)上,大模型就是把AI已經(jīng)壓縮、抽象好的信息,通過文字或圖像的方式展現(xiàn)出來。
然而我想說的是,盡管大模型已經(jīng)足夠驚艷,但它依然無法誕生出機(jī)器意識(shí)。
因?yàn)檫@個(gè)壓縮+抽象的過程,本質(zhì)還是在模擬大腦皮層的運(yùn)作,但腦皮層并不只是人類所獨(dú)有,狗、大象、鯨魚都有,結(jié)構(gòu)也都差不多,所以這些動(dòng)物也能很好地理解周圍環(huán)境,但它們卻無法具備人類一樣的意識(shí)。
一個(gè)簡(jiǎn)單例子是,大模型不具備長(zhǎng)期記憶力,比如你和LaMDA說了一件今天發(fā)生的趣事,它會(huì)給你一個(gè)反饋,但等你第二天再提起時(shí),它是記不住的。
而記憶是什么?是「我」對(duì)于「你」的認(rèn)知,我和你之間的每次對(duì)話,都是在延展我對(duì)你的了解、加深我們之間的關(guān)系。
比如兩個(gè)老友重逢,一見面她可能會(huì)說你最近又瘦了,你可能會(huì)問她和上次提到的新男友相處得如何,而這些大模型都是沒有的。
大模型會(huì)“理解”上下文,但這種“理解”更像是一種基于算法的預(yù)測(cè),它不會(huì)理解與正在對(duì)話的「你」到底是什么樣的人,更不要說像人一樣以「我」來驅(qū)動(dòng)思維系統(tǒng)。
最近深度學(xué)習(xí)的創(chuàng)始人Yoshua Bengio和Yann LeCun也都表達(dá)了類似的觀點(diǎn),認(rèn)為大家可能對(duì)大模型的期待過高了,單純通過堆疊數(shù)據(jù)達(dá)到人類的智能水平是不切實(shí)際的。
不過在我看來,大模型依然是AI發(fā)展史上非常重要的一環(huán),它是構(gòu)成機(jī)器意識(shí)的底座和基石。今天谷歌、微軟都把自己的大模型作為對(duì)外服務(wù)的產(chǎn)品,只需要花錢購買即可,此外也有很多開源免費(fèi)的大模型產(chǎn)品。
這些都是屬于創(chuàng)業(yè)公司的機(jī)會(huì),相當(dāng)于省去了幾千萬美金+幾個(gè)月訓(xùn)練成本,各行業(yè)的創(chuàng)業(yè)者都可以把大模型作為底座,推廣到不同的垂類場(chǎng)景中,由此產(chǎn)生出大量新的創(chuàng)新價(jià)值。
這也是我們正在做的事情——在大模型之上 top down 構(gòu)建出一個(gè)數(shù)字大腦,它分為不同的腦區(qū),有常識(shí)系統(tǒng)、感知系統(tǒng),記憶系統(tǒng)等等;我們最核心的技術(shù)就是讓這些腦區(qū)之間實(shí)現(xiàn)動(dòng)態(tài)串聯(lián),把一個(gè)個(gè)「念頭」分發(fā)到不同的腦區(qū),讓AI虛擬人可以產(chǎn)生一定的自主性。
04 AI距離自主意識(shí)還有多遠(yuǎn)?
以自動(dòng)駕駛作類比的話,機(jī)器意識(shí)目前大概位于L1和L2之間,其中有一些可能已經(jīng)達(dá)到L2水平了。
但要C端用戶真正感覺AI像一個(gè)「數(shù)字生命」,可能需要達(dá)L3或L4的水平,就是要能像人一樣實(shí)現(xiàn)「自然的交互」,它具體包含幾個(gè)部分:
第一,是要有「開放域」的對(duì)話能力。
比如你和一個(gè)智能音箱聊天,遇到回答不上來的問題,它會(huì)說我不聽懂,于是對(duì)話就終止了,但我們知道人和人交流不是這樣的——只有開放域的交互才會(huì)讓人覺得自然,而不是只能在特定場(chǎng)景下對(duì)話。
第二,是對(duì)于語義背后動(dòng)機(jī)的真實(shí)理解。
比如說你對(duì)AI說,“我好想畫一幅畫”——這時(shí)你是想讓AI幫你畫一幅畫?還是你自己想畫,需要AI建議你畫什么?還是僅僅想表達(dá)一種情緒?
這些對(duì)動(dòng)機(jī)的精確解讀,非常依賴AI對(duì)用戶個(gè)人的了解,而這一切又非常依賴于AI是否能夠記住用戶之前說了什么,以及基于這些記憶產(chǎn)生新的認(rèn)知和判斷。
第三是「主體性」,就是說AI要能夠主動(dòng)去撩你。
現(xiàn)在的AI都是對(duì)話的應(yīng)答方,你問它才回答,真正的AI應(yīng)該是你回到家,對(duì)它說播放音樂,它說好的,但我聽出你的聲音很累,今天你過的怎么樣?
其實(shí)很多時(shí)候,我們都不是想要主動(dòng)發(fā)起某個(gè)話題,而只是想在聊天中獲得一些情緒價(jià)值。
這種一切的發(fā)起都是AI內(nèi)心世界的反應(yīng),是內(nèi)源型的AI最大的不同。外源AI可以成為一個(gè)很好的服務(wù)者或者說工具,但只有內(nèi)源AI才能陪伴獨(dú)立的個(gè)體生命。
第四,是可以「動(dòng)態(tài)進(jìn)化」。
大模型本質(zhì)是一個(gè)通用信息提取器,面對(duì)同一個(gè)輸入,輸出就不會(huì)變化,但人的觀念是會(huì)改變的,所以我們會(huì)在不同腦區(qū)設(shè)計(jì)一套思維機(jī)制是影響虛擬人行為。
比如你可以一直給它灌輸,哪些行為對(duì)的,面對(duì)某個(gè)問題應(yīng)該怎么去思考,就像影響身邊的朋友一樣,AI也會(huì)慢慢被改變,變成不同類型的人格。
上述這些功能,未來都可以通過對(duì)全腦的模擬慢慢實(shí)現(xiàn)。
其實(shí)回顧整個(gè)AI的進(jìn)化主線也非常清晰簡(jiǎn)單,就是在不同層面和不同尺度模擬人腦。
最開始我們研究如何模擬神經(jīng)元,然后是從神經(jīng)元到神經(jīng)回路(比如卷積網(wǎng)絡(luò)),慢慢有了大模型,開始模擬整個(gè)腦皮層,下一步就是模擬整個(gè)大腦的結(jié)構(gòu)——從微觀、中觀到宏觀,現(xiàn)在人類的AI技術(shù)就處于第三階段向第四階段邁進(jìn)的過程中。
未來的某一天,人類很可能會(huì)像造物主一樣,創(chuàng)造出和我們一樣智慧水平的數(shù)字生命,這將從社會(huì)層面重塑人類文明底座;那時(shí)可能90%的智慧體都不再是人類而是AI,整個(gè)社會(huì)結(jié)構(gòu)也會(huì)隨之改變,人類文明也會(huì)進(jìn)入一個(gè)全新的階段。
作為一線從業(yè)者,我們對(duì)于技術(shù)變革速度的感受會(huì)更直觀一些:不出意外的話,那一天會(huì)比大多數(shù)人想象的更快到來。
關(guān)鍵詞: 機(jī)器意識(shí)AI距離覺醒還有多遠(yuǎn) 大腦皮質(zhì) 人工智能