(小塵4x/圖)
剛剛才風(fēng)頭無兩的ChatGPT聊天機(jī)器人可能要與同樣熱門的人工智能系統(tǒng)ProGen展開競爭了。
ChatGPT是美國一個人工智能實(shí)驗(yàn)室OpenAI發(fā)布的聊天機(jī)器人,它能與人自由交談,貌似突破了圖靈試驗(yàn),比谷歌的搜索引擎更有效地回答問題,并針對任何提示,按照規(guī)范編寫出可信的文本(名類文章)或計(jì)算機(jī)代碼。ProGen是美國另一家人工智能研究企業(yè) Salesforce Research和合成生物學(xué)公司Tierra Biosciences等合力打造的人造酶人工智能系統(tǒng)。在實(shí)驗(yàn)室測試中,ProGen設(shè)計(jì)的人工酶中的一些與自然界中發(fā)現(xiàn)的酶一樣有效,即使它們?nèi)斯ど傻拿傅陌被嵝蛄信c任何已知的天然蛋白質(zhì)存在顯著差異。
(資料圖片僅供參考)
如果說ChatGPT還只是在一些寬泛而抽象的意義上顯示了它可能替代人類,如寫作、交流等,而ProGen已經(jīng)是在產(chǎn)出具體的產(chǎn)品了。這種產(chǎn)品就是酶,是一種特殊的蛋白質(zhì)。而且,如果人工智能產(chǎn)生的蛋白質(zhì)能夠像自然生成的蛋白質(zhì)一樣,也意味著未來人工智能可以設(shè)計(jì)人類所需要的各類產(chǎn)品,當(dāng)然首先是滿足人類生存的食物和藥品。
隨之而來的一個問題是,人工智能設(shè)計(jì)和研發(fā)的產(chǎn)品能真正滿足人的需求嗎?例如,食物能滿足人類的能量供給和營養(yǎng)需求嗎?蛋白藥物有效和安全嗎?
雖然現(xiàn)在還不能完全解答這些問題,但ProGen設(shè)計(jì)的蛋白產(chǎn)品已經(jīng)顯示了某些可能性和可行性。
人工智能的核心是深度學(xué)習(xí),并按照所學(xué)習(xí)的模本創(chuàng)造產(chǎn)品。因此,研究人員把1.9萬個家族的2.8億種不同蛋白質(zhì)的氨基酸序列輸入ProGen的機(jī)器學(xué)習(xí)模型中,同時提供相關(guān)蛋白質(zhì)特性作為控制標(biāo)簽,然后讓系統(tǒng)花費(fèi)數(shù)周時間來“消化”這些信息。此后,研究人員再把信息收窄,使用來自5個溶菌酶家族的5.6萬個序列,以及有關(guān)這些蛋白質(zhì)的一些上下文信息來對模型進(jìn)行微調(diào)。
根據(jù)學(xué)習(xí)的內(nèi)容,ProGen迅速生成了100萬個序列。然后,研究團(tuán)隊(duì)根據(jù)這些序列與天然蛋白質(zhì)序列的相似程度,以及人工智能產(chǎn)出的蛋白質(zhì)的潛在氨基酸“語法”和“語義”的自然程度,選擇了100個進(jìn)行測試。
在100個人工設(shè)計(jì)的酶中來自5個溶菌酶家族的所有人工蛋白質(zhì)均顯示出活性,并且在這些人工制造的溶菌酶中,有73%被發(fā)現(xiàn)具有抗菌功能,而在天然蛋白質(zhì)中僅有59%具備功能性。研究團(tuán)隊(duì)選擇的5種人工蛋白在大腸桿菌中進(jìn)行重組表達(dá),并將它們的活性與雞蛋清溶菌酶(HEWL)進(jìn)行比較。后者主要存在于雞蛋白,以及人類的眼淚、唾液和牛奶中,具有抵御細(xì)菌和真菌的作用。
結(jié)果顯示,5種人工蛋白質(zhì)中有2種能夠以相當(dāng)于?HEWL 的活性分解細(xì)菌的細(xì)胞壁,盡管它們之間僅有約18%的序列是相同的。另一方面,存在于自然界中的已知蛋白與這兩個人造蛋白的序列的相似度分別為90%和70%左右。
更令人驚訝的結(jié)果是,在另一輪篩選中,研究團(tuán)隊(duì)發(fā)現(xiàn),即使只有31.4%的序列與目前已知的天然蛋白相似,但由 AI 生成的酶類依然顯示出活性。與之相比,天然蛋白質(zhì)中發(fā)生任何一個突變就有可能失去生物活性。
這些結(jié)果有多重意義。一是,ProGen 生成的人工蛋白不僅可以正確表達(dá),并且展示出與蛋白天然折疊相類似的結(jié)構(gòu)。二是人工生成的蛋白即便只有部分氨基酸序列與天然蛋白的序列相似,也具有生物活性,但天然蛋白沒有這種優(yōu)點(diǎn)。三是人工智能可以設(shè)計(jì)出此前在自然界從未有過的新物質(zhì)和新產(chǎn)品。
這些優(yōu)勢也意味著,如果采用AI設(shè)計(jì)和生產(chǎn)蛋白藥物、食品及生物產(chǎn)品(如降解塑料的產(chǎn)品),都會既快又有效,當(dāng)然安全性還需要通過動物和人體試驗(yàn)來檢驗(yàn)。
ProGen設(shè)計(jì)蛋白產(chǎn)品也可以按中國人對事物產(chǎn)生的樸素理解來認(rèn)知,道生一,一生二,二生三,三生萬物。事實(shí)上,人工設(shè)計(jì)蛋白質(zhì)是按照人的語言規(guī)律來生成的,氨基酸相當(dāng)于人的語言中無數(shù)的單詞和詞組,但是要按一定的語法結(jié)構(gòu)串聯(lián)組織起來。當(dāng)無數(shù)個氨基酸一個接一個地按“語法”串在一起后,就會形成有意義和有功能的產(chǎn)品——蛋白質(zhì)。
這也表明,當(dāng)前的人工智能技術(shù)已經(jīng)可以通過研究原始序列數(shù)據(jù)來了解酶、蛋白應(yīng)該如何形成。而且,在人工智能設(shè)計(jì)出新的蛋白產(chǎn)品后,通過X射線晶體學(xué)測量和檢測發(fā)現(xiàn),這些人造蛋白質(zhì)的原子結(jié)構(gòu)完全符合設(shè)計(jì)預(yù)期,而且這些蛋白的氨基酸序列此前在自然界并不存在。
同樣,ChatGPT能與人交談和寫出各類文章,也是通過深度學(xué)習(xí)而進(jìn)行和產(chǎn)生的。ChatGPT就是一個大型語言模型,接受了大量文本數(shù)據(jù)的訓(xùn)練,這些數(shù)據(jù)包括書籍、文章、網(wǎng)站帖子,使得它能夠?qū)Ω鞣N各樣的提問產(chǎn)生類似人類的反應(yīng),并回答問題,寫出文章,而且是以一種聽起來和看起來與人一樣自然的方式說話和寫作出來。
不過,無論是ProGen生成人工蛋白,還是ChatGPT與人交談和寫出各類文章,都是通過人類給予他們的訓(xùn)練并通過它們的深度學(xué)習(xí)產(chǎn)生,因此,它們既可能犯人類可能犯的錯誤,也會犯機(jī)器學(xué)習(xí)可能產(chǎn)生的錯誤,因此ProGen生成的人工蛋白未必就是安全有效的,ChatGPT寫出的文章未必就是無可挑剔的。
一些研究人員在英國《自然》雜志剛剛發(fā)表的一篇文章中稱,他們向ChatGPT 提出了一系列問題和作業(yè),這些問題和作業(yè)需要對文獻(xiàn)有深入的了解,結(jié)果發(fā)現(xiàn),ChatGPT經(jīng)常產(chǎn)生虛假和誤導(dǎo)性的文本,并且回答錯誤。
同樣,ProGen生成的人工蛋白也可能有問題。因此,解決人工智能產(chǎn)品的方式是,必須采取人工驗(yàn)證,并且是多個步驟的檢測,才能避免錯誤,當(dāng)然還必須要有動物和人體試驗(yàn)。這是人類始終應(yīng)當(dāng)對科學(xué)研究和研究產(chǎn)品負(fù)責(zé)的態(tài)度和做法。
張?zhí)锟?/p>
關(guān)鍵詞: AI設(shè)計(jì)的食物和藥物 能讓人放心嗎 人工智能