生物學家 Andrei Lupas 這樣評價 Alphabet 旗下的 DeepMind 最新推出的蛋白質結構預測 AI——AlphaFold 2。
「它將改變一切?!棺詈筮@句話直接被《自然》雜志用作封面標題。
Lupas 之所以這么說,因為他本人花了十年時間,用盡各種實驗方法也沒能弄清楚一種蛋白質折疊后的形狀,但借助 AlphaFold 2 后,他在半個小時內就看清了那團彩色的,像是被手掌捏出特定形狀的「珠子項鏈」。
蛋白質會折疊成特別的三維形狀,很像「珠子項鏈」|視覺中國
知道「珠子項鏈」折疊后的三維形狀至關重要,因為它決定了蛋白質如何工作。開發(fā)新藥的科學家要是能知道蛋白質的形狀,或許就能幫助他想出可以與蛋白質結合的分子。分子一旦和蛋白質結合,就能改變它,從而治愈疾病。
以新冠為例,科學家一直在試圖研究新冠病毒表面的刺突蛋白是如何與人類細胞中的受體相互作用的。而像老年癡呆癥這種由錯誤折疊的蛋白質引起的疾病,人們一旦看清了蛋白質的結構,就能在現(xiàn)有的藥物中快速匹配治療或者嘗試新的療法。
盡管學界都知道蛋白質結構至關重要,但要弄清楚卻不是件容易的事情,如今人工智能的成熟應用給了預測蛋白質結構另一種可能。
在有著「蛋白質奧林匹克競賽」之稱的國際蛋白質結構預測競賽(CASP)上,AlphaFold 2 最終擊敗其他人類選手,拿到了冠軍。談及這個 AI 模型預測的準確性,有的參賽者甚至沮喪地說,「我懷疑很多人會離開這個領域,因為核心問題可以說已經解決了?!?/p>
科技圈同樣興奮不已,Google CEO Sundar Pichai、斯坦福教授李飛飛和特斯拉 CEO 埃隆 · 馬斯克第一時間在社交媒體上轉發(fā)祝賀。
困擾了學界 50 年的難題
1972 年的諾貝爾化學獎得主 Christian Anfinsen 最早提出,氨基酸(珠子)按照一定順序排列,會讓蛋白質(項鏈)形成一個固定的三維結構。而基于「珠子」的序列可以計算并預測「項鏈」會扭成什么形狀。
蛋白質對生命體而言至關重要。幾乎所有疾病,包括癌癥、癡呆癥都與蛋白質的功能有關。蛋白質的功能完全取決于它的三維結構形狀,而蛋白質功能則關系著我們健康與疾病的一切。因此,了解了蛋白質的三維結構有助于人們設計新藥、防治疾病,無論是遺傳疾病還是感染疾病。
但蛋白質「項鏈」能折疊出數(shù)以億計的形狀,對其結構的預測就成了一件有著巨大挑戰(zhàn)的難題。
1969 年,美國分子生物學家 Cyrus Levinthal 指出,用暴力計算法列舉一個典型蛋白質的所有可能構型所需的時間比已知宇宙的年齡還要長,他估計一個典型蛋白質有10^300 種可能構型。
現(xiàn)實中,目前人類只是試圖破解一種蛋白質的形狀就需要數(shù)年的時間,和昂貴的儀器設備。科學家們在實驗室中一般使用諸如 X 射線晶體學(X-ray crystallography)和核磁共振光譜法(NMR spectroscopy)這樣的傳統(tǒng)技術確定蛋白質的三維結構,以了解蛋白質分子中每一原子的相對位置。
從 1994 年開始,每兩年就會舉辦一次國際蛋白質結構預測競賽(CASP),評審團會拿科學家團隊用電腦所預測的蛋白質結構與使用實驗室方法得出的三維結構結果進行比較。
例如,華盛頓大學的 David Baker 開發(fā)了一套名為「Rosetta」的計算機程序來預測蛋白質結構。他的思路是:如果能夠窮盡兩兩氨基酸分子之間所有可能的位置及其對應的能量狀態(tài),就能得到蛋白質結構了。但現(xiàn)實挑戰(zhàn)是,目前計算機的計算能力并不足以支撐這種窮舉,一旦遇到復雜的蛋白質,這套程序就不適用了。
AlphaFold 和 AlphaFold 2 的分數(shù)對比|nature
2016 年以前,CASP 大賽中最高預測分數(shù)最高也只到了 40GDT 左右,離代表實驗室結果的 90GDT 還有很大差距。美國時間 11 月 30 日,DeepMind 的 AlphaFold 2 在評估中的總體中位數(shù)得分達到了 92.4GDT。想比兩年前的 AlphaFold,AlphaFold 2 刷新了記錄,從 60GDT 一躍上升為 92.4GDT。
「在某種意義上,難題已經被解決了?!笴ASP 的共同創(chuàng)始人 John Moult 告訴《自然》。
AI「畢業(yè)了」
第一版的 AlphaFold 雖然刷新了 CASP 的紀錄,但卻沒能激起很大的水花,因為它并不算真正的 AI 完全體,它還借鑒了上面提到的「Rosetta」等計算機程序的成果。但 AlphaFold 2 就不一樣,它是一個 AI 完全體。AlphaFold 2 系統(tǒng)所使用的數(shù)據,來自包括約 17 萬個蛋白質結構,以及未知結構的蛋白質序列的大型數(shù)據庫。在訓練時,它使用了大約 128 個 TPU v3 內核(大致相當于 100-200 個 GPU),并僅運行了數(shù)周。
「從 17 萬個已經知道三維結構的蛋白質分子中,科學家們挑一個,把它的氨基酸序列信息『喂』給算法,算法大致『猜測』出一個三維結構。然后,算法把它的猜測和已知的三維結構進行對比,并且根據猜測的結果是不是靠譜,繼續(xù)調整猜測的策略。這樣反復用 17 萬個三維結構訓練,算法逐漸就獲得了直接從氨基酸序列預測蛋白質三維結構的能力。」浙江大學生命科學研究院教授王立銘「簡化」了 AlphaFold 系統(tǒng)的運行過程。
他還認為,用 AI 預測蛋白結構實際上是在踐行這樣一種思路:既然我們知道氨基酸的順序決定了蛋白質的三維結構,有沒有可能不做實驗,直接從氨基酸的順序出發(fā),推測蛋白質分子的三維結構呢?
目前人類知道氨基酸順序的蛋白質分子有 1.8 億個,其中三維結構信息被徹底看清的只有 17 萬個,還不到 0.1%。僅僅通過耗時耗錢的實驗顯然是「杯水車薪」。
BBC 記者 Helen Briggs 表示,AI 的學習速度驚人,它用幾天的時間就能達到實驗室?guī)资甑难芯克健?/p>
但要實現(xiàn)這樣高效的研發(fā),DeepMind 必須與科學家分享這項 AI 技術。DeepMind 的聯(lián)合創(chuàng)始人兼 CEO Demis Hassabis 表示,先讓 AlphaFold 變得更有用,以便之后科學家們使用。此前,DeepMind 公布了第一版 AlphaFold 足夠多的技術細節(jié),讓科學家們復制這個 AI 預測的方法。
目前,DeepMind 還沒有公開關于 AlphaFold 2 的更多技術細節(jié),和未來知識共享的計劃。但這個全新的 AI 模型已經讓科學界和科技圈激動不已。
過去幾年,DeepMind 靠旗下的電競 AI AlphaStar 和圍棋 AI AlphaGo「出圈」。它們在《星際爭霸》和圍棋策略游戲中碾壓了職業(yè)玩家。而現(xiàn)在,DeepMind 似乎要「畢業(yè)」了,不只在游戲中證明自己的智慧,開始解決具有現(xiàn)實世界意義的科學問題。而這些問題,生死攸關。
王立銘教授幻想了這樣一個場景:「一名癌癥患者找到醫(yī)生,醫(yī)生測定了他體內腫瘤細胞的基因序列,發(fā)現(xiàn)他體內某一個特殊蛋白質發(fā)生了變異,因此導致了癌癥。同時,醫(yī)生還能對這種特殊蛋白質進行結構預測,有針對性地設計一個藥物與之結合,破壞其功能,從而治療癌癥。所有這一切只需要幾天時間。」在未來,疾病的診斷和治療將變得高度個性化。
更重要的,AI 介入醫(yī)學讓救治變得更高效,其實也在顛覆人類認識科學的方式。
通過「暴力」訓練,前幾年的 AlphaGo Zero 甚至可以做到,只需要知道圍棋的基本規(guī)則,比如怎么吃子、怎么判斷勝負,就可以在完全無視人類所有經驗的條件下學成絕技。人類之前在小樣本中歸納、演繹、總結再實踐的過程被顛覆了,現(xiàn)在是這些經驗有時候并非完全必需,只要有足夠多數(shù)據,AI 就能直接算出結果。
「只要那些復雜問題需要巨大的組合空間搜索能力才能解決;具有需要優(yōu)化的明確目標函數(shù);具有大量數(shù)據或者具有一個準確有效的模擬方法?!笰lphaFold2 研究團隊說道,「那它們就能被 AI 一一破解?!?/p>