DeepMind與歐洲生物信息學(xué)研究所合作 推出蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(kù)

發(fā)布時(shí)間:2021-08-23 10:55:10  |  來(lái)源:智東西  

人工智能研究實(shí)驗(yàn)室 DeepMind 與歐洲生物信息學(xué)研究所 EMBL-EBI(European Bioinformatics Institute)合作,推出了 AlphaFold 蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(kù),該數(shù)據(jù)庫(kù)提供了迄今為止人類蛋白質(zhì)組最完整、最準(zhǔn)確的圖像,是人類積累的高精度人類蛋白質(zhì)結(jié)構(gòu)知識(shí)的兩倍多。

除了人類蛋白質(zhì)組(人類基因組表達(dá)的所有蛋白質(zhì)約 2 萬(wàn)種)之外,他們還將提供其他 20 種具有生物學(xué)意義的生物蛋白質(zhì)組的開(kāi)放訪問(wèn),總計(jì)超過(guò) 35 萬(wàn)種蛋白質(zhì)結(jié)構(gòu),包括從果蠅到小鼠等動(dòng)物,以及從大腸桿菌到酵母等細(xì)菌。

發(fā)布第一批數(shù)據(jù)后,DeepMind 計(jì)劃繼續(xù)增加蛋白質(zhì)庫(kù),幾乎覆蓋所有科學(xué)已知的已測(cè)序蛋白質(zhì),共超過(guò) 1 億種結(jié)構(gòu),該庫(kù)將由 EMBL 維護(hù)。在 EMBL 總干事 Edith Heard 看來(lái):“這些數(shù)據(jù)集將改變我們對(duì)生命運(yùn)作方式的理解。”

“我認(rèn)為這是 DeepMind 整個(gè) 10 年多生命周期的頂峰。”DeepMind 聯(lián)合創(chuàng)始人兼 CEO Demis Hassabis 談道,從成立之初,DeepMind 就打算將 AI 方面取得的突破在圍棋、雅達(dá)利等游戲上進(jìn)行測(cè)試,并將其應(yīng)用于現(xiàn)實(shí)世界的問(wèn)題,以加速科學(xué)突破并造福人類。

Demis Hassabis 稱,這些數(shù)據(jù)對(duì)科學(xué)和商業(yè)研究人員來(lái)說(shuō)都將永久免費(fèi)開(kāi)放。“任何人都可以將它用于任何事情,他們只需要?dú)w功于參與引用的人。”他說(shuō)。

01.AlphaFold 預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)、緩解多領(lǐng)域生物研究瓶頸

21 世紀(jì)是生物的世紀(jì),更是計(jì)算機(jī)的世紀(jì)。

早在去年 12 月,DeepMind 就推出了 AlphaFold 2 系統(tǒng),可通過(guò) AI 軟件對(duì)蛋白質(zhì)結(jié)構(gòu)進(jìn)行準(zhǔn)確預(yù)測(cè),該解決方案被認(rèn)為能解決困擾科學(xué)家們 50 年的蛋白質(zhì)折疊(protein folding)問(wèn)題。

直到上周,DeepMind 還發(fā)表了相關(guān)科學(xué)論文和源代碼,以解釋如何創(chuàng)建這個(gè)高度創(chuàng)新的系統(tǒng),允許其他人通過(guò) AlphaFold 來(lái)完成相關(guān)研究工作。

AlphaFold 系統(tǒng)的誕生,證明了 AI 可以在幾分鐘內(nèi)準(zhǔn)確預(yù)測(cè)蛋白質(zhì)的 3D 結(jié)構(gòu),精確到原子精度。而 AlphaFold 蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(kù)的開(kāi)放,也將促進(jìn)世界各地的科學(xué)家們加速對(duì)人類蛋白質(zhì)的研究。

那么,何為蛋白質(zhì)折疊問(wèn)題?

簡(jiǎn)單來(lái)說(shuō),許多生物過(guò)程都是圍繞蛋白質(zhì)來(lái)進(jìn)行的,而蛋白質(zhì)是由氨基酸序列組成的大型復(fù)雜分子,其真正的作用取決于自身獨(dú)特的 3D 結(jié)構(gòu),也就是蛋白質(zhì)中氨基酸序列的折疊方式。

了解蛋白質(zhì)結(jié)構(gòu)能增進(jìn)人類對(duì)生命組成部分的理解,從而推動(dòng)科學(xué)家們?cè)诟鱾€(gè)領(lǐng)域的研究。

例如,英國(guó)樸茨茅斯大學(xué)(CEI)正在利用 AlphaFold 來(lái)設(shè)計(jì)一種新型酶,以快速分解污染嚴(yán)重的一次性塑料等廢物;美國(guó)科羅拉多大學(xué)博爾德分校通過(guò) AlphaFold 預(yù)測(cè),來(lái)研究抗生素耐藥性的前景;美國(guó)加利福尼亞大學(xué)舊金山分校則使用 AlphaFold 來(lái)研究新型冠狀病毒的工作原理……

這些都是科學(xué)家們利用科技帶來(lái)的大量生物數(shù)據(jù)信息,一步步轉(zhuǎn)換為未來(lái)人類的進(jìn)步。

但科學(xué)家們指出,這些信息轉(zhuǎn)換到現(xiàn)實(shí)世界并產(chǎn)生結(jié)果的過(guò)程,仍需要大量時(shí)間。“我認(rèn)為這不會(huì)在一年內(nèi)改變患者的治療方式,但它肯定會(huì)對(duì)科學(xué)界產(chǎn)生巨大影響。”科羅拉多大學(xué)生物化學(xué)系教授 Marcelo C. Sousa 說(shuō)。

需要注意的是,AlphaFold 軟件生成的是蛋白質(zhì)結(jié)構(gòu)的預(yù)測(cè),而不是實(shí)驗(yàn)確定的模型,這意味著在某些情況下,科學(xué)家還需要進(jìn)一步的工作來(lái)驗(yàn)證結(jié)構(gòu)。

DeepMind 對(duì)此表示,他們花了許多時(shí)間在 AlphaFold 軟件中構(gòu)建準(zhǔn)確度指標(biāo),讓它能對(duì)每個(gè)預(yù)測(cè)的可信度進(jìn)行排名。

不過(guò),蛋白質(zhì)結(jié)構(gòu)的預(yù)測(cè)仍對(duì)科學(xué)研究帶來(lái)了巨大幫助。以往科學(xué)家們確定蛋白質(zhì)結(jié)構(gòu)的實(shí)驗(yàn)過(guò)程既耗時(shí)又昂貴,還要依賴大量反復(fù)試驗(yàn),而蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)即便置信度低,也可以為科學(xué)家指明正確的研究方向,為他們節(jié)省多年的工作。

英國(guó)格拉斯哥大學(xué)(University of Glasgow)結(jié)構(gòu)生物學(xué)教授 Helen Walden 認(rèn)為,DeepMind 的數(shù)據(jù)將“顯著緩解研究瓶頸”,但“進(jìn)行生物化學(xué)和生物學(xué)評(píng)估的費(fèi)力、耗費(fèi)資源的工作”將繼續(xù)存在,例如藥物功能研究。

Sousa 也提到,他曾在工作中使用過(guò) AlphaFold 的數(shù)據(jù),“科學(xué)家們能快速地感受到它帶來(lái)的影響。”他說(shuō),在他們與 DeepMind 的合作中,他們有一個(gè)包含蛋白質(zhì)樣本的數(shù)據(jù)集,但 10 年來(lái)都還沒(méi)開(kāi)發(fā)出一個(gè)合適的模型,直到 DeepMind 同意為他們提供一個(gè)結(jié)構(gòu),在 15 分鐘內(nèi)就解決了這個(gè)問(wèn)題。

02. 蛋白質(zhì)折疊難題背后、AlphaFold 分析速度已提升 16 倍

AlphaFold 只需 15 分鐘就能解決的問(wèn)題,為何困擾了這些科學(xué)家 10 年?蛋白質(zhì)折疊問(wèn)題究竟難在哪?

如我們前面所說(shuō),蛋白質(zhì)由氨基酸鏈構(gòu)成,人體中共含有 20 種不同的氨基酸,任何一個(gè)蛋白質(zhì)都可以由數(shù)百個(gè)氨基酸組成,且每個(gè)氨基酸都有不同的折疊和扭曲結(jié)構(gòu)。

這些都意味著,哪怕是一個(gè)常見(jiàn)的蛋白質(zhì)分子,它的最終結(jié)構(gòu)都有許多種可能構(gòu)型。一個(gè)估計(jì)是,典型的蛋白質(zhì)可以以 10^300 種方式折疊。不用數(shù)了,就是“1”后面跟著 300 個(gè)“0”的可能性。

不過(guò)由于蛋白質(zhì)的樣本太小,科學(xué)家們難以用顯微鏡檢查,不得不使用成本昂貴且復(fù)雜的方法來(lái)間接確定蛋白質(zhì)結(jié)構(gòu),比如核磁共振和 X 射線晶體學(xué)(X-ray crystallography)。

但實(shí)際上,簡(jiǎn)單地通過(guò)氨基酸序列來(lái)確定蛋白質(zhì)結(jié)構(gòu)的構(gòu)想,在理論上一直是難以實(shí)現(xiàn)的。因此,分析蛋白質(zhì)結(jié)構(gòu)也成為了人們攻克生物學(xué)領(lǐng)域的一大難關(guān)。

直到近年來(lái),人們發(fā)現(xiàn)可以利用 AI 的方法來(lái)分析蛋白質(zhì)結(jié)構(gòu)。借助這些技術(shù),AI 系統(tǒng)可以通過(guò)在已知蛋白質(zhì)結(jié)構(gòu)的數(shù)據(jù)集上進(jìn)行訓(xùn)練,并最終利用這些信息來(lái)預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)。

多年來(lái),很多團(tuán)隊(duì)都參與到這項(xiàng) AI 研究中,其中 DeepMind 基于深厚的 AI 人才庫(kù)和大量計(jì)算資源基礎(chǔ),一直走在該領(lǐng)域的前沿。

去年,DeepMind 在一項(xiàng)名為 CASP 的國(guó)際蛋白質(zhì)折疊比賽中脫穎而出,其 AlphaFold 軟件對(duì)蛋白質(zhì)結(jié)構(gòu)的預(yù)測(cè)結(jié)果非常準(zhǔn)確。對(duì)此,CASP 聯(lián)合創(chuàng)始人之一的計(jì)算生物學(xué)家 John Moult 說(shuō):“在某種意義上,蛋白質(zhì)折疊的難題已經(jīng)有了解決方案。”

自去年 CASP 競(jìng)賽以來(lái),AlphaFold 系統(tǒng)也實(shí)現(xiàn)了升級(jí),現(xiàn)在它分析蛋白質(zhì)結(jié)構(gòu)的速度已提高了 16 倍。“我們可以在幾分鐘內(nèi)折疊一個(gè)普通蛋白質(zhì),多數(shù)情況下只要幾秒鐘。”Hassabis 談道。

英國(guó)雷丁大學(xué)教授 Liam McGuffin 曾開(kāi)發(fā)出一些蛋白質(zhì)折疊軟件,他肯定了 AlphaFold 的技術(shù),但也指出,AlphaFold 的成功主要?dú)w功于科學(xué)家們數(shù)十年的先前研究和公開(kāi)數(shù)據(jù)。

“DeepMind 擁有大量研究資源來(lái)保持?jǐn)?shù)據(jù)庫(kù)的更新,他們比任何一個(gè)學(xué)術(shù)團(tuán)體都更有能力做到這一點(diǎn)。”McGuffin 認(rèn)為,盡管科學(xué)家們最終也會(huì)走到這一步,但速度會(huì)更慢,因?yàn)樗麄儧](méi)有足夠的資源。

03. 持續(xù)推進(jìn) AI 發(fā)展,年底數(shù)據(jù)庫(kù)結(jié)構(gòu)將增至 1.3 億個(gè)

盡管 DeepMind 每年都處于大量虧損的狀態(tài),但這次開(kāi)放蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(kù)是免費(fèi)的。

實(shí)際上,DeepMind 歸屬于 Google 母公司 Alphabet,該公司一直在商業(yè)醫(yī)療保健領(lǐng)域投入大量資源。還有許多報(bào)道稱,DeepMind 與 Alphabet 在研究自主性和商業(yè)可行性等問(wèn)題上存在分歧。

不過(guò) Hassabis 談道,公司一直在計(jì)劃免費(fèi)提供這些信息,這樣做是對(duì) DeepMind 創(chuàng)始精神的體現(xiàn)。“我們?cè)诒皇召?gòu)時(shí)與 Alphabet 達(dá)成的協(xié)議是,DeepMind 主要的研究目的是推進(jìn) AGI(通用人工智能)和 AI 技術(shù)的發(fā)展,然后利用它們來(lái)攻克科學(xué)領(lǐng)域的難題。”他說(shuō)。

他認(rèn)為,Alphabet 有許多部門都專注于盈利,但 DeepMind 對(duì)研究的關(guān)注能夠“為科學(xué)界帶來(lái)各種各樣的好處,包括聲望和信譽(yù),從而通過(guò)多種方法實(shí)現(xiàn)價(jià)值。”

Hassabis 還強(qiáng)調(diào),雖然 DeepMind 的主要研究目標(biāo)是一些基礎(chǔ)領(lǐng)域,但其技術(shù)已廣泛應(yīng)用于谷歌的其他業(yè)務(wù)中。“幾乎你使用的任何谷歌產(chǎn)品,其中一部分技術(shù)都有我們的參與。”他透露。

與此同時(shí),Hassabis 預(yù)測(cè) AlphaFold 將成為未來(lái)的標(biāo)志,因?yàn)樗故玖?AI 在處理人類生物學(xué)等復(fù)雜問(wèn)題上的巨大潛力。

“我認(rèn)為我們正處于一個(gè)非常激動(dòng)人心的時(shí)刻。”Hassabis 提到:“在接下來(lái)的十年中,我們和 AI 領(lǐng)域的其他人都希望能取得突破性進(jìn)展,真正加速解決我們?cè)诘厍蛏厦媾R的真正重大問(wèn)題。”

對(duì)于接下來(lái)的計(jì)劃,EMBL-EBI 的結(jié)構(gòu)生物信息學(xué) Sameer Velankar 談道,到今年年底,本周提交的大約 36.5 萬(wàn)個(gè)蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)將增加至 1.3 億個(gè),幾乎是所有已知蛋白質(zhì)的一半。

此外,隨著 DeepMind 的繼續(xù)投資,以及未來(lái)對(duì) AlphaFold 的改進(jìn),系統(tǒng)和數(shù)據(jù)庫(kù)也將定期更新。

04. 結(jié)語(yǔ):站在巨人肩膀上看未來(lái),以 AI 實(shí)現(xiàn)多領(lǐng)域多點(diǎn)開(kāi)花

對(duì) DeepMind 而言,從 AlphaFold 系統(tǒng)的更新迭代到蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(kù)的開(kāi)放,研究團(tuán)隊(duì)在五年里不僅必須要?jiǎng)?chuàng)造性地克服許多技術(shù)難題,還要面臨許多復(fù)雜算法的創(chuàng)新挑戰(zhàn),這些都是推動(dòng)人工智能和生物學(xué)領(lǐng)域發(fā)展的必經(jīng)之路。

不能忽視的是,DeepMind 乃至未來(lái)研究團(tuán)隊(duì)的創(chuàng)新,都是建立在先前幾代科學(xué)家的研究發(fā)現(xiàn)上。從蛋白質(zhì)成像和晶體學(xué)的早起先驅(qū),到數(shù)以千計(jì)的預(yù)測(cè)專家和結(jié)構(gòu)生物學(xué)家,他們一路披荊斬棘,花了多年時(shí)間對(duì)蛋白質(zhì)展開(kāi)深入研究。

我們也期待,站在巨人的肩膀上的他們,未來(lái)能開(kāi)辟更多創(chuàng)新的科學(xué)研究途徑,推動(dòng)更多領(lǐng)域的發(fā)展和進(jìn)步。

關(guān)鍵詞: DeepMind 歐洲 生物信息學(xué) 研究所

 

網(wǎng)站介紹  |  版權(quán)說(shuō)明  |  聯(lián)系我們  |  網(wǎng)站地圖 

星際派備案號(hào):京ICP備2022016840號(hào)-16 營(yíng)業(yè)執(zhí)照公示信息版權(quán)所有 郵箱聯(lián)系:920 891 263@qq.com