全球時訊:又一個卡脖子技術(shù):中國的AlphaFold在哪兒?

發(fā)布時間:2022-08-10 15:46:58  |  來源:騰訊網(wǎng)  

·7月底,DeepMind公司稱,AlphaFold預(yù)測出了2億多個蛋白質(zhì)結(jié)構(gòu)。

·“有人在說AlphaFold開源了,我們國家不用搞了,這是大錯特錯。第一,他們所謂的開源,只是表層結(jié)構(gòu)開源了,底層技術(shù)沒有開源……”復(fù)旦大學(xué)復(fù)雜體系多尺度研究院院長馬建鵬在受訪中表示。


(資料圖)

在馬建鵬看來,AlphaFold是又一個卡脖子的核心技術(shù)。

幾乎預(yù)測了整個蛋白質(zhì)宇宙

2022年7月28日,英國DeepMind公司表示,AlphaFold已經(jīng)預(yù)測了全球幾乎所有的蛋白質(zhì)結(jié)構(gòu),短短一年時間,他們的蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫中的數(shù)據(jù)從200萬個擴增到超2億個。

AlphaFold也是繼AlphaGo(阿爾法狗)之后,DeepMind重磅打造的一款智能人工系統(tǒng),主要被用來預(yù)測蛋白質(zhì)結(jié)構(gòu)。那么,AlphaFold運行基本原理是怎樣的?

它運用了機器學(xué)習(xí)算法,配置了深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),并且接受了蛋白質(zhì)三維結(jié)構(gòu)數(shù)據(jù)庫(PDB)以及其他數(shù)據(jù)庫中數(shù)十萬個實驗確定的蛋白質(zhì)結(jié)構(gòu)和序列的訓(xùn)練。

經(jīng)過訓(xùn)練后,AlphaFold在面對一個新的基因序列時,首先在數(shù)據(jù)庫中尋找相關(guān)基因序列,然后經(jīng)過大量的計算和比對,對新基因序列對應(yīng)的蛋白質(zhì)3D結(jié)構(gòu)進行預(yù)測,它的預(yù)測結(jié)果具有非常可觀的精確度。

回溯到一年前,2021年7月,也就是AlphaFold發(fā)布蛋白質(zhì)數(shù)據(jù)庫和開源代碼初期,DeepMind就已經(jīng)用AlphaFold預(yù)測了98.5%的人類蛋白質(zhì)結(jié)構(gòu),相關(guān)結(jié)果發(fā)表在《自然》雜志上。

在很多專家看來,AlphaFold還只是對未來的“驚鴻一瞥”,它將生物學(xué)帶入了一個數(shù)字時代,并且它將改變?nèi)蛏镝t(yī)學(xué)研究現(xiàn)狀。

目前,DeepMind與被忽視疾病藥物倡議(DNDI)合作,來推進他們的研究成果。同時,DeepMind還對被世界衛(wèi)生組織(WHO)確定為高度優(yōu)先研究的生物體進行了結(jié)構(gòu)預(yù)測,幫助科學(xué)家進一步研究麻風(fēng)病和血吸蟲病等頑疾。

DeepMind創(chuàng)始人Demis Hassabis。 視覺中國 資料圖

對此,DeepMind創(chuàng)始人兼首席執(zhí)行官戴密斯·哈薩比斯(Demis Hassabis)發(fā)出感慨,“AlphaFold已經(jīng)對我們一些最大的全球挑戰(zhàn)產(chǎn)生了令人難以置信的影響。我們希望這個擴展的數(shù)據(jù)庫將幫助無數(shù)科學(xué)家完成他們的重要工作,并為科學(xué)發(fā)現(xiàn)開辟全新的途徑?!?/p>

AlphaFold給全球生命科學(xué)領(lǐng)域?qū)W者的科研工作提供了便利,我國學(xué)者正在致力于探索“屬于中國的AlphaFold”。但做得怎么樣,有無自己的原創(chuàng)技術(shù)?

如何打造一款中國的AlphaFold?

國內(nèi)對AlphaFold的關(guān)注,是最近兩年的事。

2020年底,冰洲石生物科技(AccutarBio)宣布完成了近億美元融資,致力于運用通過深度學(xué)習(xí)和物理建模的方式在海量數(shù)據(jù)上進行訓(xùn)練得到的計算模型來替代生物學(xué)和化學(xué)實驗,以此來加速創(chuàng)新藥的研發(fā)。

AccutarBio創(chuàng)始人范捷博士表示,他們的愿景是用AI全面提升創(chuàng)新藥物研發(fā)的速度和效率,推出擁有全球?qū)@乃幬锂a(chǎn)品,致力于利用顛覆性技術(shù)的力量不斷去改變藥物發(fā)現(xiàn)行業(yè)。

致力于AI跨界融合的團隊并非個例。2021年12月,北京深勢科技推出一款蛋白質(zhì)結(jié)構(gòu)預(yù)測工具Uni-Fold,并同時開源訓(xùn)練代碼和推理代碼,供各界科學(xué)家和企業(yè)家測試使用。

由于AlphaFold只是開源了模型推理代碼,并沒有開源訓(xùn)練代碼,因此科研人員只能按照AlphaFold設(shè)計好的流程進行使用,而不能對其訓(xùn)練過程做出調(diào)整,來遷移至更多的應(yīng)用場景。

中科院院士、北京大學(xué)教授鄂維南表示,“盡管DeepMind開源了推理代碼,但模型的訓(xùn)練技術(shù)才是核心的競爭力”。

復(fù)旦大學(xué)教授馬劍鵬。

同樣,2021年12月,復(fù)旦大學(xué)復(fù)雜體系多尺度研究院馬劍鵬教授的團隊和上海人工智能實驗室合作,在《生物信息學(xué)簡報》(Briefings in Bioinformatics)上發(fā)表了一篇名為“OPUS-Rota4: agradient-based protein side-chain modeling framework assisted by deeplearning-based predictors”的論文,簡述了他們開發(fā)的算法成果。

研究團隊研發(fā)出的具有自主知識產(chǎn)權(quán)的OPUS系列算法,這個算法可以用于預(yù)測蛋白質(zhì)主鏈和側(cè)鏈的三維結(jié)構(gòu),值得一提的是,其中的蛋白質(zhì)側(cè)鏈預(yù)測算法即OPUS-Rota4算法,精度比AlphaFold更勝一籌。

具體而言,研究人員使用AlphaFold得到了15個蛋白的預(yù)測結(jié)構(gòu),并利用不同方法根據(jù)預(yù)測出的主鏈結(jié)構(gòu)對其側(cè)鏈進行重新建模。其結(jié)果顯示,OPUS-Rota4的結(jié)果顯著優(yōu)于其它側(cè)鏈建模方法,而且比AlphaFold2預(yù)測的側(cè)鏈更接近天然構(gòu)象。

不同側(cè)鏈建模方法對CASP14-AF2(15)的性能。

就在前不久,又有一家國內(nèi)AI制藥企業(yè)華深智藥宣布,在AI和生命科學(xué)結(jié)合領(lǐng)域?qū)崿F(xiàn)了一個重要進展,在蛋白質(zhì)結(jié)構(gòu)預(yù)測方面開發(fā)出新的技術(shù)——OmegaFold。

總的來說,利用AI推動生命科學(xué)發(fā)展的研究正在國內(nèi)遍地開花。各大企業(yè)和高校團隊在不斷推進AI和生物制藥的跨界融合,他們正在努力趕超DeepMind公司的AlphaFold。很顯然,這一領(lǐng)域的源頭創(chuàng)新并不在我們手上,怎樣做才能保持優(yōu)勢呢?

“我們必須從底層技術(shù)做起”

蛋白質(zhì)結(jié)構(gòu)預(yù)測早已不是一個新的領(lǐng)域,科學(xué)家已經(jīng)做了五十多年,但是直到AlphaFold的出現(xiàn),這一領(lǐng)域的研究才出現(xiàn)突破性成果。

在很多業(yè)內(nèi)專家看來,它的出現(xiàn)某種程度上是靠科學(xué)家個人去發(fā)揮他們的創(chuàng)造性。但我國在這一領(lǐng)域發(fā)展也有一定優(yōu)勢,這就是計算機系統(tǒng)工程。科學(xué)問題的工程化,AlphaFold也是非常典型的例子之一。

目前,我國還沒有能夠完全超越AlphaFold的核心技術(shù),要實現(xiàn)真正“從0到1”的突破,或許還需要一些時間。

馬建鵬在受訪中表示,“有人在說AlphaFold開源了,我們國家不用搞了,這是大錯特錯。第一,他們所謂的開源只是表層結(jié)構(gòu)開源了,底層技術(shù)沒有開源。第二,你把它拿來你只能做他們的東西,你沒有辦法提高,就像航空發(fā)動機你買來可以,你能往前再進一步嗎?”

馬建鵬認為,我們必須從底層技術(shù)做起,掌握核心算法。

參考資料

1. 對標AlphaFold2!深勢科技發(fā)布Uni-Fold蛋白結(jié)構(gòu)預(yù)測工具,并開源訓(xùn)練代碼.深勢科技.

https://mp.weixin.qq.com/s/Zhn3HJpLnznLM1bpu6D1ew

2. OPUS-Rota4: a gradient-based protein side-chain modeling framework assisted by deep learning-based predictors.Briefings in Bioinformatics.

https://academic.oup.com/bib/article/23/1/bbab529/6461160

3. 超越谷歌“AlphaFold2”,為新藥研發(fā)提供利器:復(fù)旦復(fù)雜體系多尺度研究院團隊發(fā)表全新蛋白質(zhì)側(cè)鏈預(yù)測成果.復(fù)旦大學(xué).

https://mp.weixin.qq.com/s/idWh_IO66Nhry4LfeITmIA

https://www.sohu.com/a/510336879_629135

4. 全球首個! 華深智藥完成單條序列蛋白質(zhì)結(jié)構(gòu)預(yù)測最后一塊拼圖.華深智藥.

https://mp.weixin.qq.com/s/DY3I13k_9QsIpCmyvQBlPg

5. AlphaFold reveals the structure of the protein universe.DeepMind.

https://www.deepmind.com/blog/alphafold-reveals-the-structure-of-the-protein-universe

6. 對話復(fù)旦復(fù)雜體系多尺度研究院院長:蛋白質(zhì)結(jié)構(gòu)預(yù)測為何突破.新浪科技.

https://finance.sina.com.cn/tech/2021-11-01/doc-iktzqtyu4671024.shtml

7. Finally, an answer to the question: AI — what is it good for?.VOX.

https://www.vox.com/future-perfect/2022/8/3/23288843/deepmind-alphafold-artificial-intelligence-biology-drugs-medicine-demis-hassabis

關(guān)鍵詞: 又一個卡脖子技術(shù)中國的AlphaFold在哪兒 alphafold

 

網(wǎng)站介紹  |  版權(quán)說明  |  聯(lián)系我們  |  網(wǎng)站地圖 

星際派備案號:京ICP備2022016840號-16 營業(yè)執(zhí)照公示信息版權(quán)所有 郵箱聯(lián)系:920 891 263@qq.com