1972年諾貝爾獎得主克里斯蒂安·安芬森(在諾獎頒獎典禮上曾提出猜想:一個蛋白的氨基酸序列應該能完全決定這個蛋白的結(jié)構(gòu)拉队;而蛋白作為生命的基本構(gòu)件构订,其結(jié)構(gòu)與生命的各種功能息息相關(guān)。因此,半個世紀以來,科學家努力嘗試著利用氨基酸序列預測蛋白結(jié)構(gòu)。但到現(xiàn)在依舊沒有突破∪鹛桑現(xiàn)在,一個來自DeepMind的人工智能算法兴想,終于一舉解決了這個問題幢哨。讓我們來看看吧!
這個算法名為“AlphaFold”嫂便,由DeepMind公司開發(fā)捞镰。DeepMind發(fā)布于6年前的圍棋算法AlphaGo,至今已無人能敵毙替。
人類已知的所有生命都由蛋白構(gòu)成岸售,這些有機分子構(gòu)成了我們與世界交互的基本元件。以視覺為例:我們眼中的感光細胞都擁有感光蛋白厂画,感測光子凸丸,并將光信號轉(zhuǎn)化為大腦能理解的電化學信號。與任何蛋白一樣木羹,人類視桿細胞中的感光蛋白視紫紅質(zhì)是由氨基酸組成的甲雅;視紫紅質(zhì)由348個氨基酸連接而成。然而坑填,盡管視紫紅質(zhì)的氨基酸序列在上世紀80年代就已測出抛人,其結(jié)構(gòu)卻直到2000年才被首次揭開。將近20年的時間跨度脐瑰,凸顯了半個世紀以來一直困擾著生物學家的計算難題:已知一個蛋白的氨基酸序列妖枚,要怎樣才能求出其三維結(jié)構(gòu)?
蛋白的功能取決于其三維結(jié)構(gòu)苍在,而在自然環(huán)境中绝页,蛋白通常能自發(fā)地在數(shù)秒內(nèi)折疊成具有功能性的特定三維形狀。對于現(xiàn)代生物學來說寂恬,測出一個蛋白的氨基酸序列相對簡單(可用蛋白質(zhì)譜法)续誉,但確定蛋白的三維結(jié)構(gòu)則非常難(需要用到X射線晶體學和冷凍電鏡)〕跞猓科學家們通過數(shù)十年的研究酷鸦,但還是收獲甚微。最高的GTA只有40(GTA是用來評定結(jié)構(gòu)準確性的指數(shù)牙咏,最高為100)臼隔。
AlphaFold的第一次亮相在2018年。獲得了將近60分的GDT分數(shù)妄壶,比第二名高出了15%摔握。今年更是取得了接近九十分的好成績。
AlphaFold的工作原理分為兩步丁寄。第一步是多序列校準氨淌,與一同參賽的其它算法沒有區(qū)別,意在將已知的氨基酸序列與數(shù)據(jù)庫內(nèi)的序列對比伊磺,找出那些“喜歡待在一起”的氨基酸宁舰,再通過進一步分析模擬出每個氨基酸之間的距離,從而得出初步預測奢浑。但這遠遠不夠蛮艰,畢竟不是每一種三維結(jié)構(gòu)都符合物理規(guī)則。于是在第二步中雀彼,AlphaFold會基于氨基酸序列壤蚜,創(chuàng)造出一個符合物理規(guī)則的隨機三維結(jié)構(gòu),然后用深度學習中常用的梯度下降法改進第一步中得出的預測徊哑。從而取得相對準確的結(jié)構(gòu)袜刷。
AlphaFold的參賽結(jié)果,意味著今后要對蛋白結(jié)構(gòu)進行高效莺丑、簡便且精準的預測著蟹,僅需初步的試驗數(shù)據(jù)即可墩蔓。擁有這些蛋白結(jié)構(gòu)的助力,疾病萧豆、演化等領(lǐng)域的研究將得到強大的推動奸披。有了AlphaFold的幫助,我們就能快速利用發(fā)生變動的氨基酸序列涮雷,預測疾病中異常蛋白的結(jié)構(gòu)阵面,從而有針對性地進行下一步研究。同樣意味著生物學家終于從預測蛋白結(jié)構(gòu)的苦勞中被解放出來洪鸭,能夠著手應對更新样刷、更需要創(chuàng)造力的任務。
隨著人工智能技術(shù)的發(fā)展览爵,一些曾經(jīng)遙不可及的難題逐漸變得觸手可得置鼻,同樣也給了科學家們更多的時間和更大的機會去研究那些更高端更重要的問題,我們也期待著在不遠的將來可以有更多的發(fā)現(xiàn)蜓竹!
這期長圖就到這里了沃疮,我們下期再見!