Deep Learning Model for Efficient Protein?Ligand Docking with Implicit Side-Chain Flexibility

題目:具有隱式側鏈靈活性的高效蛋白質-配體對接的深度學習模型

計算方法用于藥物篩選? 計算蛋白質和受體的距離計算

EDM-Dock

摘要:蛋白質-配體對接是基于結構的藥物設計的重要工具医寿,其應用范圍從虛擬高通量篩選到導聯(lián)優(yōu)化的姿態(tài)預測。大多數(shù)用于姿態(tài)預測的對接程序都是針對現(xiàn)有共結晶蛋白質結構的對接進行優(yōu)化的,而忽略了蛋白質的靈活性捣郊。然而,在現(xiàn)實世界的藥物設計應用中,蛋白質的靈活性是配體結合過程的基本特征。柔性蛋白-配體對接仍然是計算藥物設計的重大挑戰(zhàn)嗦嗡。為了應對這一挑戰(zhàn),我們提出了一種基于分子間歐幾里得距離矩陣(EDM)預測的柔性蛋白質-配體對接深度學習(DL)模型饭玲,使迭代搜索算法的典型使用過時侥祭。該模型在蛋白質-配體復合物的大規(guī)模數(shù)據(jù)集上進行訓練,并在獨立的測試集上進行評估茄厘。我們的模型為多種蛋白質和配體結構生成高質量的姿勢矮冬,并且優(yōu)于可比的對接方法。

1.研究背景

????藥物發(fā)現(xiàn)的主要范例是確定作用于疾病靶標的分子次哈√ナ穑基因組學和結構生物學的重大進展已經確定了數(shù)千種尚未具有臨床有效調節(jié)劑的潛在新靶點∫ぶ停考慮到可能的治療方法的化學空間約為1060琼牧,使用標準的實驗室方法尋找候選藥物可能是困難和昂貴的因此恢筝,計算方法已經常用于藥物發(fā)現(xiàn)篩選和優(yōu)化命中。

????分子對接是藥物設計中最常用的計算方法之一巨坊,用于預測藥物靶復合物的結構撬槽。這一預測能夠表征蛋白質-配體結合,如關鍵相互作用的識別抱究。由于這些原因恢氯,對接被廣泛應用于早期藥物發(fā)現(xiàn),特別是基于合理結構的藥物設計鼓寺。此外,對接可以應用于虛擬篩選協(xié)議勋磕,其中篩選大量化合物以尋找潛在的靶標結合妈候。對接也可以應用于逆(或反向)對接,其中一種化合物針對大量潛在靶標進行篩選挂滓。這項技術在藥物再利用苦银、多藥理學和副作用預測方面特別有用。

自20世紀80年代初開始赶站,廣泛的分子對接項目已經發(fā)展起來幔虏。這些程序依賴于各種各樣的理論和算法,但大多數(shù)都具有相同的基本結構:首先贝椿,搜索算法的任務是采樣結合位點內配體的潛在構型想括,通常稱為配體姿態(tài)。接下來烙博,評分函數(shù)評估每個姿勢瑟蜈,并嘗試將最可能(能量最低)的姿勢排在最前面。在搜索算法的流行選擇中渣窜,隨機方法如蒙特卡羅或遺傳算法和系統(tǒng)搜索方法通常與碎片相結合還有幾種評分函數(shù)選項铺根,包括經典力場、經驗乔宿、基于知識和神經網絡(NN)電位位迂。大多數(shù)對接程序都遵循這個方案,并且通常針對特定的用例進行定制(例如详瑞,蛋白質-配體對接掂林,蛋白質-蛋白質對接等)。

盡管分子對接方法的適用性和多樣性廣泛蛤虐,但仍存在一些挑戰(zhàn)党饮。其中一個挑戰(zhàn)是搜索算法的計算成本。對接程序通常會對數(shù)百萬種可能的配置進行采樣驳庭,試圖找到原始姿勢刑顺。這產生了繁重的計算需求氯窍,并且經常導致適應對接的剛性受體概念。雖然這種方法創(chuàng)造了投滋茫靠的可能性盡管分子對接方法的適用性和多樣性廣泛狼讨,但仍存在一些挑戰(zhàn)。其中一個挑戰(zhàn)是搜索算法的計算成本柒竞。對接程序通常會對數(shù)百萬種可能的配置進行采樣政供,試圖找到原始姿勢。這產生了繁重的計算需求朽基,并且經常導致適應對接的剛性受體概念布隔。雖然這種方法創(chuàng)造了停靠的可能性大的化學文庫稼虎,它忽略了誘導配合效應衅檀,已知在蛋白質-配體識別和結合中起關鍵作用。忽略蛋白質靈活性的簡化搜索算法對對接性能有不利影響霎俩。因此哀军,仍然存在一些蛋白質系統(tǒng),其中最先進的對接算法無法生成任何正確的姿勢打却。

圖1: 概述模型體系結構和重建過程杉适。深度神經網絡能夠預測蛋白質-配體的分子間距離。這個距離矩陣被用作配體在結合位點位置的中間表示柳击。在第二階段猿推,使用距離來重建配體在笛卡爾坐標系中的姿態(tài)

在本文中,我們提出了一種新的對接方法腻暮,稱為EDM-Dock彤守,它試圖解決和克服這些挑戰(zhàn)。我們的方法利用幾何深度學習模型哭靖,該模型能夠預測蛋白質-配體距離矩陣具垫。這些矩陣可以用來重建主要的配體位姿。通過我們的方法试幽,我們能夠完全繞過對搜索算法的需求筝蚕,顯著降低計算成本。通過將蛋白質粗疗涛耄化到殘基水平起宽,去除了側鏈取向的更精細的細節(jié),蛋白質靈活性的挑戰(zhàn)隱含地解決了济榨。這項技術已被用于許多不同的方法來模擬蛋白質的靈活性而不犧牲速度坯沪。EDM-Dock還具有幾個有利的特性,即對蛋白質的平移和旋轉的不變性和概率輸出(即預測距離和方差)擒滑,從而實現(xiàn)更高質量的姿勢腐晾。該模型在大規(guī)模數(shù)據(jù)集上進行訓練叉弦,并使用兩個獨立的測試集評估再對接和交叉對接能力。EDM-Dock為多種蛋白質和配體結構產生接近天然的姿勢藻糖,并且優(yōu)于同類的對接方法淹冰。

相關的工作栈幸。分子建模中的深度學習烤送。隨著跨學科深度學習的興起,許多不同的深度學習模型已被應用于化學和分子建模畔濒。這些模型的一個主要目的是預測通常難以計算的分子/原子性質洋满。例如晶乔,一些預測量子化學性質的DL模型已經被開發(fā)出來,這些模型通常需要大量的計算芦岂。已經開發(fā)出其他模型來預測實驗測量的性質瘪弓,如pKa,? logD,或結合親和力。深度學習模型的另一個主要用例是設計用于分子模擬的神經網絡電位禽最。許多神經網絡勢已經被開發(fā)出來,它們試圖用神經網絡模擬勢能面來取代經典力場袱饭〈ㄎ蓿基于dl的力場具有速度和dft級精度等優(yōu)點,并且適合于粗粒度模型虑乖。

????除了這些深度學習的具體應用之外懦趋,一些作品還介紹了可以應用于任何分子預測任務的廣義分子模型。一種流行且直觀的表示深度學習分子的方法是以圖的形式疹味。由于這個原因仅叫,許多圖神經網絡(gnn)已經被開發(fā)出來用于化學和分子建模的用例。這對于輸出依賴構象的任務特別有吸引力糙捺,例如神經網絡電位诫咱。

最近,人們對幾何gnn特別感興趣洪灯,它尊重分子的平移坎缭、旋轉和排列等對稱性。在引入這些特殊設計的網絡之前签钩,這些對稱性的不變性必須通過增廣數(shù)據(jù)的訓練來學習掏呼,并試圖進行推廣。這種方法效率非常低铅檩,并且不能保證強制執(zhí)行對稱性憎夷。在一項工作中,作者描述了旋轉等變卷積層昧旨,并展示了它們如何改進分子性質預測另一項工作介紹了一種幾何信息傳遞神經網絡拾给,該神經網絡對平移不變祥得,對旋轉和排列等變。在Satorras等人中鸣戴,作者描述了一個等價圖神經網絡(EGNN)啃沪,它對所有E(n)變換都是等價的。

分子對接中的深度學習窄锅。評分功能创千。深度學習在分子對接中的應用可以分為兩種主要的方法:重新排序和生成。在重新排序方法中入偷,首先使用傳統(tǒng)的對接方法生成一個對接姿態(tài)集合追驴。然后,使用深度學習模型代替?zhèn)鹘y(tǒng)的評分函數(shù)疏之,以獲得更好的前位排序殿雪。一些架構已經應用于這種方法,包括卷積神經網絡和圖神經網絡锋爪。這種方法與前一節(jié)相關丙曙,因為許多用于預測結合親和力的神經網絡電位和模型可以獨立于搜索算法來重新排序停靠姿勢其骄。在McNutt等人中亏镰,他們開發(fā)了一種方法,使用他們的CNN評分函數(shù)進行蒙特卡羅采樣拯爽,以便對新的配體姿勢進行采樣索抓。雖然這些方法已被證明在提高姿勢排名方面很有效,但它們并沒有解決采樣問題毯炮。

生成模型逼肯。在生成方法中,采用深度學習模型直接生成對接姿態(tài)桃煎。這種方法的研究較少篮幢,去年只開發(fā)了幾種方法。在Ganea和Huang等人中备禀,作者提出了SE(3)-等變剛性蛋白質-蛋白質對接模型洲拇,命名為Equidock。在另一項工作中曲尸,同一個研究小組在Equidock方法的基礎上開發(fā)了Equibind赋续,這是一種蛋白質與配體對接的模型然而,在這項工作中另患,他們解決了盲對接問題(即將配體與完整的蛋白質結構對接而不指定結合位點)這使得對接任務相當具有挑戰(zhàn)性纽乱,因此,他們報告的性能低于典型的對接研究鑒于大多數(shù)靶標都有已知的昆箕、明確的結合位點鸦列,將結合位點識別和對接任務分開可能是更好的選擇租冠。兩個小組通過引入他們自己的盲對接深度學習模型來繼續(xù)這條發(fā)展路線。在TANKBind中薯嗤,他們使用了一個三角感知網絡來預測配體的姿態(tài)顽爹,而在DiffDock中,他們使用了基于擴散的模型來從噪聲分布中迭代地生成姿態(tài)骆姐。

本文提出的模型屬于生成方法镜粤,試圖完全取代搜索算法。

材料與方法

圖1顯示EDM-Dock過程的概述玻褪。蛋白質和配體結構被編碼成圖形肉渴,并提供給深度學習模型,該模型預測所有蛋白質-配體的距離带射。然后同规,蛋白質-配體距離矩陣可以用來完成完整的EDM(包括蛋白質-蛋白質和配體-配體的距離),這反過來又可以用來重建主要的蛋白質-配體構型窟社。

模型券勺。在本節(jié)中,我們提出了用于預測蛋白質-配體距離矩陣的深度學習模型灿里。結合位點的蛋白殘基是粗粒的朱灿,以Cα原子為代表。配體由所有原子表示钠四。S2描述了蛋白質殘基和配體原子的初始特征。該模型由兩個獨立作用于蛋白質和配體表征的嵌入網絡和一個預測每對蛋白質-配體嵌入距離的后續(xù)網絡組成跪楞。由于網絡和輸入特征可以為每個實體獨立定制缀去,因此將蛋白質圖和配體圖的處理分開是有利的。例如甸祭,由于我們的方法中使用的蛋白質結構的粗粒度表示缕碎,蛋白質特征將表示整個殘基,而配體特征表示單個原子池户。這種分離還可以使用預訓練的網絡和嵌入咏雌。例如,預訓練的AlphaFold和ESM嵌入已經證明可以提高許多蛋白質結構預測任務的準確性校焦。在這項工作中赊抖,EGNN用于蛋白質和配體嵌入網絡,并使用自定義多層感知器(MLP)用于距離預測網絡.

等變圖神經網絡寨典。在本節(jié)中氛雪,我們將定義EGNN作為蛋白質和配體嵌入網絡。這些模型改編自Satorras等人的原創(chuàng)作品29耸成。給定一個帶有節(jié)點和邊的圖报亩,EGNN可以定義為一組方程浴鸿,這些方程等價地更新連續(xù)層中的節(jié)點特征。每個節(jié)點vi與一組節(jié)點特征相關聯(lián)弦追,其中f為特征的個數(shù)岳链,以及一組n維坐標(這里n = 3)。每個EGNN層l都具有這些節(jié)點特征hl (with)劲件。

總結

在這項研究中掸哑,我們提出了EDM-Dock的發(fā)展,這是一種新的對接方法寇仓,能夠為多種蛋白質和結合蛋白質靈活性的配體結構產生高質量的姿勢举户。該模型使用兩個獨立的等變圖神經網絡來預測蛋白質與配體的結合位點,并結合多層感知器網絡來預測配體原子與結合位點殘基之間的距離矩陣遍烦。使用距離幾何優(yōu)化和可選的細化步驟俭嘁,利用距離矩陣重建主要配體位姿。在兩個獨立的測試集上對該方法進行了嚴格的評估服猪,包括重新對接和交叉對接任務供填。并選擇GeauxDock再對接和GeauxDock與AutoDock Vina交叉對接兩個獨立的對接方案進行比較。EDM-Dock在RMSD和成功率方面都表現(xiàn)出優(yōu)異的表現(xiàn)罢猪。此外近她,我們的方法不需要耗時的搜索算法來枚舉許多可能的停靠姿勢或側鏈構象膳帕,從而顯著增加了速度和效率粘捎。綜上所述,這些因素表明深度學習模型能夠靈活有效地對接蛋白質-配體危彩。這種方法是一種強大的新范式攒磨,將被進一步研究并用于加速現(xiàn)代基于結構的藥物發(fā)現(xiàn)。


代碼可在https://github.com/MatthewMasters/ EDM-Dock上獲得汤徽。我們的訓練數(shù)據(jù)集在10.5281/ zenodo.7233024娩缰。這兩個獨立的測試集可在http://www.pdbbind.org.cn/casf.php和http://disco.csb上獲得。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末谒府,一起剝皮案震驚了整個濱河市拼坎,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌完疫,老刑警劉巖泰鸡,帶你破解...
    沈念sama閱讀 219,539評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異趋惨,居然都是意外死亡鸟顺,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,594評論 3 396
  • 文/潘曉璐 我一進店門讯嫂,熙熙樓的掌柜王于貴愁眉苦臉地迎上來蹦锋,“玉大人,你說我怎么就攤上這事欧芽∏樱” “怎么了?”我有些...
    開封第一講書人閱讀 165,871評論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長龙誊。 經常有香客問我抚垃,道長趟大,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,963評論 1 295
  • 正文 為了忘掉前任逊朽,我火速辦了婚禮罕伯,結果婚禮上叽讳,老公的妹妹穿的比我還像新娘追他。我一直安慰自己,他們只是感情好湿酸,可當我...
    茶點故事閱讀 67,984評論 6 393
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著灭美,像睡著了一般。 火紅的嫁衣襯著肌膚如雪昂利。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,763評論 1 307
  • 那天蜂奸,我揣著相機與錄音犁苏,去河邊找鬼。 笑死扩所,一個胖子當著我的面吹牛围详,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 40,468評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼助赞,長吁一口氣:“原來是場噩夢啊……” “哼买羞!你這毒婦竟也來了?” 一聲冷哼從身側響起雹食,我...
    開封第一講書人閱讀 39,357評論 0 276
  • 序言:老撾萬榮一對情侶失蹤畜普,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后群叶,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體吃挑,經...
    沈念sama閱讀 45,850評論 1 317
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 38,002評論 3 338
  • 正文 我和宋清朗相戀三年街立,在試婚紗的時候發(fā)現(xiàn)自己被綠了舶衬。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,144評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡赎离,死狀恐怖逛犹,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情蟹瘾,我是刑警寧澤圾浅,帶...
    沈念sama閱讀 35,823評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站憾朴,受9級特大地震影響狸捕,放射性物質發(fā)生泄漏。R本人自食惡果不足惜众雷,卻給世界環(huán)境...
    茶點故事閱讀 41,483評論 3 331
  • 文/蒙蒙 一灸拍、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧砾省,春花似錦鸡岗、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,026評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至狠鸳,卻和暖如春揣苏,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背件舵。 一陣腳步聲響...
    開封第一講書人閱讀 33,150評論 1 272
  • 我被黑心中介騙來泰國打工卸察, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人铅祸。 一個月前我還...
    沈念sama閱讀 48,415評論 3 373
  • 正文 我出身青樓坑质,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子涡扼,可洞房花燭夜當晚...
    茶點故事閱讀 45,092評論 2 355

推薦閱讀更多精彩內容