題目:具有隱式側鏈靈活性的高效蛋白質-配體對接的深度學習模型
計算方法用于藥物篩選? 計算蛋白質和受體的距離計算
EDM-Dock
摘要:蛋白質-配體對接是基于結構的藥物設計的重要工具医寿,其應用范圍從虛擬高通量篩選到導聯(lián)優(yōu)化的姿態(tài)預測。大多數(shù)用于姿態(tài)預測的對接程序都是針對現(xiàn)有共結晶蛋白質結構的對接進行優(yōu)化的,而忽略了蛋白質的靈活性捣郊。然而,在現(xiàn)實世界的藥物設計應用中,蛋白質的靈活性是配體結合過程的基本特征。柔性蛋白-配體對接仍然是計算藥物設計的重大挑戰(zhàn)嗦嗡。為了應對這一挑戰(zhàn),我們提出了一種基于分子間歐幾里得距離矩陣(EDM)預測的柔性蛋白質-配體對接深度學習(DL)模型饭玲,使迭代搜索算法的典型使用過時侥祭。該模型在蛋白質-配體復合物的大規(guī)模數(shù)據(jù)集上進行訓練,并在獨立的測試集上進行評估茄厘。我們的模型為多種蛋白質和配體結構生成高質量的姿勢矮冬,并且優(yōu)于可比的對接方法。
1.研究背景
????藥物發(fā)現(xiàn)的主要范例是確定作用于疾病靶標的分子次哈√ナ穑基因組學和結構生物學的重大進展已經確定了數(shù)千種尚未具有臨床有效調節(jié)劑的潛在新靶點∫ぶ停考慮到可能的治療方法的化學空間約為1060琼牧,使用標準的實驗室方法尋找候選藥物可能是困難和昂貴的因此恢筝,計算方法已經常用于藥物發(fā)現(xiàn)篩選和優(yōu)化命中。
????分子對接是藥物設計中最常用的計算方法之一巨坊,用于預測藥物靶復合物的結構撬槽。這一預測能夠表征蛋白質-配體結合,如關鍵相互作用的識別抱究。由于這些原因恢氯,對接被廣泛應用于早期藥物發(fā)現(xiàn),特別是基于合理結構的藥物設計鼓寺。此外,對接可以應用于虛擬篩選協(xié)議勋磕,其中篩選大量化合物以尋找潛在的靶標結合妈候。對接也可以應用于逆(或反向)對接,其中一種化合物針對大量潛在靶標進行篩選挂滓。這項技術在藥物再利用苦银、多藥理學和副作用預測方面特別有用。
自20世紀80年代初開始赶站,廣泛的分子對接項目已經發(fā)展起來幔虏。這些程序依賴于各種各樣的理論和算法,但大多數(shù)都具有相同的基本結構:首先贝椿,搜索算法的任務是采樣結合位點內配體的潛在構型想括,通常稱為配體姿態(tài)。接下來烙博,評分函數(shù)評估每個姿勢瑟蜈,并嘗試將最可能(能量最低)的姿勢排在最前面。在搜索算法的流行選擇中渣窜,隨機方法如蒙特卡羅或遺傳算法和系統(tǒng)搜索方法通常與碎片相結合還有幾種評分函數(shù)選項铺根,包括經典力場、經驗乔宿、基于知識和神經網絡(NN)電位位迂。大多數(shù)對接程序都遵循這個方案,并且通常針對特定的用例進行定制(例如详瑞,蛋白質-配體對接掂林,蛋白質-蛋白質對接等)。
盡管分子對接方法的適用性和多樣性廣泛蛤虐,但仍存在一些挑戰(zhàn)党饮。其中一個挑戰(zhàn)是搜索算法的計算成本。對接程序通常會對數(shù)百萬種可能的配置進行采樣驳庭,試圖找到原始姿勢刑顺。這產生了繁重的計算需求氯窍,并且經常導致適應對接的剛性受體概念。雖然這種方法創(chuàng)造了投滋茫靠的可能性盡管分子對接方法的適用性和多樣性廣泛狼讨,但仍存在一些挑戰(zhàn)。其中一個挑戰(zhàn)是搜索算法的計算成本柒竞。對接程序通常會對數(shù)百萬種可能的配置進行采樣政供,試圖找到原始姿勢。這產生了繁重的計算需求朽基,并且經常導致適應對接的剛性受體概念布隔。雖然這種方法創(chuàng)造了停靠的可能性大的化學文庫稼虎,它忽略了誘導配合效應衅檀,已知在蛋白質-配體識別和結合中起關鍵作用。忽略蛋白質靈活性的簡化搜索算法對對接性能有不利影響霎俩。因此哀军,仍然存在一些蛋白質系統(tǒng),其中最先進的對接算法無法生成任何正確的姿勢打却。
在本文中,我們提出了一種新的對接方法腻暮,稱為EDM-Dock彤守,它試圖解決和克服這些挑戰(zhàn)。我們的方法利用幾何深度學習模型哭靖,該模型能夠預測蛋白質-配體距離矩陣具垫。這些矩陣可以用來重建主要的配體位姿。通過我們的方法试幽,我們能夠完全繞過對搜索算法的需求筝蚕,顯著降低計算成本。通過將蛋白質粗疗涛耄化到殘基水平起宽,去除了側鏈取向的更精細的細節(jié),蛋白質靈活性的挑戰(zhàn)隱含地解決了济榨。這項技術已被用于許多不同的方法來模擬蛋白質的靈活性而不犧牲速度坯沪。EDM-Dock還具有幾個有利的特性,即對蛋白質的平移和旋轉的不變性和概率輸出(即預測距離和方差)擒滑,從而實現(xiàn)更高質量的姿勢腐晾。該模型在大規(guī)模數(shù)據(jù)集上進行訓練叉弦,并使用兩個獨立的測試集評估再對接和交叉對接能力。EDM-Dock為多種蛋白質和配體結構產生接近天然的姿勢藻糖,并且優(yōu)于同類的對接方法淹冰。
相關的工作栈幸。分子建模中的深度學習烤送。隨著跨學科深度學習的興起,許多不同的深度學習模型已被應用于化學和分子建模畔濒。這些模型的一個主要目的是預測通常難以計算的分子/原子性質洋满。例如晶乔,一些預測量子化學性質的DL模型已經被開發(fā)出來,這些模型通常需要大量的計算芦岂。已經開發(fā)出其他模型來預測實驗測量的性質瘪弓,如pKa,? logD,或結合親和力。深度學習模型的另一個主要用例是設計用于分子模擬的神經網絡電位禽最。許多神經網絡勢已經被開發(fā)出來,它們試圖用神經網絡模擬勢能面來取代經典力場袱饭〈ㄎ蓿基于dl的力場具有速度和dft級精度等優(yōu)點,并且適合于粗粒度模型虑乖。
????除了這些深度學習的具體應用之外懦趋,一些作品還介紹了可以應用于任何分子預測任務的廣義分子模型。一種流行且直觀的表示深度學習分子的方法是以圖的形式疹味。由于這個原因仅叫,許多圖神經網絡(gnn)已經被開發(fā)出來用于化學和分子建模的用例。這對于輸出依賴構象的任務特別有吸引力糙捺,例如神經網絡電位诫咱。
最近,人們對幾何gnn特別感興趣洪灯,它尊重分子的平移坎缭、旋轉和排列等對稱性。在引入這些特殊設計的網絡之前签钩,這些對稱性的不變性必須通過增廣數(shù)據(jù)的訓練來學習掏呼,并試圖進行推廣。這種方法效率非常低铅檩,并且不能保證強制執(zhí)行對稱性憎夷。在一項工作中,作者描述了旋轉等變卷積層昧旨,并展示了它們如何改進分子性質預測另一項工作介紹了一種幾何信息傳遞神經網絡拾给,該神經網絡對平移不變祥得,對旋轉和排列等變。在Satorras等人中鸣戴,作者描述了一個等價圖神經網絡(EGNN)啃沪,它對所有E(n)變換都是等價的。
分子對接中的深度學習窄锅。評分功能创千。深度學習在分子對接中的應用可以分為兩種主要的方法:重新排序和生成。在重新排序方法中入偷,首先使用傳統(tǒng)的對接方法生成一個對接姿態(tài)集合追驴。然后,使用深度學習模型代替?zhèn)鹘y(tǒng)的評分函數(shù)疏之,以獲得更好的前位排序殿雪。一些架構已經應用于這種方法,包括卷積神經網絡和圖神經網絡锋爪。這種方法與前一節(jié)相關丙曙,因為許多用于預測結合親和力的神經網絡電位和模型可以獨立于搜索算法來重新排序停靠姿勢其骄。在McNutt等人中亏镰,他們開發(fā)了一種方法,使用他們的CNN評分函數(shù)進行蒙特卡羅采樣拯爽,以便對新的配體姿勢進行采樣索抓。雖然這些方法已被證明在提高姿勢排名方面很有效,但它們并沒有解決采樣問題毯炮。
生成模型逼肯。在生成方法中,采用深度學習模型直接生成對接姿態(tài)桃煎。這種方法的研究較少篮幢,去年只開發(fā)了幾種方法。在Ganea和Huang等人中备禀,作者提出了SE(3)-等變剛性蛋白質-蛋白質對接模型洲拇,命名為Equidock。在另一項工作中曲尸,同一個研究小組在Equidock方法的基礎上開發(fā)了Equibind赋续,這是一種蛋白質與配體對接的模型然而,在這項工作中另患,他們解決了盲對接問題(即將配體與完整的蛋白質結構對接而不指定結合位點)這使得對接任務相當具有挑戰(zhàn)性纽乱,因此,他們報告的性能低于典型的對接研究鑒于大多數(shù)靶標都有已知的昆箕、明確的結合位點鸦列,將結合位點識別和對接任務分開可能是更好的選擇租冠。兩個小組通過引入他們自己的盲對接深度學習模型來繼續(xù)這條發(fā)展路線。在TANKBind中薯嗤,他們使用了一個三角感知網絡來預測配體的姿態(tài)顽爹,而在DiffDock中,他們使用了基于擴散的模型來從噪聲分布中迭代地生成姿態(tài)骆姐。
本文提出的模型屬于生成方法镜粤,試圖完全取代搜索算法。
材料與方法
圖1顯示EDM-Dock過程的概述玻褪。蛋白質和配體結構被編碼成圖形肉渴,并提供給深度學習模型,該模型預測所有蛋白質-配體的距離带射。然后同规,蛋白質-配體距離矩陣可以用來完成完整的EDM(包括蛋白質-蛋白質和配體-配體的距離),這反過來又可以用來重建主要的蛋白質-配體構型窟社。
模型券勺。在本節(jié)中,我們提出了用于預測蛋白質-配體距離矩陣的深度學習模型灿里。結合位點的蛋白殘基是粗粒的朱灿,以Cα原子為代表。配體由所有原子表示钠四。S2描述了蛋白質殘基和配體原子的初始特征。該模型由兩個獨立作用于蛋白質和配體表征的嵌入網絡和一個預測每對蛋白質-配體嵌入距離的后續(xù)網絡組成跪楞。由于網絡和輸入特征可以為每個實體獨立定制缀去,因此將蛋白質圖和配體圖的處理分開是有利的。例如甸祭,由于我們的方法中使用的蛋白質結構的粗粒度表示缕碎,蛋白質特征將表示整個殘基,而配體特征表示單個原子池户。這種分離還可以使用預訓練的網絡和嵌入咏雌。例如,預訓練的AlphaFold和ESM嵌入已經證明可以提高許多蛋白質結構預測任務的準確性校焦。在這項工作中赊抖,EGNN用于蛋白質和配體嵌入網絡,并使用自定義多層感知器(MLP)用于距離預測網絡.
等變圖神經網絡寨典。在本節(jié)中氛雪,我們將定義EGNN作為蛋白質和配體嵌入網絡。這些模型改編自Satorras等人的原創(chuàng)作品29耸成。給定一個帶有節(jié)點和邊的圖报亩,EGNN可以定義為一組方程浴鸿,這些方程等價地更新連續(xù)層中的節(jié)點特征。每個節(jié)點vi與一組節(jié)點特征相關聯(lián)弦追,其中f為特征的個數(shù)岳链,以及一組n維坐標(這里n = 3)。每個EGNN層l都具有這些節(jié)點特征hl (with)劲件。
總結
在這項研究中掸哑,我們提出了EDM-Dock的發(fā)展,這是一種新的對接方法寇仓,能夠為多種蛋白質和結合蛋白質靈活性的配體結構產生高質量的姿勢举户。該模型使用兩個獨立的等變圖神經網絡來預測蛋白質與配體的結合位點,并結合多層感知器網絡來預測配體原子與結合位點殘基之間的距離矩陣遍烦。使用距離幾何優(yōu)化和可選的細化步驟俭嘁,利用距離矩陣重建主要配體位姿。在兩個獨立的測試集上對該方法進行了嚴格的評估服猪,包括重新對接和交叉對接任務供填。并選擇GeauxDock再對接和GeauxDock與AutoDock Vina交叉對接兩個獨立的對接方案進行比較。EDM-Dock在RMSD和成功率方面都表現(xiàn)出優(yōu)異的表現(xiàn)罢猪。此外近她,我們的方法不需要耗時的搜索算法來枚舉許多可能的停靠姿勢或側鏈構象膳帕,從而顯著增加了速度和效率粘捎。綜上所述,這些因素表明深度學習模型能夠靈活有效地對接蛋白質-配體危彩。這種方法是一種強大的新范式攒磨,將被進一步研究并用于加速現(xiàn)代基于結構的藥物發(fā)現(xiàn)。
代碼可在https://github.com/MatthewMasters/ EDM-Dock上獲得汤徽。我們的訓練數(shù)據(jù)集在10.5281/ zenodo.7233024娩缰。這兩個獨立的測試集可在http://www.pdbbind.org.cn/casf.php和http://disco.csb上獲得。