導(dǎo)讀
模板對(duì)接法生成的激酶-配體復(fù)合物數(shù)據(jù)能顯著提升基于結(jié)構(gòu)的 E(3)-不變圖神經(jīng)網(wǎng)絡(luò)(GNN)在預(yù)測(cè)結(jié)合親和力方面的精度。
在現(xiàn)代藥物發(fā)現(xiàn)流程中漩氨,機(jī)器學(xué)習(xí)模型廣泛用于探索和評(píng)估大規(guī)耐涮化學(xué)空間。盡管模型含有三維結(jié)構(gòu)信息被視為有益,但結(jié)構(gòu)模型的發(fā)展受限于蛋白質(zhì)-配體復(fù)合物結(jié)構(gòu)的可獲取性堰怨。
在激酶藥物發(fā)現(xiàn)的案例中,研究者通過(guò)模板對(duì)接方法蛇摸,針對(duì) ChEMBL 測(cè)定數(shù)據(jù)中的激酶化合物子集备图,生成了激酶-配體復(fù)合物數(shù)據(jù)。
為評(píng)估所生成復(fù)合物數(shù)據(jù)的效益赶袄,研究者使用這些數(shù)據(jù)訓(xùn)練了一個(gè)基于結(jié)構(gòu)的 E(3)-不變圖神經(jīng)網(wǎng)絡(luò)(GNN)诬烹。評(píng)估結(jié)果顯示,相較于僅考慮配體或藥物靶標(biāo)的相互作用模型弃鸦,考慮合成結(jié)合構(gòu)象的模型能夠以顯著更高的精度預(yù)測(cè)結(jié)合親和力绞吁。
結(jié)構(gòu)數(shù)據(jù)有限的挑戰(zhàn)
在藥物發(fā)現(xiàn)中應(yīng)用 ML 面臨的主要障礙是缺乏包括靶標(biāo)蛋白和結(jié)合配體的實(shí)驗(yàn)解析結(jié)構(gòu)。盡管實(shí)驗(yàn)數(shù)據(jù)較為豐富唬格,但將其用于結(jié)構(gòu)模型并非易事家破。
Kinodata-3D
模板對(duì)接方法
由于標(biāo)準(zhǔn)分子對(duì)接算法的局限性,本方法使用現(xiàn)有 X 射線復(fù)合物來(lái)指導(dǎo)對(duì)接過(guò)程购岗,這種方法被稱為"模板對(duì)接"汰聋。該過(guò)程包括:
- 從 kinodata 中選擇已知活性的化合物。
- 在 PDB 數(shù)據(jù)庫(kù)中找到結(jié)構(gòu)相似的配體喊积。
- 使用數(shù)據(jù)庫(kù)中的激酶-配體復(fù)合物作為對(duì)接模板烹困。
如圖 1 所示,該過(guò)程解決了實(shí)現(xiàn)最佳配體定位和排名準(zhǔn)確性的挑戰(zhàn)乾吻。
圖 1: 結(jié)構(gòu)數(shù)據(jù)生成的流程髓梅。
- (a) 從 Kinodata 數(shù)據(jù)庫(kù)中提取配體拟蜻,用于篩選出含有類似共晶結(jié)構(gòu)配體的 PDB 數(shù)據(jù)庫(kù)結(jié)構(gòu)。
- (b) 這些結(jié)構(gòu)被用作 Posit 分子對(duì)接算法的模板枯饿。
- (c) 利用 RMSD 預(yù)測(cè)模型對(duì)生成的構(gòu)象進(jìn)行篩選酝锅。
實(shí)驗(yàn)數(shù)據(jù)作為基礎(chǔ)
Kinodata 流程包括匯編蛋白激酶的全面列表,獲取生物活性測(cè)量值奢方,并篩選數(shù)據(jù)以創(chuàng)建實(shí)驗(yàn)激酶-配體測(cè)定對(duì)的數(shù)據(jù)集搔扁。
尋找合適的模板
處理每個(gè)激酶-配體對(duì)以找到合適的共晶模板復(fù)合物。這涉及使用 Tanimoto 相似性搜索蟋字,并利用 KLIFS 數(shù)據(jù)庫(kù)獲取 ATP 結(jié)合口袋的詳細(xì)結(jié)構(gòu)信息稿蹲。
對(duì)接過(guò)程
使用 OpenEye 的 OEDocking 工具,目標(biāo)是使配體構(gòu)象與已知的結(jié)合配體密切對(duì)齊鹊奖,考慮諸如扭轉(zhuǎn)角應(yīng)力等因素场绿。
對(duì)接構(gòu)象的質(zhì)量評(píng)估
通過(guò) RMSD 模型評(píng)估對(duì)接構(gòu)象的質(zhì)量。一個(gè)在激酶交叉對(duì)接基準(zhǔn)數(shù)據(jù)上訓(xùn)練的神經(jīng)網(wǎng)絡(luò)有助于對(duì)結(jié)果進(jìn)行分類嫉入,為對(duì)接質(zhì)量提供替代指標(biāo)焰盗。
高級(jí)親和力預(yù)測(cè)模型
E(3)不變信息傳遞模型
這里的主要目標(biāo)是開發(fā)一個(gè)圖神經(jīng)網(wǎng)絡(luò)模型(GNN),使用激酶-配體復(fù)合物作為輸入咒林。這個(gè)模型獨(dú)特之處在于其對(duì)復(fù)合物的旋轉(zhuǎn)和變換保持不變熬拒。
復(fù)雜圖表和特征化
激酶-配體復(fù)合物被建模為異質(zhì)幾何圖,節(jié)點(diǎn)代表原子垫竞,邊代表共價(jià)鍵和空間接近性澎粟。這些圖的初始特征來(lái)自原子序數(shù)、正電荷和氫原子的數(shù)量欢瞪。
E(3)不變信息傳遞
這涉及使用稀疏多頭注意力來(lái)計(jì)算和利用復(fù)合圖中的注意力權(quán)重活烙。由于使用稀疏張量,這種技術(shù)在時(shí)間和內(nèi)存方面效率高遣鼓。
基準(zhǔn)模型
為了評(píng)估使用基于對(duì)接的結(jié)構(gòu)信息的有效性啸盏,實(shí)施了兩種基準(zhǔn)模型:一種源自 CGNN-3D 的消融模型和一種藥物靶點(diǎn)相互作用(DTI)模型。
數(shù)據(jù)分割和交叉驗(yàn)證策略
數(shù)據(jù)分割的重要性
數(shù)據(jù)分割為訓(xùn)練和測(cè)試示例的方式對(duì)于估計(jì)數(shù)據(jù)驅(qū)動(dòng)模型的泛化性能至關(guān)重要骑祟。
分割方案
采用三種分割方案:隨機(jī)分割回懦、配體骨架分割和冷靶標(biāo)分割,每種都有其獨(dú)特的數(shù)據(jù)劃分方式次企。這確保了在不同場(chǎng)景下的全面評(píng)估怯晕。
主要結(jié)果
分析顯示,在某些特定情況下缸棵,誘導(dǎo)契合對(duì)接存在問(wèn)題舟茶,但在大多數(shù)激酶-配體組合中表現(xiàn)良好。
- ?? 數(shù)據(jù)集分析:誘導(dǎo)契合對(duì)接管道的挑戰(zhàn)
- ?? 結(jié)合親和力預(yù)測(cè)的結(jié)果與方法
首先,尋找可用的共晶 PDB 結(jié)構(gòu)可能遇到困難吧凉,因?yàn)榧s有一半的激酶沒(méi)有可用的晶體結(jié)構(gòu)隧出。即使某些激酶有多個(gè)結(jié)構(gòu),它們可能未與配體結(jié)合客燕。
此外,與 KLIFS 數(shù)據(jù)庫(kù)的匹配在 22264 個(gè)案例中失敗狰贯。最后也搓,Posit 模板對(duì)接在超時(shí)和內(nèi)存限制方面也存在問(wèn)題。最終得到了 118577 個(gè)標(biāo)記的激酶-配體對(duì)涵紊。
在結(jié)合親和力預(yù)測(cè)方面傍妒,每個(gè)模型都在預(yù)測(cè) RMSD 分組的三個(gè)數(shù)據(jù)子集上進(jìn)行了訓(xùn)練和評(píng)估,旨在最小化預(yù)測(cè)和真實(shí)活性之間的平均平方誤差摸柄。測(cè)試結(jié)果表明颤练,基于結(jié)構(gòu)的 CGNN-3D 模型在多數(shù)情況下優(yōu)于基線模型。通過(guò)比較和參數(shù)化的特定選擇驱负,CGNN-3D 在預(yù)測(cè)結(jié)合親和力方面顯示出其優(yōu)勢(shì)嗦玖,特別是在結(jié)構(gòu)信息可用的情況下。但在口袋分割設(shè)置中跃脊,所有方法的性能都相對(duì)較差宇挫,其中 DTI 基線模型無(wú)論 RMSD 截止值如何,都傾向于表現(xiàn)更好酪术。
親和力預(yù)測(cè)模型
考慮兩種非結(jié)構(gòu)化基準(zhǔn)器瘪,基于以下要素進(jìn)行預(yù)測(cè):
- (a) 配體分子圖與蛋白質(zhì)口袋殘基序列配對(duì),
- (b) 去除結(jié)構(gòu)信息后的復(fù)合圖(見(jiàn) 2.4 節(jié))绘雁。
- (c) 主要的圖形神經(jīng)網(wǎng)絡(luò)利用模板分子對(duì)接生成的結(jié)構(gòu)信息橡疼,形成復(fù)合圖(見(jiàn) 2.3 節(jié))。
E(3)-不變圖形神經(jīng)網(wǎng)絡(luò)示意圖
圖 3: 結(jié)構(gòu)性親和力預(yù)測(cè)的 E(3)-不變圖形神經(jīng)網(wǎng)絡(luò)示意圖庐舟,分為四個(gè)步驟欣除。
- (a) 數(shù)據(jù)建模(見(jiàn) 2.3 節(jié),復(fù)合圖)挪略,
- (b) 導(dǎo)出初始表征(見(jiàn) 2.3 節(jié)耻涛,特征化),
- (c) E(3)-不變信息傳遞(見(jiàn) 2.3 節(jié))瘟檩,
- (d) 進(jìn)行預(yù)測(cè)(見(jiàn) 2.3 節(jié)抹缕,讀出)和模型訓(xùn)練(見(jiàn)第 6 節(jié))。
分子的 Murcko 骨架劃分
圖 4: 利用 Murcko 骨架對(duì)一組分子進(jìn)行劃分的示意圖墨辛。
- 上面這一行卓研,展示某一組中的兩種分子示例;
- 下行,顯示這些分子的通用 Murcko 骨架奏赘。
對(duì)接流程中構(gòu)象生成的損失
圖 5: 展示在分子對(duì)接流程中構(gòu)象生成過(guò)程中的結(jié)構(gòu)損失寥闪。
從最初的 201,142 對(duì)數(shù)據(jù)中,作者成功生成了一組包含 118,586 個(gè)復(fù)合體的 Kinodata-3D 數(shù)據(jù)集磨淌。
基于活性條件的 Kinodata-3D 分布
圖表 7:激酶樹及其覆蓋率
該圖展示了 kinodata-3D 數(shù)據(jù)集中各激酶活性的分布情況疲憋。圓圈的大小反映了在不同 RMSD 值下(6? 紅色,4? 黃色梁只,2? 綠色)激酶的活性數(shù)量缚柳。
圖表來(lái)源:Cell Signaling Technology, Inc. (www.cellsignal.com)。
圖表 8:預(yù)測(cè)分子對(duì)接 RMSD 與實(shí)際值的比較
本圖表展示了隨機(jī)測(cè)試集上預(yù)測(cè)的分子對(duì)接 RMSD 值與實(shí)際值(以埃為單位)的比較搪锣,同時(shí)展示了不同特征值(Chemgauss4 評(píng)分秋忙,位置概率,指紋相似度)與實(shí)際 RMSD 的關(guān)系构舟。
該模型由 Schaller 等研究者在重新對(duì)接數(shù)據(jù)上訓(xùn)練和測(cè)試灰追,預(yù)測(cè) RMSD 與實(shí)際 RMSD 之間的皮爾遜相關(guān)系數(shù)約為 0.70。圖中所示為第一個(gè)模型在 80/20 分割的測(cè)試集上的性能表現(xiàn)狗超。
圖表 9:基于預(yù)測(cè)分子對(duì)接 RMSD 的 kinodata-3D 分布
圖表 10:不同分割類型和基于 RMSD 的數(shù)據(jù)子集的模型性能
此圖展示了不同模型在各種數(shù)據(jù)分割類型和基于 RMSD 的數(shù)據(jù)子集上的測(cè)試性能弹澎。
所展示的是測(cè)試集的平均絕對(duì)誤差和預(yù)測(cè)活性與真實(shí)活性之間的皮爾遜相關(guān)性。圖中每個(gè)點(diǎn)代表一個(gè)測(cè)試過(guò)的模型努咐。
圖表 11:成對(duì)比較測(cè)試的 p 值
該圖展示了通過(guò)成對(duì)比較測(cè)試得出的模型 A 和 B 的平均 MAE 是否屬于同一分布的 p 值裁奇。
測(cè)試采用單向假設(shè),檢驗(yàn)?zāi)P?A 的 MAE 是否小于模型 B 的 MAE麦撵,即判斷模型 A 在這個(gè)特定指標(biāo)上是否優(yōu)于模型 B刽肠。
結(jié)論
本研究通過(guò)結(jié)構(gòu)信息增強(qiáng)的深度學(xué)習(xí)模型,提升藥物設(shè)計(jì)中結(jié)合親和力的預(yù)測(cè)準(zhǔn)確度免胃。
- ?? 數(shù)據(jù)量擴(kuò)增:運(yùn)用復(fù)雜的數(shù)據(jù)生成方法音五,大幅擴(kuò)增訓(xùn)練數(shù)據(jù)量。
- ?? 結(jié)構(gòu)數(shù)據(jù)的優(yōu)勢(shì):展示結(jié)構(gòu)數(shù)據(jù)如何優(yōu)于無(wú)結(jié)構(gòu)基線模型羔沙,從而提高模型性能躺涝。
研究者基于結(jié)構(gòu)激酶數(shù)據(jù)庫(kù) KLIFS 和 ChEMBL 的公開數(shù)據(jù),構(gòu)建了一個(gè)大型數(shù)據(jù)集 kinodata-3D(包含約 10 萬(wàn)個(gè)標(biāo)記的扼雏、分子對(duì)接的配體-激酶復(fù)合物)坚嗜。作者對(duì)其效用進(jìn)行了嚴(yán)格評(píng)估,訓(xùn)練了基于結(jié)構(gòu)的深度學(xué)習(xí)模型——即 E(3)-不變圖神經(jīng)網(wǎng)絡(luò)(GNN)诗充,以及多個(gè)無(wú)結(jié)構(gòu)基線模型苍蔬,用于結(jié)合親和力預(yù)測(cè)任務(wù)。結(jié)果顯示蝴蜓,利用 kinodata-3D 提供的三維結(jié)構(gòu)數(shù)據(jù)對(duì)結(jié)構(gòu)基 GNN 的訓(xùn)練大有裨益碟绑,這種優(yōu)勢(shì)在配體空間域移動(dòng)時(shí)依然存在俺猿,但對(duì)于域外激酶的預(yù)測(cè)效果不太明確。評(píng)估還強(qiáng)調(diào)了一個(gè)明顯的假設(shè)格仲,即隨著對(duì)接構(gòu)象質(zhì)量的提高押袍,這種優(yōu)勢(shì)會(huì)增大。
未來(lái)的發(fā)展方向包括幾種可能性凯肋,可用以增強(qiáng)數(shù)據(jù)集并擴(kuò)展其應(yīng)用谊惭。一種前景方向是增加每個(gè)蛋白質(zhì)-配體對(duì)的多個(gè)分子對(duì)接構(gòu)象。此外侮东,還可以擴(kuò)展數(shù)據(jù)集圈盔,包括非結(jié)合體及其相應(yīng)的誘餌構(gòu)象,從而顯著增強(qiáng)機(jī)器學(xué)習(xí)模型并減少學(xué)習(xí)錯(cuò)誤模式的風(fēng)險(xiǎn)苗桂。
另一個(gè)方向是將數(shù)據(jù)集應(yīng)用于不同的機(jī)器學(xué)習(xí)模型药磺,特別是生成模型告组。利用分子對(duì)接提供的三維信息煤伟,這些模型可用于配體生成。此外木缝,評(píng)估的親和力預(yù)測(cè)模型為未來(lái)研究開辟了新的可能性便锨,如應(yīng)用可解釋性方法來(lái)理解哪些特定的配體特征有助于高親和力以及潛在的結(jié)合機(jī)制。這樣我碟,可以了解哪些配體部分最有助于高親和力放案,以及利用了哪些結(jié)合機(jī)制。這兩個(gè)方向都為擴(kuò)大候選配體庫(kù)提供了寶貴的機(jī)會(huì)矫俺,為傳統(tǒng)的篩選流程提供了補(bǔ)充方法吱殉,后者主要是對(duì)已知化合物進(jìn)行排名。
為了讓其他研究人員更容易地利用這些洞察力和數(shù)據(jù)厘托,作者將數(shù)據(jù)集和所有代碼免費(fèi)提供友雳。如此,kinodata-3D 數(shù)據(jù)集也可用于訓(xùn)練其他深度學(xué)習(xí)模型铅匹,如正在進(jìn)行的基于口袋信息的激酶特異性生成模型押赊。
kinodata-3D 生成代碼在 Github 上可獲得,包含所有對(duì)接復(fù)合物的原始 kinodata-3D 數(shù)據(jù)集通過(guò) Zenodo 發(fā)布包斑。作者用于預(yù)處理數(shù)據(jù)以適應(yīng)機(jī)器學(xué)習(xí)的代碼以及訓(xùn)練和評(píng)估結(jié)合親和力模型的代碼托管在一個(gè)單獨(dú)的 Github 倉(cāng)庫(kù)中流礁。為了確保可重復(fù)性罗丰,還在 Zenodo 上發(fā)布了 kinodata-3D 的確切預(yù)處理版本和用于訓(xùn)練和評(píng)估模型的數(shù)據(jù)分割神帅。
參考資料:
Backenk?hler, M., Gro?, J., Wolf, V., & Volkamer, A. (2023). Guided docking as a data generation approach facilitates structure-based machine learning on kinases. https://doi.org/10.26434/chemrxiv-2023-prk53 IF: NA NA NA
Data and code:?https://github.com/volkamerlab/kinodata-3D
點(diǎn)擊這里??關(guān)注我,記得標(biāo)星哦~