?
今天給大家介紹一篇 2023 年發(fā)表在 Bioinformatics 上的文章, 標題為:《DeepProSite: structure-aware protein binding site prediction using ESMFold and pretrained language model》。
導讀
DeepProSite 的研究動機在于蛋白質(zhì)功能位點(如蛋白質(zhì)、肽或其他生物組分的結(jié)合位點)的識別對理解相關生物過程和藥物設計至關重要。
然而,現(xiàn)有基于序列的方法由于只考慮序列相鄰的上下文特征且缺乏結(jié)構(gòu)信息辉巡,預測準確性有限。
DeepProSite 使用 ESMFold 生成蛋白質(zhì)結(jié)構(gòu)和預訓練語言模型生成序列表示,通過圖轉(zhuǎn)換器(Graph Transformer)將結(jié)合位點預測轉(zhuǎn)化為圖節(jié)點分類問題抚太。在預測蛋白質(zhì)-蛋白質(zhì)/肽結(jié)合位點方面,DeepProSite 在多數(shù)指標上優(yōu)于現(xiàn)有的序列和結(jié)構(gòu)基方法昔案。
此外尿贫,與競爭對手的結(jié)構(gòu)基預測方法相比,DeepProSite 在預測未結(jié)合結(jié)構(gòu)時保持了性能踏揣。DeepProSite 還擴展到核酸和其他配體的結(jié)合位點預測庆亡,驗證了其泛化能力。
最后捞稿,DeepProSite 的在線服務可在 https://inner.wei-group.net/DeepProSite/ 訪問又谋。
數(shù)據(jù)集
基準數(shù)據(jù)集
- 數(shù)據(jù)來源:該研究依賴于其他研究中使用的基準數(shù)據(jù)集。
- 蛋白質(zhì)數(shù)據(jù):主要數(shù)據(jù)集包含 1279 個肽結(jié)合蛋白質(zhì)(PBPs)娱局,最初源自 SPRINT-Seq(Taherzadeh 等彰亥,2016 年)。
- 數(shù)據(jù)庫應用:數(shù)據(jù)收集自 BioLiP 數(shù)據(jù)庫(Yang 等衰齐,2013a)任斋。
- 納入標準:為保持數(shù)據(jù)完整性,排除了序列相似性超過 30%的蛋白質(zhì)耻涛。
- 表格 1:基準數(shù)據(jù)集的統(tǒng)計信息
定義肽結(jié)合殘基
- 標準:如果殘基中至少有一個原子與肽中的任何原子之間的距離小于 3.5 ?废酷,則定義為肽結(jié)合殘基瘟檩。
數(shù)據(jù)劃分用于模型訓練和測試
- 策略:采用與之前研究相同的數(shù)據(jù)劃分策略,以進行公平比較澈蟆。
- 獨立測試數(shù)據(jù)集:使用 SPRINT-Str(Taherzadeh 等墨辛,2018 年)的 10% 化合物作為測試數(shù)據(jù)集(Pep_Test_125)。
- 訓練數(shù)據(jù)集:其余部分用于訓練(Pep_Train_1154)丰介。
用于蛋白質(zhì)-蛋白質(zhì)結(jié)合位點預測的額外數(shù)據(jù)集
- 所用數(shù)據(jù)集:采用了三個來自過去研究的數(shù)據(jù)集 - Pro_Dset_186背蟆、Pro_Dset_164 和 Pro_Dset_72。
- 數(shù)據(jù)集來源:這些數(shù)據(jù)集是從 PDB Bank 中注釋的復合物和蛋白質(zhì)-蛋白質(zhì)對接基準集版本 3.0 構(gòu)建的哮幢。
蛋白圖構(gòu)建
蛋白圖中的節(jié)點分類
- 方法:將預測任務構(gòu)建為蛋白質(zhì)圖中的節(jié)點分類任務带膀。
- 數(shù)據(jù)提取:提取了每個節(jié)點的序列、結(jié)構(gòu)特征和 3D 坐標橙垢。
預測的蛋白質(zhì)結(jié)構(gòu)
- 使用工具:ESMFold_v1(Lin 等垛叨,2023 年),一種大型語言模型和神經(jīng)網(wǎng)絡柜某。
- 優(yōu)勢:提供快速準確的原子分辨率結(jié)構(gòu)預測,無需多序列比對喂击。
結(jié)構(gòu)屬性
- 特征提取:利用 DSSP 提取了每個殘基的三種類型的結(jié)構(gòu)特征剂癌。
- 特征類型:相對溶劑可及性、一維次級結(jié)構(gòu)輪廓以及蛋白質(zhì)主鏈扭轉(zhuǎn)角的正弦/余弦值翰绊。
語言模型嵌入
- 采用模型:ProtT5-XL-U50佩谷,基于 Transformer 模型的自監(jiān)督自編碼器。
- 訓練和微調(diào):該模型在 BFD 上進行預訓練监嗜,并在 UniRef50 上進行微調(diào)谐檀。
- 標準化:序列嵌入被標準化為 0 到 1 之間的分數(shù)。
DeepProSite 框架
增強蛋白質(zhì)結(jié)合位點預測
- 目標:通過整合蛋白質(zhì)空間信息裁奇,提高蛋白質(zhì)結(jié)合位點預測的準確性桐猬。
- 輸入:將蛋白質(zhì)序列輸入 ESMFold 和 ProtT5,生成預測的蛋白質(zhì)結(jié)構(gòu)和序列嵌入刽肠。
- 圖構(gòu)建:構(gòu)建了以節(jié)點位置和邊特征為重點的 k 近鄰圖囤采。
幾何邊緣特征
- 創(chuàng)新點:整合相對空間和位置編碼以表示幾何邊緣特征堪旧。
- 實現(xiàn):特征編碼包括兩個相鄰節(jié)點之間的距離蛙奖、方向和取向第煮。
圖 Transformer
- 關鍵組成:多頭自注意和逐位前饋網(wǎng)絡。
- 整合蛋白質(zhì)結(jié)構(gòu)信息:利用 k 最近鄰掩碼放仗,將注意力分數(shù)聚焦于空間上相關的氨基酸。
多層感知機
- 功能:使用圖 Transformer 的輸出估計殘基結(jié)合概率撬碟。
實施細節(jié)
模型訓練和評估
- 方法論:使用 5 折交叉驗證來訓練和評估模型诞挨。
- 模型規(guī)格:四層圖 Transformer 模型莉撇,具有特定的注意力頭、隱藏單元和丟棄率惶傻。
- 優(yōu)化器:Adam 優(yōu)化器棍郎,具有特定的優(yōu)化參數(shù)。
評估指標
應對數(shù)據(jù)不平衡
- 使用的指標:準確度银室、精確度涂佃、召回率、特異性蜈敢、F1 分數(shù)辜荠、馬修斯相關系數(shù)、AUC 和 AUPRC抓狭。
- 閾值確定:通過最大化每個模型的 MCC 來識別最佳閾值伯病。
- 重點關注 AUPRC:由于其在不平衡數(shù)據(jù)集中的敏感性和全面分析。
深入分析 DeepProSite 的性能
DeepProSite 在預測蛋白質(zhì)/肽結(jié)合位點方面表現(xiàn)卓越午笛。
- ?? 模型性能: DeepProSite 在多個數(shù)據(jù)集上顯示出一致的高性能苗桂。
- ?? 方法對比: 與其他方法相比煤伟,DeepProSite 在蛋白質(zhì)和肽數(shù)據(jù)集上均表現(xiàn)更好持偏。
- ?? 特征重要性: 結(jié)合不同的特征集合可以顯著提高模型的準確性。
- ?? 預測結(jié)構(gòu)質(zhì)量: 預測的蛋白質(zhì)結(jié)構(gòu)質(zhì)量對結(jié)合位點預測的準確性至關重要酌畜。
作者指出桥胞,DeepProSite 在多個測試集中展現(xiàn)了其強大的性能考婴,特別是在 Pep_Test_125 和 Pep_Test_639 上缎罢,其 MCC 和 AUC 的表現(xiàn)均優(yōu)于其他方法策精。這些數(shù)據(jù)集的綜合評估表明,DeepProSite 不僅在識別肽結(jié)合位點方面表現(xiàn)出色丸卷,還在處理蛋白質(zhì)結(jié)構(gòu)方面顯示了其優(yōu)越性谜嫉。
研究者通過比較不同特征組合的影響沐兰,揭示了 ProtT5 和 DSSP 的結(jié)合對于提高模型性能的重要性僧鲁。
此外寞秃,ESMFold 預測的蛋白質(zhì)結(jié)構(gòu)質(zhì)量對 DeepProSite 的性能有顯著影響偶惠,這一點通過比較預測結(jié)構(gòu)和天然結(jié)構(gòu)之間的全局距離測試(GDT)得到了證實绑改。
圖 1:DeepProSite 方法的整體流程
首先厘线,蛋白質(zhì)序列經(jīng)過 ESMFold 和 ProtT5 預訓練語言模型的處理出革,以獲取預測結(jié)構(gòu)和序列嵌入骂束。
在預測結(jié)構(gòu)基礎上旨枯,構(gòu)建了 k 近鄰圖混驰,圖中每個節(jié)點的位置由 α-碳原子坐標決定。
節(jié)點特征綜合了語言模型嵌入和 DSSP 的數(shù)據(jù)先紫,而多種邊特征包含了鄰近節(jié)點間的距離筹煮、方向和定向關系败潦。
通過應用圖轉(zhuǎn)換模型劫扒,可以匯總臨近節(jié)點和邊的特征沟饥,并更新目標節(jié)點的表示贤旷,從而捕捉到蛋白質(zhì)與肽的結(jié)合模式砾脑。
圖 2:幾何和序列信息對模型性能的影響
圖展示了 DeepProSite 和 Transformer 在不同數(shù)據(jù)集上的性能對比盅藻,包括 Pep_Train_1154氏淑、Pep_Test_125(圖 a 和 b)假残、Pep_Train_640守问、Pep_Test_639(圖 c 和 d)以及 Pro_Train_335耗帕、Pro_Test_60仿便、Pro_Test_315(圖 e 和 f)荒勇。
使用 ROC 曲線和精確度-召回曲線來展示這些性能沽翔。特別在 Pep_Test_125(圖 g)和 Pro_Test_315(圖 h)上仅偎,展示了兩種方法在具有不同非局部接觸的氨基酸上的 Matthews 相關系數(shù)(MCC)對比橘沥。
圖 3:DeepProSite 與基于結(jié)構(gòu)的方法的性能比較
此圖比較了 DeepProSite 與基于結(jié)構(gòu)的方法在 31 種結(jié)合和非結(jié)合蛋白質(zhì)上的性能座咆。
圖 4:ESMFold 預測質(zhì)量與 DeepProSite 性能的關聯(lián)
在 Pep_Test_125 數(shù)據(jù)集上,使用全局距離測試(GDT)衡量 ESMFold 預測質(zhì)量斤蔓,使用面積下精確度-召回曲線(AUPRC)衡量 DeepProSite 性能弦牡。
每個蛋白質(zhì)對應的 GDT 和 AUPRC 值用藍色散點表示,紅線顯示了將蛋白質(zhì)按 GDT 排序并劃分為六個區(qū)間后漂羊,每個區(qū)間的平均 GDT 和 AUPRC驾锰。
圖 5:DeepProSite 與其他方法預測的結(jié)合殘基的可視化對比
此圖展示了 DeepProSite 與其他方法(包括 Transformer、PepNN-Struct走越、PepBCL椭豫、PepBind、GraphPPIS旨指、SPPIDER赏酥、ProNA2020)在 Pep_Test_125 的第一個蛋白質(zhì)(ID: 4L3O, 鏈 A)和 Pro_Test_315 的第二個蛋白質(zhì)(ID: 4BVX, 鏈 A)上預測結(jié)合殘基的結(jié)果。
正確預測(TP)谆构、假陽性(FP)和假陰性(FN)分別用綠色裸扶、紅色和黃色標示。
圖 6:DeepProSite 網(wǎng)絡服務的用戶界面
在圖 a 和 b 中呵晨,用戶可以輸入 FASTA 格式的蛋白質(zhì)序列并選擇首選模型。圖 c 顯示了對于 PDB 中可用的蛋白質(zhì)胯舷,用戶可以對預測結(jié)果進行可視化艺挪,并且預測結(jié)果也可以下載為文本文件。
(c) 對于 PDB 中可用的蛋白質(zhì)眉反,可以對預測結(jié)果進行可視化梳杏。預測結(jié)果也可以下載為文本文件塑悼。
表格 2:Pep_Train_1154 和 Pep_Test_125 數(shù)據(jù)集上預測 PBPs 的特征性能比較
表格 3:DeepProSite 與最新方法在 Pep_Test_125 數(shù)據(jù)集上的性能比較
表格 4:DeepProSite 與最新方法在 Pep_Test_639 數(shù)據(jù)集上的性能比較
表格 5:DeepProSite 與最新方法在 Pro_Test_60 數(shù)據(jù)集上的性能比較
需要注意的是促绵,所有其他方法的結(jié)果都來自先前的研究尖坤,如 GraphPPIS 和 RGN,這些研究使用了相同的訓練和測試數(shù)據(jù)集寞忿。
表格 6:DeepProSite 與最新方法在 Pro_Test_315 數(shù)據(jù)集上的性能比較
表格 7:DeepProSite 與 GraphBind 在七個配體結(jié)合測試集上的性能比較
總結(jié)
DeepProSite 利用蛋白質(zhì)結(jié)構(gòu)和序列信息,在多種指標上實現(xiàn)了比現(xiàn)有方法更準確的蛋白質(zhì)結(jié)合位點預測寇损。
- DeepProSite 集成了蛋白質(zhì)結(jié)構(gòu)與序列信息
- 性能優(yōu)于現(xiàn)有序列和結(jié)構(gòu)基方法
- 在未結(jié)合結(jié)構(gòu)的預測性能上保持穩(wěn)定
- 應用于核酸和其他配體的預測
- 提供在線服務器和開源代碼
參考資料:
Fang, Y., Jiang, Y., Wei, L., Ma, Q., Ren, Z., Yuan, Q., & Wei, D.-Q. (2023). DeepProSite: structure-aware protein binding site prediction using ESMFold and pretrained language model. Bioinformatics, 39(12). https://doi.org/10.1093/bioinformatics/btad718
Data and code: https://github.com/WeiLabBiology/DeepProSite
點擊這里??關注我,記得標星哦~