DeepProSite:基于 ESMFold 和預訓練語言模型的蛋白質(zhì)結(jié)合位點預測


?

今天給大家介紹一篇 2023 年發(fā)表在 Bioinformatics 上的文章, 標題為:《DeepProSite: structure-aware protein binding site prediction using ESMFold and pretrained language model》。

導讀

DeepProSite 的研究動機在于蛋白質(zhì)功能位點(如蛋白質(zhì)、肽或其他生物組分的結(jié)合位點)的識別對理解相關生物過程和藥物設計至關重要。

然而,現(xiàn)有基于序列的方法由于只考慮序列相鄰的上下文特征且缺乏結(jié)構(gòu)信息辉巡,預測準確性有限。

DeepProSite 使用 ESMFold 生成蛋白質(zhì)結(jié)構(gòu)和預訓練語言模型生成序列表示,通過圖轉(zhuǎn)換器(Graph Transformer)將結(jié)合位點預測轉(zhuǎn)化為圖節(jié)點分類問題抚太。在預測蛋白質(zhì)-蛋白質(zhì)/肽結(jié)合位點方面,DeepProSite 在多數(shù)指標上優(yōu)于現(xiàn)有的序列和結(jié)構(gòu)基方法昔案。

此外尿贫,與競爭對手的結(jié)構(gòu)基預測方法相比,DeepProSite 在預測未結(jié)合結(jié)構(gòu)時保持了性能踏揣。DeepProSite 還擴展到核酸和其他配體的結(jié)合位點預測庆亡,驗證了其泛化能力。

最后捞稿,DeepProSite 的在線服務可在 https://inner.wei-group.net/DeepProSite/ 訪問又谋。

數(shù)據(jù)集

基準數(shù)據(jù)集

  • 數(shù)據(jù)來源:該研究依賴于其他研究中使用的基準數(shù)據(jù)集。
  • 蛋白質(zhì)數(shù)據(jù):主要數(shù)據(jù)集包含 1279 個肽結(jié)合蛋白質(zhì)(PBPs)娱局,最初源自 SPRINT-Seq(Taherzadeh 等彰亥,2016 年)。
  • 數(shù)據(jù)庫應用:數(shù)據(jù)收集自 BioLiP 數(shù)據(jù)庫(Yang 等衰齐,2013a)任斋。
  • 納入標準:為保持數(shù)據(jù)完整性,排除了序列相似性超過 30%的蛋白質(zhì)耻涛。
  • 表格 1:基準數(shù)據(jù)集的統(tǒng)計信息

定義肽結(jié)合殘基

  • 標準:如果殘基中至少有一個原子與肽中的任何原子之間的距離小于 3.5 ?废酷,則定義為肽結(jié)合殘基瘟檩。

數(shù)據(jù)劃分用于模型訓練和測試

  • 策略:采用與之前研究相同的數(shù)據(jù)劃分策略,以進行公平比較澈蟆。
  • 獨立測試數(shù)據(jù)集:使用 SPRINT-Str(Taherzadeh 等墨辛,2018 年)的 10% 化合物作為測試數(shù)據(jù)集(Pep_Test_125)。
  • 訓練數(shù)據(jù)集:其余部分用于訓練(Pep_Train_1154)丰介。

用于蛋白質(zhì)-蛋白質(zhì)結(jié)合位點預測的額外數(shù)據(jù)集

  • 所用數(shù)據(jù)集:采用了三個來自過去研究的數(shù)據(jù)集 - Pro_Dset_186背蟆、Pro_Dset_164 和 Pro_Dset_72。
  • 數(shù)據(jù)集來源:這些數(shù)據(jù)集是從 PDB Bank 中注釋的復合物和蛋白質(zhì)-蛋白質(zhì)對接基準集版本 3.0 構(gòu)建的哮幢。

蛋白圖構(gòu)建

蛋白圖中的節(jié)點分類

  • 方法:將預測任務構(gòu)建為蛋白質(zhì)圖中的節(jié)點分類任務带膀。
  • 數(shù)據(jù)提取:提取了每個節(jié)點的序列、結(jié)構(gòu)特征和 3D 坐標橙垢。

預測的蛋白質(zhì)結(jié)構(gòu)

  • 使用工具:ESMFold_v1(Lin 等垛叨,2023 年),一種大型語言模型和神經(jīng)網(wǎng)絡柜某。
  • 優(yōu)勢:提供快速準確的原子分辨率結(jié)構(gòu)預測,無需多序列比對喂击。

結(jié)構(gòu)屬性

  • 特征提取:利用 DSSP 提取了每個殘基的三種類型的結(jié)構(gòu)特征剂癌。
  • 特征類型:相對溶劑可及性、一維次級結(jié)構(gòu)輪廓以及蛋白質(zhì)主鏈扭轉(zhuǎn)角的正弦/余弦值翰绊。

語言模型嵌入

  • 采用模型:ProtT5-XL-U50佩谷,基于 Transformer 模型的自監(jiān)督自編碼器。
  • 訓練和微調(diào):該模型在 BFD 上進行預訓練监嗜,并在 UniRef50 上進行微調(diào)谐檀。
  • 標準化:序列嵌入被標準化為 0 到 1 之間的分數(shù)。

DeepProSite 框架

增強蛋白質(zhì)結(jié)合位點預測

  • 目標:通過整合蛋白質(zhì)空間信息裁奇,提高蛋白質(zhì)結(jié)合位點預測的準確性桐猬。
  • 輸入:將蛋白質(zhì)序列輸入 ESMFold 和 ProtT5,生成預測的蛋白質(zhì)結(jié)構(gòu)和序列嵌入刽肠。
  • 圖構(gòu)建:構(gòu)建了以節(jié)點位置和邊特征為重點的 k 近鄰圖囤采。

幾何邊緣特征

  • 創(chuàng)新點:整合相對空間和位置編碼以表示幾何邊緣特征堪旧。
  • 實現(xiàn):特征編碼包括兩個相鄰節(jié)點之間的距離蛙奖、方向和取向第煮。

圖 Transformer

  • 關鍵組成:多頭自注意和逐位前饋網(wǎng)絡。
  • 整合蛋白質(zhì)結(jié)構(gòu)信息:利用 k 最近鄰掩碼放仗,將注意力分數(shù)聚焦于空間上相關的氨基酸。

多層感知機

  • 功能:使用圖 Transformer 的輸出估計殘基結(jié)合概率撬碟。

實施細節(jié)

模型訓練和評估

  • 方法論:使用 5 折交叉驗證來訓練和評估模型诞挨。
  • 模型規(guī)格:四層圖 Transformer 模型莉撇,具有特定的注意力頭、隱藏單元和丟棄率惶傻。
  • 優(yōu)化器:Adam 優(yōu)化器棍郎,具有特定的優(yōu)化參數(shù)。

評估指標

應對數(shù)據(jù)不平衡

  • 使用的指標:準確度银室、精確度涂佃、召回率、特異性蜈敢、F1 分數(shù)辜荠、馬修斯相關系數(shù)、AUC 和 AUPRC抓狭。
  • 閾值確定:通過最大化每個模型的 MCC 來識別最佳閾值伯病。
  • 重點關注 AUPRC:由于其在不平衡數(shù)據(jù)集中的敏感性和全面分析。

深入分析 DeepProSite 的性能

DeepProSite 在預測蛋白質(zhì)/肽結(jié)合位點方面表現(xiàn)卓越午笛。

  • ?? 模型性能: DeepProSite 在多個數(shù)據(jù)集上顯示出一致的高性能苗桂。
  • ?? 方法對比: 與其他方法相比煤伟,DeepProSite 在蛋白質(zhì)和肽數(shù)據(jù)集上均表現(xiàn)更好持偏。
  • ?? 特征重要性: 結(jié)合不同的特征集合可以顯著提高模型的準確性。
  • ?? 預測結(jié)構(gòu)質(zhì)量: 預測的蛋白質(zhì)結(jié)構(gòu)質(zhì)量對結(jié)合位點預測的準確性至關重要酌畜。

作者指出桥胞,DeepProSite 在多個測試集中展現(xiàn)了其強大的性能考婴,特別是在 Pep_Test_125 和 Pep_Test_639 上缎罢,其 MCC 和 AUC 的表現(xiàn)均優(yōu)于其他方法策精。這些數(shù)據(jù)集的綜合評估表明,DeepProSite 不僅在識別肽結(jié)合位點方面表現(xiàn)出色丸卷,還在處理蛋白質(zhì)結(jié)構(gòu)方面顯示了其優(yōu)越性谜嫉。

研究者通過比較不同特征組合的影響沐兰,揭示了 ProtT5 和 DSSP 的結(jié)合對于提高模型性能的重要性僧鲁。

此外寞秃,ESMFold 預測的蛋白質(zhì)結(jié)構(gòu)質(zhì)量對 DeepProSite 的性能有顯著影響偶惠,這一點通過比較預測結(jié)構(gòu)和天然結(jié)構(gòu)之間的全局距離測試(GDT)得到了證實绑改。

圖 1:DeepProSite 方法的整體流程

首先厘线,蛋白質(zhì)序列經(jīng)過 ESMFold 和 ProtT5 預訓練語言模型的處理出革,以獲取預測結(jié)構(gòu)和序列嵌入骂束。

在預測結(jié)構(gòu)基礎上旨枯,構(gòu)建了 k 近鄰圖混驰,圖中每個節(jié)點的位置由 α-碳原子坐標決定。

節(jié)點特征綜合了語言模型嵌入和 DSSP 的數(shù)據(jù)先紫,而多種邊特征包含了鄰近節(jié)點間的距離筹煮、方向和定向關系败潦。

通過應用圖轉(zhuǎn)換模型劫扒,可以匯總臨近節(jié)點和邊的特征沟饥,并更新目標節(jié)點的表示贤旷,從而捕捉到蛋白質(zhì)與肽的結(jié)合模式砾脑。

圖 2:幾何和序列信息對模型性能的影響

圖展示了 DeepProSite 和 Transformer 在不同數(shù)據(jù)集上的性能對比盅藻,包括 Pep_Train_1154氏淑、Pep_Test_125(圖 a 和 b)假残、Pep_Train_640守问、Pep_Test_639(圖 c 和 d)以及 Pro_Train_335耗帕、Pro_Test_60仿便、Pro_Test_315(圖 e 和 f)荒勇。

使用 ROC 曲線和精確度-召回曲線來展示這些性能沽翔。特別在 Pep_Test_125(圖 g)和 Pro_Test_315(圖 h)上仅偎,展示了兩種方法在具有不同非局部接觸的氨基酸上的 Matthews 相關系數(shù)(MCC)對比橘沥。

圖 3:DeepProSite 與基于結(jié)構(gòu)的方法的性能比較

此圖比較了 DeepProSite 與基于結(jié)構(gòu)的方法在 31 種結(jié)合和非結(jié)合蛋白質(zhì)上的性能座咆。

圖 4:ESMFold 預測質(zhì)量與 DeepProSite 性能的關聯(lián)

在 Pep_Test_125 數(shù)據(jù)集上,使用全局距離測試(GDT)衡量 ESMFold 預測質(zhì)量斤蔓,使用面積下精確度-召回曲線(AUPRC)衡量 DeepProSite 性能弦牡。

每個蛋白質(zhì)對應的 GDT 和 AUPRC 值用藍色散點表示,紅線顯示了將蛋白質(zhì)按 GDT 排序并劃分為六個區(qū)間后漂羊,每個區(qū)間的平均 GDT 和 AUPRC驾锰。

圖 5:DeepProSite 與其他方法預測的結(jié)合殘基的可視化對比

此圖展示了 DeepProSite 與其他方法(包括 Transformer、PepNN-Struct走越、PepBCL椭豫、PepBind、GraphPPIS旨指、SPPIDER赏酥、ProNA2020)在 Pep_Test_125 的第一個蛋白質(zhì)(ID: 4L3O, 鏈 A)和 Pro_Test_315 的第二個蛋白質(zhì)(ID: 4BVX, 鏈 A)上預測結(jié)合殘基的結(jié)果。

正確預測(TP)谆构、假陽性(FP)和假陰性(FN)分別用綠色裸扶、紅色和黃色標示。

圖 6:DeepProSite 網(wǎng)絡服務的用戶界面

在圖 a 和 b 中呵晨,用戶可以輸入 FASTA 格式的蛋白質(zhì)序列并選擇首選模型。圖 c 顯示了對于 PDB 中可用的蛋白質(zhì)胯舷,用戶可以對預測結(jié)果進行可視化艺挪,并且預測結(jié)果也可以下載為文本文件。

(c) 對于 PDB 中可用的蛋白質(zhì)眉反,可以對預測結(jié)果進行可視化梳杏。預測結(jié)果也可以下載為文本文件塑悼。

表格 2:Pep_Train_1154 和 Pep_Test_125 數(shù)據(jù)集上預測 PBPs 的特征性能比較

表格 3:DeepProSite 與最新方法在 Pep_Test_125 數(shù)據(jù)集上的性能比較

表格 4:DeepProSite 與最新方法在 Pep_Test_639 數(shù)據(jù)集上的性能比較

表格 5:DeepProSite 與最新方法在 Pro_Test_60 數(shù)據(jù)集上的性能比較

需要注意的是促绵,所有其他方法的結(jié)果都來自先前的研究尖坤,如 GraphPPIS 和 RGN,這些研究使用了相同的訓練和測試數(shù)據(jù)集寞忿。

表格 6:DeepProSite 與最新方法在 Pro_Test_315 數(shù)據(jù)集上的性能比較

表格 7:DeepProSite 與 GraphBind 在七個配體結(jié)合測試集上的性能比較

總結(jié)

DeepProSite 利用蛋白質(zhì)結(jié)構(gòu)和序列信息,在多種指標上實現(xiàn)了比現(xiàn)有方法更準確的蛋白質(zhì)結(jié)合位點預測寇损。

  • DeepProSite 集成了蛋白質(zhì)結(jié)構(gòu)與序列信息
  • 性能優(yōu)于現(xiàn)有序列和結(jié)構(gòu)基方法
  • 在未結(jié)合結(jié)構(gòu)的預測性能上保持穩(wěn)定
  • 應用于核酸和其他配體的預測
  • 提供在線服務器和開源代碼

參考資料:
  • Fang, Y., Jiang, Y., Wei, L., Ma, Q., Ren, Z., Yuan, Q., & Wei, D.-Q. (2023). DeepProSite: structure-aware protein binding site prediction using ESMFold and pretrained language model. Bioinformatics, 39(12). https://doi.org/10.1093/bioinformatics/btad718

  • Data and code: https://github.com/WeiLabBiology/DeepProSite

— 完 —

點擊這里??關注我,記得標星哦~

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末墩衙,一起剝皮案震驚了整個濱河市去扣,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌捶码,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,941評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件或链,死亡現(xiàn)場離奇詭異,居然都是意外死亡祈纯,警方通過查閱死者的電腦和手機腕窥,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,397評論 3 395
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來扼褪,“玉大人,你說我怎么就攤上這事智什≤В” “怎么了旱眯?”我有些...
    開封第一講書人閱讀 165,345評論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長证九。 經(jīng)常有香客問我删豺,道長,這世上最難降的妖魔是什么愧怜? 我笑而不...
    開封第一講書人閱讀 58,851評論 1 295
  • 正文 為了忘掉前任呀页,我火速辦了婚禮,結(jié)果婚禮上拥坛,老公的妹妹穿的比我還像新娘蓬蝶。我一直安慰自己,他們只是感情好猜惋,可當我...
    茶點故事閱讀 67,868評論 6 392
  • 文/花漫 我一把揭開白布疾党。 她就那樣靜靜地躺著,像睡著了一般惨奕。 火紅的嫁衣襯著肌膚如雪雪位。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,688評論 1 305
  • 那天梨撞,我揣著相機與錄音雹洗,去河邊找鬼香罐。 笑死,一個胖子當著我的面吹牛时肿,可吹牛的內(nèi)容都是我干的庇茫。 我是一名探鬼主播,決...
    沈念sama閱讀 40,414評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼螃成,長吁一口氣:“原來是場噩夢啊……” “哼旦签!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起寸宏,我...
    開封第一講書人閱讀 39,319評論 0 276
  • 序言:老撾萬榮一對情侶失蹤宁炫,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后氮凝,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體羔巢,經(jīng)...
    沈念sama閱讀 45,775評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,945評論 3 336
  • 正文 我和宋清朗相戀三年罩阵,在試婚紗的時候發(fā)現(xiàn)自己被綠了竿秆。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,096評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡稿壁,死狀恐怖幽钢,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情傅是,我是刑警寧澤搅吁,帶...
    沈念sama閱讀 35,789評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站落午,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏肚豺。R本人自食惡果不足惜溃斋,卻給世界環(huán)境...
    茶點故事閱讀 41,437評論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望吸申。 院中可真熱鬧梗劫,春花似錦、人聲如沸截碴。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,993評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽日丹。三九已至走哺,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間哲虾,已是汗流浹背丙躏。 一陣腳步聲響...
    開封第一講書人閱讀 33,107評論 1 271
  • 我被黑心中介騙來泰國打工择示, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人晒旅。 一個月前我還...
    沈念sama閱讀 48,308評論 3 372
  • 正文 我出身青樓栅盲,卻偏偏與公主長得像,于是被迫代替她去往敵國和親废恋。 傳聞我的和親對象是個殘疾皇子谈秫,可洞房花燭夜當晚...
    茶點故事閱讀 45,037評論 2 355

推薦閱讀更多精彩內(nèi)容