導(dǎo)讀
ZeroBind 運用元學(xué)習(xí)框架,實現(xiàn)了在零樣本和少樣本情況下預(yù)測藥物靶標(biāo)相互作用(DTI)優(yōu)于現(xiàn)有方法蜕该。
今天給大家介紹一篇 2023 年發(fā)表在 Nature Communications 上的文章, 標(biāo)題為:《ZeroBind: a protein-specific zero-shot predictor with subgraph matching for drug-target interactions》奸披。
ZeroBind 通過圖神經(jīng)網(wǎng)絡(luò)和亞圖信息瓶頸模塊,提供了一種專門用于預(yù)測藥物與蛋白質(zhì)結(jié)構(gòu)互動的元學(xué)習(xí)框架叹俏,適用于新型藥物和蛋白質(zhì)的研究肩袍。該框架通過圖神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)蛋白質(zhì)和分子的圖嵌入,重點關(guān)注蛋白質(zhì)的結(jié)合口袋博杖,而非整體結(jié)構(gòu)椿胯,從而提升對結(jié)合口袋的識別能力。
此外剃根,ZeroBind 引入了一個弱監(jiān)督的亞圖信息瓶頸(SIB)模塊哩盲,用于識別蛋白質(zhì)圖中的潛在結(jié)合口袋。該框架還包含一個任務(wù)自適應(yīng)自注意模塊跟继,用于自動學(xué)習(xí)個別蛋白質(zhì)模型的重要性种冬,并進行最終預(yù)測。
研究表明舔糖,ZeroBind 在新型蛋白質(zhì)和藥物的藥物-靶標(biāo)互動(DTI)預(yù)測方面優(yōu)于現(xiàn)有方法娱两,并且即使是對已知少量結(jié)合配體的蛋白質(zhì)進行微調(diào)后,其表現(xiàn)仍然出色金吗。
數(shù)據(jù)集生成與擴充
BindingDB12 數(shù)據(jù)庫
- 來源:BindingDB12十兢,一個公開數(shù)據(jù)庫,收錄了超過 260 萬個蛋白質(zhì)-藥物結(jié)合親和力摇庙。
- 涵蓋范圍:包括超過 8000 個蛋白質(zhì)靶標(biāo)和 110 萬個小分子旱物。
打造基準(zhǔn)數(shù)據(jù)集
- 篩選步驟:基于“單一蛋白質(zhì)”靶標(biāo)類型和動力學(xué)常數(shù)(Ki, Kd, IC50, EC50)進行選擇。
- 靶標(biāo):專注于人類或類人蛋白靶標(biāo)卫袒。
- 結(jié)果:精煉出 150 萬個靶標(biāo)-藥物對宵呛。
ZeroBind 方法框架
元學(xué)習(xí)框架
- 核心目標(biāo):使用基于元學(xué)習(xí)的框架來預(yù)測 DTIs。
- 關(guān)鍵技術(shù):采用基于梯度的方法夕凝,如 MAML(模型無關(guān)元學(xué)習(xí))和基于度量的方法宝穗。
測試集構(gòu)建
- 直推測試集:包含訓(xùn)練集中不存在相互作用的分子和蛋白質(zhì)户秤。
- 半歸納測試集:特征為訓(xùn)練集中的蛋白質(zhì),但新分子逮矛。
- 歸納測試集:完全由新分子和蛋白質(zhì)組成鸡号。
應(yīng)對數(shù)據(jù)不平衡
- 策略:使用 Dijkstra 算法進行基于網(wǎng)絡(luò)的負采樣。
- 結(jié)果:平衡的數(shù)據(jù)集提高了預(yù)測準(zhǔn)確性须鼎。
3D 結(jié)構(gòu)整合與圖構(gòu)建
利用 PDB 和 AlphaFold
- 數(shù)據(jù)來源:RCSB PDB Bank 和 AlphaFold 的預(yù)測鲸伴。
- 用途:在模型中整合 3D 結(jié)構(gòu)和結(jié)合口袋信息。
藥物和蛋白質(zhì)圖
- 藥物圖:使用 RDKit 從 SMILES 字符串創(chuàng)建晋控,并編碼了各種化學(xué)和幾何特征汞窗。
- 蛋白質(zhì)圖:從 3D 結(jié)構(gòu)形成,節(jié)點特征來自 ESM-249 嵌入糖荒。
ZeroBind 的基礎(chǔ)模型架構(gòu)
組件
- GNN 模塊:用于嵌入分子和蛋白質(zhì)杉辙。
- SIB 模塊:識別與結(jié)合口袋相對應(yīng)的預(yù)測子圖模捂。
- 密集模塊:連接蛋白質(zhì)子圖和分子表示捶朵。
目標(biāo)
- 準(zhǔn)確評估藥物與靶標(biāo)蛋白質(zhì)之間的相互作用。
評估 ZeroBind
基準(zhǔn)方法
- ZeroBind 的性能與 DeepConv-DTI, GraphDTA, Deeppurpose, AI-bind 和 DrugBAN 進行比較狂男。
評價指標(biāo)
- 基于不同測試集的 AUROC 和 AUPRC 進行評估综看。
主要結(jié)果
ZeroBind 將藥物靶標(biāo)相互作用預(yù)測定義為一個元學(xué)習(xí)任務(wù)。該框架通過元學(xué)習(xí)解決了在 DTI 預(yù)測中未知蛋白質(zhì)和藥物的泛化難題岖食。具體來說红碑,ZeroBind 利用 IB-子圖學(xué)習(xí)法自動發(fā)現(xiàn)蛋白質(zhì)的潛在結(jié)合口袋,并采用自注意力機制來評估蛋白質(zhì)在各個任務(wù)中的重要性泡垃。此外析珊,ZeroBind 采用網(wǎng)絡(luò)負采樣作為數(shù)據(jù)增強策略,緩解了注釋不平衡的問題蔑穴。在訓(xùn)練過程中忠寻,將 DTIs 分為支持集和查詢集,前者用于訓(xùn)練元學(xué)習(xí)器存和,后者則用于訓(xùn)練特定任務(wù)的模型奕剃。ZeroBind 在零樣本和少樣本場景下的預(yù)測性能表現(xiàn)卓越。實驗結(jié)果表明捐腿,在直推纵朋、半監(jiān)督和歸納測試集上,ZeroBind 的表現(xiàn)均超越現(xiàn)有方法茄袖。
對 ZeroBind 進行的消融研究表明操软,其各個組成部分均為模型增添了額外價值。研究發(fā)現(xiàn)宪祥,元學(xué)習(xí)策略為處理未見蛋白質(zhì)和藥物的泛化問題提供了強大支持聂薪。IB-子圖方法增強了模型在表示學(xué)習(xí)方面的可解釋性猪钮。ZeroBind 還能預(yù)測潛在的針對 SARS-COV-2 蛋白的藥物。未來胆建,研究者計劃對 ZeroBind 進行進一步優(yōu)化烤低,考慮更多真實結(jié)合口袋信息,以更準(zhǔn)確地適應(yīng) DTI 問題笆载。
圖表 1: ZeroBind 框架
ZeroBind 框架包括以下組成部分:
- a. 網(wǎng)絡(luò)負采樣策略扑馁。藥物與蛋白質(zhì)靶標(biāo)形成的二部圖中,方形節(jié)點表示蛋白節(jié)點凉驻,圓形節(jié)點表示分子節(jié)點腻要。不同類型的節(jié)點之間通過邊連接,這些邊代表已知的藥物-靶標(biāo)相互作用(DTIs)涝登。實線表示已確認的藥物-靶標(biāo)相互作用雄家,虛線表示推測的負相互作用,其最短路徑距離不小于 7胀滚。
- b. 應(yīng)用網(wǎng)絡(luò)負采樣策略前的訓(xùn)練集中正樣本的比例趟济。
- c. 應(yīng)用網(wǎng)絡(luò)負采樣策略后的訓(xùn)練集中正樣本的比例。
- d. 在給定支持集和查詢集的情況下咽笼,首先計算支持集的損失 Lsupport顷编,使用支持集更新基模型參數(shù) θ 為特定于任務(wù)的參數(shù) θ0。之后剑刑,特定于任務(wù)的模型利用查詢集計算損失 Lquery媳纬。在重復(fù) N 次內(nèi)部步驟后,所有損失將通過加權(quán)平均計算施掏。
圖表 2: ZeroBind 與基線方法在零樣本和少樣本情境下的性能比較
- a. 在三個獨立測試集上評估 ZeroBind 與基線方法的零樣本性能钮惠。
- b. 在 775 個蛋白質(zhì)的測試集上,比較基于蛋白質(zhì)的 ZeroBind 方法與基線方法的 AUROC七芭。點的顏色表示訓(xùn)練集中蛋白質(zhì)的數(shù)量素挽。
- c. 展示方法性能最佳的蛋白數(shù)量。
圖表 3: ZeroBind 以弱監(jiān)督方式探測蛋白質(zhì)結(jié)合口袋
- a. 展示預(yù)測的結(jié)合口袋與真實結(jié)合口袋以及隨機選定的結(jié)合殘基 + 真實結(jié)合口袋的個體 DTIs 的 Jaccard 相似性系數(shù)分布抖苦。
- b. 對比預(yù)測的結(jié)合口袋與真實結(jié)合口袋及其一級鄰居和隨機選定的結(jié)合殘基 + 真實結(jié)合口袋及其一級鄰居的 Jaccard 相似性系數(shù)分布毁菱。
圖表 4: ZeroBind 預(yù)測 SARS-COV-2 蛋白的結(jié)合藥物
- a. 列出 SARS-COV-2 蛋白的前十個藥物-靶標(biāo)結(jié)合對。
- b. 展示藥物 InChI Key VZBSCWDKCMOJCR-UHFFFAOYSA-N 與 SARS-CoV-2 ORF8 蛋白的藥物-靶標(biāo)結(jié)合復(fù)合物锌历。圖中綠色部分代表蛋白主體贮庞,藍色部分代表結(jié)合藥物,紅色部分顯示由殘基名稱和編號組成的潛在結(jié)合位點究西。
- c. 藥物-靶標(biāo)結(jié)合的詳細展示窗慎。
圖表 5: ZeroBind 的數(shù)據(jù)處理
- a. 展示從蛋白質(zhì)三維結(jié)構(gòu)構(gòu)建蛋白質(zhì)圖的過程苞也。連接距離小于 8 埃(?)的兩個殘基靠粪,而非僅依賴肽鍵作為邊瘫俊。
表格一:ZeroBind 消融研究的性能評估
表格二:訓(xùn)練集及四個測試集的詳細信息
創(chuàng)新性與價值
- ZeroBind 提出了一種新穎的藥物-靶點相互作用(DTI)預(yù)測方法克婶,尤其在泛化到未見過的蛋白質(zhì)和藥物方面,展現(xiàn)出顯著的創(chuàng)新性术吗。
- 將元學(xué)習(xí)與圖神經(jīng)網(wǎng)絡(luò)(GNNs)結(jié)合尉辑,并輔以弱監(jiān)督子圖信息瓶頸(SIB)模塊用于潛在結(jié)合口袋的識別。
- 該框架在零樣本和少樣本場景中的有效性较屿,增強了其在新興疾病的藥物發(fā)現(xiàn)中的實際應(yīng)用能力隧魄。
缺點:
- 驗證和核實
- 驗證主要依賴于計算預(yù)測,而不是實驗數(shù)據(jù)隘蝎,這可能無法完全捕捉該方法在實際場景中的有效性购啄。
- 論文缺乏使用獨立數(shù)據(jù)集的外部驗證,這對于建立方法的魯棒性至關(guān)重要嘱么。
- 解釋性和生物相關(guān)性
- 雖然 SIB 模塊提供了識別潛在結(jié)合口袋的新方法狮含,但這些預(yù)測的生物相關(guān)性和準(zhǔn)確性未經(jīng)徹底審查。
- 方法的解釋性曼振,特別是子圖與已知結(jié)合位點的相關(guān)性几迄,需要更詳細的分析。
- 技術(shù)和方法論關(guān)注點
- 研究可以更詳細地解釋元學(xué)習(xí)策略及其在 ZeroBind 中的具體適應(yīng)性拴测。
- 圖神經(jīng)網(wǎng)絡(luò)架構(gòu)的選擇及其對結(jié)果的影響未進行充分討論乓旗,可能忽略了不同 GNN 類型對性能的影響府蛇。
改進建議
外部驗證和實驗核實
- 使用在訓(xùn)練或測試階段未使用的獨立數(shù)據(jù)集進行外部驗證集索。
- 與實驗室合作驗證一些計算預(yù)測,增加實際驗證層面汇跨。
提高解釋性和生物學(xué)洞見
- 深入分析所識別的結(jié)合口袋务荆,與已知結(jié)合位點進行比較,以驗證其生物學(xué)相關(guān)性穷遂。
- 結(jié)合案例研究或示例函匕,其中該方法提供了新的生物學(xué)見解,展示了實際應(yīng)用價值蚪黑。
技術(shù)澄清和比較
- 擴展對元學(xué)習(xí)方法的討論盅惜,闡明其在 ZeroBind 框架中的具體作用和優(yōu)勢。
- 比較不同 GNN 架構(gòu)的性能影響忌穿,提供選擇所選架構(gòu)的最佳性能見解抒寂。
參考資料:
Wang, Y., Xia, Y., Yan, J., Yuan, Y., Shen, H.-B., & Pan, X. (2023). ZeroBind: a protein-specific zero-shot predictor with subgraph matching for drug-target interactions. Nature Communications, 14(1). https://doi.org/10.1038/s41467-023-43597-1
Data and code: https://github.com/myprecioushh/ ZeroBind
Webserver: http://www.csbio.sjtu.edu. cn/bioinf/ZeroBind
PDF Download: https://is.gd/kMXEqK