導(dǎo)讀
結(jié)合無監(jiān)督深度學(xué)習(xí)和分子動(dòng)力學(xué)模擬,能有效加速藥物發(fā)現(xiàn)過程踢涌。
今天給大家介紹一篇 2023 年發(fā)表在 RSC Advances 上的文章, 標(biāo)題為:《Unsupervised deep learning for molecular dynamics simulations: a novel analysis of protein–ligand interactions in SARS-CoV-2 Mpro》冒晰。
我們知道分子動(dòng)力學(xué)(MD)模擬是藥物發(fā)現(xiàn)的核心環(huán)節(jié)掌动,有助于深入了解蛋白質(zhì)與配體的相互作用糙麦。但是吆鹤,分析大型 MD 數(shù)據(jù)集依然是一大挑戰(zhàn)。現(xiàn)有機(jī)器學(xué)習(xí)解決方案多為監(jiān)督式好啰,面臨數(shù)據(jù)標(biāo)注和標(biāo)準(zhǔn)化的問題轩娶。
該研究使用了一種無監(jiān)督深度學(xué)習(xí)框架,已在剛性蛋白質(zhì)上進(jìn)行基準(zhǔn)測試坎怪,用于研究 SARS-CoV-2 主蛋白酶(Mpro)罢坝。研究者對(duì) Mpro 與不同配體進(jìn)行了 MD 模擬廓握,并精煉數(shù)據(jù)搅窿,聚焦于結(jié)合位點(diǎn)殘基和穩(wěn)定蛋白構(gòu)象的時(shí)間幀。篩選出的最優(yōu)描述符為殘基與結(jié)合口袋中心的距離隙券。利用此方法男应,生成了一個(gè)局部動(dòng)態(tài)集合,輸入到神經(jīng)網(wǎng)絡(luò)中娱仔,計(jì)算不同系統(tǒng)間的 Wasserstein 距離沐飘,揭示配體引起的 Mpro 構(gòu)象差異。
降維處理產(chǎn)生的嵌入圖表明了配體引發(fā)的動(dòng)力學(xué)變化與結(jié)合親和力之間的相關(guān)性。特別是耐朴,高親和力化合物對(duì)蛋白質(zhì)構(gòu)象的影響更為顯著借卧。研究還識(shí)別了導(dǎo)致這些差異的關(guān)鍵殘基。該發(fā)現(xiàn)突顯了結(jié)合無監(jiān)督深度學(xué)習(xí)與 MD 模擬的潛力筛峭,可提取重要信息铐刘,加速藥物發(fā)現(xiàn)進(jìn)程。
方法流程
分子動(dòng)力學(xué)模擬
- 目標(biāo):觀察 11 種不同配體與 Mpro 的相互作用影晓。
- 過程:對(duì)每種配體進(jìn)行了三次獨(dú)立模擬镰吵,每次持續(xù)一微秒,以收集構(gòu)象狀態(tài)和動(dòng)力學(xué)的多樣化數(shù)據(jù)挂签。
- 性能:模擬以每天 310 納秒的速率完成疤祭,每次大約需 77 小時(shí)。
機(jī)器學(xué)習(xí)驅(qū)動(dòng)的分析
- 深度學(xué)習(xí)模型:用于通過無監(jiān)督學(xué)習(xí)計(jì)算 Wasserstein 距離饵婆,衡量數(shù)據(jù)集之間的差異勺馆。
- 優(yōu)勢(shì):相較于依賴標(biāo)記數(shù)據(jù)的監(jiān)督學(xué)習(xí)方法,作者的方法不依賴標(biāo)記數(shù)據(jù)侨核,盡管代價(jià)是更長的處理時(shí)間谓传。
MD 模擬細(xì)節(jié)
- 蛋白結(jié)構(gòu):研究了 Mpro 的均聚二聚體半胱氨酸蛋白酶形式,包括未結(jié)合(apo)和配體結(jié)合形式芹关。
- 活性位點(diǎn)組成:對(duì)參與底物結(jié)合區(qū)域和催化活性的關(guān)鍵殘基進(jìn)行了詳細(xì)分解续挟。
- PDB 結(jié)構(gòu):獲取和準(zhǔn)備模擬所需的結(jié)構(gòu),包括調(diào)整質(zhì)子化狀態(tài)和同源建模侥衬。
模擬設(shè)置
- 軟件和參數(shù):使用 GROMACS 2023 進(jìn)行模擬诗祸,詳細(xì)介紹了從系統(tǒng)中和到生產(chǎn)階段的步驟。
- 數(shù)據(jù)收集:強(qiáng)調(diào)了捕獲和分析軌跡數(shù)據(jù)的系統(tǒng)方法轴总。
分析和結(jié)果
軌跡分析
- 描述符選擇:專注于結(jié)合位點(diǎn)殘基直颅,以有效捕獲配體結(jié)合效果,同時(shí)兼顧計(jì)算需求怀樟。
- 基于距離的描述符:這個(gè)可以有效代表 Mpro 的結(jié)構(gòu)和動(dòng)態(tài)差異功偿。
局部動(dòng)力學(xué)集合(LDE)
- 創(chuàng)建和目的:從選定的 MD 軌跡間隔構(gòu)建 LDE,以突出穩(wěn)定構(gòu)象及其相關(guān)動(dòng)力學(xué)往堡。
- 分析技術(shù):采用主成分分析(PCA)識(shí)別深入研究的關(guān)鍵時(shí)間窗口械荷。
機(jī)器學(xué)習(xí)應(yīng)用
- Wasserstein 距離計(jì)算:解釋了如何使用深度神經(jīng)網(wǎng)絡(luò)(DNN)計(jì)算這一度量,以分析 LDE 的差異虑灰。
- LDE 矩陣構(gòu)成:描述了封裝結(jié)合位點(diǎn)動(dòng)力學(xué)的高維矩陣吨瞎。
- ML 分析洞見:通過詳細(xì)的計(jì)算方法揭示了配體結(jié)合顯著影響的殘基。
主要結(jié)果及圖表
研究比較了 Mpro 在存在與缺乏 11 種抑制劑時(shí)的局部構(gòu)象動(dòng)力學(xué)穆咐,揭示了藥物結(jié)合對(duì)其結(jié)構(gòu)穩(wěn)定性和靈活性的影響颤诀。研究者進(jìn)行了三次 1 毫秒的分子動(dòng)力學(xué)(MD)模擬字旭,監(jiān)測 Mpro 結(jié)構(gòu)穩(wěn)定性,并測量了其 Ca 原子的均方根位移(RMSD)崖叫。通過殘基基于的均方根波動(dòng)(RMSF)分析遗淳,計(jì)算了二聚體 Mpro 中各系統(tǒng)鏈條的 RMSF 值,確認(rèn)了 Mpro 結(jié)構(gòu)的靈活性心傀。
Kneller 等人的實(shí)驗(yàn)研究及其他計(jì)算方法的研究進(jìn)一步突出了 Mpro 結(jié)構(gòu)的異質(zhì)性及其在藥物結(jié)合熱力學(xué)性質(zhì)中的重要性洲脂。RMSF 數(shù)據(jù)顯示兩個(gè)原子高 RMSF 區(qū)域,表明這些區(qū)域在系統(tǒng)間波動(dòng)具有顯著差異剧包。
研究者還運(yùn)用無監(jiān)督深度學(xué)習(xí)揭示了 MD 數(shù)據(jù)中的復(fù)雜動(dòng)態(tài)特性恐锦,這是傳統(tǒng)分析方法如 RMSF 無法發(fā)現(xiàn)的。確定了 Mpro 結(jié)合位點(diǎn)殘基疆液、適當(dāng)?shù)臅r(shí)間窗口一铅,并通過主成分分析(PCA)選擇了框架窗口。此外堕油,深度學(xué)習(xí)方法提取了蛋白-配體系統(tǒng)的關(guān)鍵特征潘飘,發(fā)現(xiàn) PC2 組件與 pIC50 之間的相關(guān)性揭示了與配體結(jié)合親和力相關(guān)的構(gòu)象差異。
最后掉缺,分析了特定氨基酸對(duì)配體誘導(dǎo)動(dòng)力學(xué)的貢獻(xiàn)卜录,識(shí)別出在結(jié)合親和力最高和最低系統(tǒng)間表現(xiàn)出顯著動(dòng)態(tài)差異的特定氨基酸。這些發(fā)現(xiàn)與其他研究的獨(dú)立見解相呼應(yīng)眶明,深化了對(duì) Mpro 在蛋白-配體相互作用中動(dòng)力學(xué)的理解艰毒。
圖表 1
- a) MD 軌跡分析:未結(jié)合配體(apo-protein)和結(jié)合配體(holo-protein)狀態(tài)下的系統(tǒng)。
- b) 計(jì)算方法:追蹤每個(gè)結(jié)合口袋殘基的質(zhì)心與口袋幾何中心間的距離變化搜囱。
- c) 特征表征:通過局部動(dòng)力學(xué)集合(LDE)展現(xiàn)配體誘導(dǎo)的蛋白質(zhì)構(gòu)象變化丑瞧,即基于短期軌跡集合的距離描述符。
- d) 差異分析:利用深度神經(jīng)網(wǎng)絡(luò)近似的函數(shù) fij蜀肘,基于 Wasserstein 距離 Wij 計(jì)算不同系統(tǒng) LDEs 間的差異绊汹。
- e) 數(shù)據(jù)處理:將 Wasserstein 距離矩陣中的數(shù)據(jù)點(diǎn)嵌入低維空間,并進(jìn)行主成分分析(PCA)扮宠。
- f) 結(jié)果解讀:通過函數(shù) gij(xi)探討特定殘基對(duì) LDEs 差異的影響西乖,依靠深度神經(jīng)網(wǎng)絡(luò)(DNNs)計(jì)算。對(duì)比特征性與非特征性軌跡坛增,計(jì)算每個(gè)殘基的距離描述符 di 的平均值获雕。特別是當(dāng) di 值在兩種軌跡間差異顯著時(shí),表明殘基受配體影響較大轿偎。
圖表 2
- a) 結(jié)構(gòu)展示:SARS-CoV-2 Mpro 蛋白的二聚體三維結(jié)構(gòu)典鸡。
- b) 結(jié)合特點(diǎn):展示 Mpro 蛋白的結(jié)合位點(diǎn)被廓,選定的結(jié)合口袋殘基以棍狀模型標(biāo)注坏晦。
- c) 可視化描述:用球體模型表示結(jié)合口袋殘基,計(jì)算每個(gè)選定殘基的質(zhì)心與口袋幾何中心(cog)間的距離。
圖表 3
- 描述:基于根均方波動(dòng)(RMSF)平均值昆婿,分析蛋白質(zhì)主鏈殘基在首 1 毫秒 MD 模擬的 12 個(gè)系統(tǒng)的單體 A 和單體 B球碉。
圖表 4
- 分析:對(duì)選定的穩(wěn)定結(jié)構(gòu)數(shù)據(jù)進(jìn)行主成分分析(PCA)繪圖。
圖表 5
- a) 距離矩陣:用于描述系統(tǒng)對(duì) LDEs 概率分布的 Wasserstein 距離矩陣仓蛆。較大的 Wasserstein 距離(黃色)指示蛋白質(zhì)結(jié)構(gòu)和動(dòng)力學(xué)上的顯著差異睁冬。
- b) 數(shù)據(jù)點(diǎn)展示:展現(xiàn)距離矩陣的嵌入點(diǎn)及相關(guān)系統(tǒng)的化學(xué)結(jié)構(gòu)。數(shù)據(jù)點(diǎn)按照實(shí)驗(yàn)綁定親和力值(pIC50)進(jìn)行著色看疙,pIC50 為 IC50 的負(fù)對(duì)數(shù)值豆拨。IC50 詳見表 1(下文表格)。
圖表 6
- 相關(guān)性分析:探討主成分 2(PC2)與實(shí)驗(yàn)綁定親和力數(shù)據(jù)(pIC50)的相關(guān)性能庆,采用 Pearson 系數(shù)進(jìn)行量化施禾,系數(shù)值為 0.7。
圖表 7
- 動(dòng)力學(xué)對(duì)比:對(duì)選定系統(tǒng)對(duì)進(jìn)行特征動(dòng)力學(xué)分析搁胆,并探討結(jié)合位點(diǎn)殘基的作用弥搞。將系統(tǒng) i 的短期軌跡分類為特征(高,系統(tǒng) i 特有)渠旁、非特征(低攀例,類似于系統(tǒng) j)和其他(中),并計(jì)算各結(jié)合位點(diǎn)殘基與口袋中心距離的平均值顾腊。a) 高親和性系統(tǒng) 6M0K 與低親和性系統(tǒng) 7JYC 間的特征動(dòng)力學(xué)對(duì)比粤铭。b) 兩個(gè)高親和性系統(tǒng) 6M0K 與 6LZE 間的特征動(dòng)力學(xué)分析。
SARS-CoV-2 抑制劑總結(jié)分析
表格 1 顯示了本研究涉及的 SARS-CoV-2 抑制劑概述杂靶。該表格列出了它們的 PDB 結(jié)構(gòu)承耿、分子量(MWs)(單位:g/mol)以及實(shí)驗(yàn)測得的結(jié)合親和力(IC50)值(單位:mM)。
表格 2 基于對(duì)每種蛋白-配體系統(tǒng)三次分子動(dòng)力學(xué)(MD)模擬的接觸分析伪煤,列出了關(guān)鍵殘基摘要加袋。這些關(guān)鍵的結(jié)合口袋殘基包括 His41, Met49, Phe40, Leu141, Asn142, Gly143, Ser144, Cys145, His163, His164, Met165, Glu166, Pro168, His172, Arg188, Gln189, Thr190, Gln192。
創(chuàng)新性與價(jià)值
- 該研究提出了一種新穎的方法抱既,將無監(jiān)督深度學(xué)習(xí)與分子動(dòng)力學(xué)(MD)模擬相結(jié)合职烧,專注于研究 SARS-CoV-2 主要蛋白酶(Mpro)和多種配體。
- 研究者的方法在處理大規(guī)模 MD 數(shù)據(jù)集時(shí)具有創(chuàng)新性防泵,無需進(jìn)行監(jiān)督學(xué)習(xí)蚀之,可能克服了數(shù)據(jù)標(biāo)注和標(biāo)準(zhǔn)化等限制。
缺點(diǎn)
- 缺乏與現(xiàn)有方法的比較分析
- 論文未能充分對(duì)其方法與現(xiàn)有監(jiān)督和無監(jiān)督方法進(jìn)行基準(zhǔn)測試捷泞。
- 缺乏比較分析可能引發(fā)對(duì)方法效果與現(xiàn)有技術(shù)相比的疑問足删。
- 鑒于蛋白質(zhì)動(dòng)力學(xué)的復(fù)雜性,該方法的驗(yàn)證似乎不夠充分锁右。
- 由于缺乏關(guān)于計(jì)算環(huán)境和軟件參數(shù)的詳細(xì)信息失受,存在關(guān)于可重復(fù)性的擔(dān)憂讶泰。
- 集中在單一蛋白質(zhì)-配體系統(tǒng)的研究可能限制了研究結(jié)果的普遍適用性。
- 該研究未涉及該方法對(duì)其他蛋白質(zhì)或配體類型的潛在應(yīng)用拂到。
改進(jìn)建議
- 增強(qiáng)比較分析
- 包括與現(xiàn)有監(jiān)督和無監(jiān)督學(xué)習(xí)方法的詳細(xì)比較痪署,以展示所提出方法的優(yōu)勢(shì)。
- 提供案例研究或示例兄旬,證明新方法超越傳統(tǒng)方法狼犯。
- 加強(qiáng)驗(yàn)證和可重復(fù)性
- 包括額外的驗(yàn)證研究,可能涉及其他蛋白質(zhì)-配體系統(tǒng)领铐,以展示該方法的多樣性悯森。
- 提供模擬和深度學(xué)習(xí)算法使用的計(jì)算設(shè)置和參數(shù)的完整細(xì)節(jié)。
- 擴(kuò)大研究范圍
- 將該方法應(yīng)用于多種蛋白質(zhì)和配體绪撵,展示其更廣泛的適用性呐馆。
- 討論該方法對(duì)不同類型分子系統(tǒng)的潛在限制和未來的適應(yīng)性。
參考資料:
Mustali, J., Yasuda, I., Hirano, Y., Yasuoka, K., Gautieri, A., & Arai, N. (2023). Unsupervised deep learning for molecular dynamics simulations: a novel analysis of protein–ligand interactions in SARS-CoV-2 Mpro. RSC Advances, 13(48), 34249–34261. https://doi.org/10.1039/d3ra06375e
PDF Download: https://is.gd/YIzAQh