RSC Advances| 無監(jiān)督深度學(xué)習(xí)框架探索蛋白質(zhì)-配體相互作用



導(dǎo)讀

結(jié)合無監(jiān)督深度學(xué)習(xí)和分子動(dòng)力學(xué)模擬,能有效加速藥物發(fā)現(xiàn)過程踢涌。

今天給大家介紹一篇 2023 年發(fā)表在 RSC Advances 上的文章, 標(biāo)題為:《Unsupervised deep learning for molecular dynamics simulations: a novel analysis of protein–ligand interactions in SARS-CoV-2 Mpro》冒晰。

我們知道分子動(dòng)力學(xué)(MD)模擬是藥物發(fā)現(xiàn)的核心環(huán)節(jié)掌动,有助于深入了解蛋白質(zhì)與配體的相互作用糙麦。但是吆鹤,分析大型 MD 數(shù)據(jù)集依然是一大挑戰(zhàn)。現(xiàn)有機(jī)器學(xué)習(xí)解決方案多為監(jiān)督式好啰,面臨數(shù)據(jù)標(biāo)注和標(biāo)準(zhǔn)化的問題轩娶。

該研究使用了一種無監(jiān)督深度學(xué)習(xí)框架,已在剛性蛋白質(zhì)上進(jìn)行基準(zhǔn)測試坎怪,用于研究 SARS-CoV-2 主蛋白酶(Mpro)罢坝。研究者對(duì) Mpro 與不同配體進(jìn)行了 MD 模擬廓握,并精煉數(shù)據(jù)搅窿,聚焦于結(jié)合位點(diǎn)殘基和穩(wěn)定蛋白構(gòu)象的時(shí)間幀。篩選出的最優(yōu)描述符為殘基與結(jié)合口袋中心的距離隙券。利用此方法男应,生成了一個(gè)局部動(dòng)態(tài)集合,輸入到神經(jīng)網(wǎng)絡(luò)中娱仔,計(jì)算不同系統(tǒng)間的 Wasserstein 距離沐飘,揭示配體引起的 Mpro 構(gòu)象差異。

降維處理產(chǎn)生的嵌入圖表明了配體引發(fā)的動(dòng)力學(xué)變化與結(jié)合親和力之間的相關(guān)性。特別是耐朴,高親和力化合物對(duì)蛋白質(zhì)構(gòu)象的影響更為顯著借卧。研究還識(shí)別了導(dǎo)致這些差異的關(guān)鍵殘基。該發(fā)現(xiàn)突顯了結(jié)合無監(jiān)督深度學(xué)習(xí)與 MD 模擬的潛力筛峭,可提取重要信息铐刘,加速藥物發(fā)現(xiàn)進(jìn)程。

方法流程

分子動(dòng)力學(xué)模擬

  • 目標(biāo):觀察 11 種不同配體與 Mpro 的相互作用影晓。
  • 過程:對(duì)每種配體進(jìn)行了三次獨(dú)立模擬镰吵,每次持續(xù)一微秒,以收集構(gòu)象狀態(tài)和動(dòng)力學(xué)的多樣化數(shù)據(jù)挂签。
  • 性能:模擬以每天 310 納秒的速率完成疤祭,每次大約需 77 小時(shí)。

機(jī)器學(xué)習(xí)驅(qū)動(dòng)的分析

  • 深度學(xué)習(xí)模型:用于通過無監(jiān)督學(xué)習(xí)計(jì)算 Wasserstein 距離饵婆,衡量數(shù)據(jù)集之間的差異勺馆。
  • 優(yōu)勢(shì):相較于依賴標(biāo)記數(shù)據(jù)的監(jiān)督學(xué)習(xí)方法,作者的方法不依賴標(biāo)記數(shù)據(jù)侨核,盡管代價(jià)是更長的處理時(shí)間谓传。

MD 模擬細(xì)節(jié)

  • 蛋白結(jié)構(gòu):研究了 Mpro 的均聚二聚體半胱氨酸蛋白酶形式,包括未結(jié)合(apo)和配體結(jié)合形式芹关。
  • 活性位點(diǎn)組成:對(duì)參與底物結(jié)合區(qū)域和催化活性的關(guān)鍵殘基進(jìn)行了詳細(xì)分解续挟。
  • PDB 結(jié)構(gòu):獲取和準(zhǔn)備模擬所需的結(jié)構(gòu),包括調(diào)整質(zhì)子化狀態(tài)和同源建模侥衬。

模擬設(shè)置

  • 軟件和參數(shù):使用 GROMACS 2023 進(jìn)行模擬诗祸,詳細(xì)介紹了從系統(tǒng)中和到生產(chǎn)階段的步驟。
  • 數(shù)據(jù)收集:強(qiáng)調(diào)了捕獲和分析軌跡數(shù)據(jù)的系統(tǒng)方法轴总。

分析和結(jié)果

軌跡分析

  • 描述符選擇:專注于結(jié)合位點(diǎn)殘基直颅,以有效捕獲配體結(jié)合效果,同時(shí)兼顧計(jì)算需求怀樟。
  • 基于距離的描述符:這個(gè)可以有效代表 Mpro 的結(jié)構(gòu)和動(dòng)態(tài)差異功偿。

局部動(dòng)力學(xué)集合(LDE)

  • 創(chuàng)建和目的:從選定的 MD 軌跡間隔構(gòu)建 LDE,以突出穩(wěn)定構(gòu)象及其相關(guān)動(dòng)力學(xué)往堡。
  • 分析技術(shù):采用主成分分析(PCA)識(shí)別深入研究的關(guān)鍵時(shí)間窗口械荷。

機(jī)器學(xué)習(xí)應(yīng)用

  • Wasserstein 距離計(jì)算:解釋了如何使用深度神經(jīng)網(wǎng)絡(luò)(DNN)計(jì)算這一度量,以分析 LDE 的差異虑灰。
  • LDE 矩陣構(gòu)成:描述了封裝結(jié)合位點(diǎn)動(dòng)力學(xué)的高維矩陣吨瞎。
  • ML 分析洞見:通過詳細(xì)的計(jì)算方法揭示了配體結(jié)合顯著影響的殘基。

主要結(jié)果及圖表

研究比較了 Mpro 在存在與缺乏 11 種抑制劑時(shí)的局部構(gòu)象動(dòng)力學(xué)穆咐,揭示了藥物結(jié)合對(duì)其結(jié)構(gòu)穩(wěn)定性和靈活性的影響颤诀。研究者進(jìn)行了三次 1 毫秒的分子動(dòng)力學(xué)(MD)模擬字旭,監(jiān)測 Mpro 結(jié)構(gòu)穩(wěn)定性,并測量了其 Ca 原子的均方根位移(RMSD)崖叫。通過殘基基于的均方根波動(dòng)(RMSF)分析遗淳,計(jì)算了二聚體 Mpro 中各系統(tǒng)鏈條的 RMSF 值,確認(rèn)了 Mpro 結(jié)構(gòu)的靈活性心傀。

Kneller 等人的實(shí)驗(yàn)研究及其他計(jì)算方法的研究進(jìn)一步突出了 Mpro 結(jié)構(gòu)的異質(zhì)性及其在藥物結(jié)合熱力學(xué)性質(zhì)中的重要性洲脂。RMSF 數(shù)據(jù)顯示兩個(gè)原子高 RMSF 區(qū)域,表明這些區(qū)域在系統(tǒng)間波動(dòng)具有顯著差異剧包。

研究者還運(yùn)用無監(jiān)督深度學(xué)習(xí)揭示了 MD 數(shù)據(jù)中的復(fù)雜動(dòng)態(tài)特性恐锦,這是傳統(tǒng)分析方法如 RMSF 無法發(fā)現(xiàn)的。確定了 Mpro 結(jié)合位點(diǎn)殘基疆液、適當(dāng)?shù)臅r(shí)間窗口一铅,并通過主成分分析(PCA)選擇了框架窗口。此外堕油,深度學(xué)習(xí)方法提取了蛋白-配體系統(tǒng)的關(guān)鍵特征潘飘,發(fā)現(xiàn) PC2 組件與 pIC50 之間的相關(guān)性揭示了與配體結(jié)合親和力相關(guān)的構(gòu)象差異。

最后掉缺,分析了特定氨基酸對(duì)配體誘導(dǎo)動(dòng)力學(xué)的貢獻(xiàn)卜录,識(shí)別出在結(jié)合親和力最高和最低系統(tǒng)間表現(xiàn)出顯著動(dòng)態(tài)差異的特定氨基酸。這些發(fā)現(xiàn)與其他研究的獨(dú)立見解相呼應(yīng)眶明,深化了對(duì) Mpro 在蛋白-配體相互作用中動(dòng)力學(xué)的理解艰毒。

圖表 1

  • a) MD 軌跡分析:未結(jié)合配體(apo-protein)和結(jié)合配體(holo-protein)狀態(tài)下的系統(tǒng)。
  • b) 計(jì)算方法:追蹤每個(gè)結(jié)合口袋殘基的質(zhì)心與口袋幾何中心間的距離變化搜囱。
  • c) 特征表征:通過局部動(dòng)力學(xué)集合(LDE)展現(xiàn)配體誘導(dǎo)的蛋白質(zhì)構(gòu)象變化丑瞧,即基于短期軌跡集合的距離描述符。
  • d) 差異分析:利用深度神經(jīng)網(wǎng)絡(luò)近似的函數(shù) fij蜀肘,基于 Wasserstein 距離 Wij 計(jì)算不同系統(tǒng) LDEs 間的差異绊汹。
  • e) 數(shù)據(jù)處理:將 Wasserstein 距離矩陣中的數(shù)據(jù)點(diǎn)嵌入低維空間,并進(jìn)行主成分分析(PCA)扮宠。
  • f) 結(jié)果解讀:通過函數(shù) gij(xi)探討特定殘基對(duì) LDEs 差異的影響西乖,依靠深度神經(jīng)網(wǎng)絡(luò)(DNNs)計(jì)算。對(duì)比特征性與非特征性軌跡坛增,計(jì)算每個(gè)殘基的距離描述符 di 的平均值获雕。特別是當(dāng) di 值在兩種軌跡間差異顯著時(shí),表明殘基受配體影響較大轿偎。

圖表 2

  • a) 結(jié)構(gòu)展示:SARS-CoV-2 Mpro 蛋白的二聚體三維結(jié)構(gòu)典鸡。
  • b) 結(jié)合特點(diǎn):展示 Mpro 蛋白的結(jié)合位點(diǎn)被廓,選定的結(jié)合口袋殘基以棍狀模型標(biāo)注坏晦。
  • c) 可視化描述:用球體模型表示結(jié)合口袋殘基,計(jì)算每個(gè)選定殘基的質(zhì)心與口袋幾何中心(cog)間的距離。

圖表 3

  • 描述:基于根均方波動(dòng)(RMSF)平均值昆婿,分析蛋白質(zhì)主鏈殘基在首 1 毫秒 MD 模擬的 12 個(gè)系統(tǒng)的單體 A 和單體 B球碉。

圖表 4

  • 分析:對(duì)選定的穩(wěn)定結(jié)構(gòu)數(shù)據(jù)進(jìn)行主成分分析(PCA)繪圖。

圖表 5

  • a) 距離矩陣:用于描述系統(tǒng)對(duì) LDEs 概率分布的 Wasserstein 距離矩陣仓蛆。較大的 Wasserstein 距離(黃色)指示蛋白質(zhì)結(jié)構(gòu)和動(dòng)力學(xué)上的顯著差異睁冬。
  • b) 數(shù)據(jù)點(diǎn)展示:展現(xiàn)距離矩陣的嵌入點(diǎn)及相關(guān)系統(tǒng)的化學(xué)結(jié)構(gòu)。數(shù)據(jù)點(diǎn)按照實(shí)驗(yàn)綁定親和力值(pIC50)進(jìn)行著色看疙,pIC50 為 IC50 的負(fù)對(duì)數(shù)值豆拨。IC50 詳見表 1(下文表格)。

圖表 6

  • 相關(guān)性分析:探討主成分 2(PC2)與實(shí)驗(yàn)綁定親和力數(shù)據(jù)(pIC50)的相關(guān)性能庆,采用 Pearson 系數(shù)進(jìn)行量化施禾,系數(shù)值為 0.7。

圖表 7

  • 動(dòng)力學(xué)對(duì)比:對(duì)選定系統(tǒng)對(duì)進(jìn)行特征動(dòng)力學(xué)分析搁胆,并探討結(jié)合位點(diǎn)殘基的作用弥搞。將系統(tǒng) i 的短期軌跡分類為特征(高,系統(tǒng) i 特有)渠旁、非特征(低攀例,類似于系統(tǒng) j)和其他(中),并計(jì)算各結(jié)合位點(diǎn)殘基與口袋中心距離的平均值顾腊。a) 高親和性系統(tǒng) 6M0K 與低親和性系統(tǒng) 7JYC 間的特征動(dòng)力學(xué)對(duì)比粤铭。b) 兩個(gè)高親和性系統(tǒng) 6M0K 與 6LZE 間的特征動(dòng)力學(xué)分析。

SARS-CoV-2 抑制劑總結(jié)分析

表格 1 顯示了本研究涉及的 SARS-CoV-2 抑制劑概述杂靶。該表格列出了它們的 PDB 結(jié)構(gòu)承耿、分子量(MWs)(單位:g/mol)以及實(shí)驗(yàn)測得的結(jié)合親和力(IC50)值(單位:mM)。

表格 2 基于對(duì)每種蛋白-配體系統(tǒng)三次分子動(dòng)力學(xué)(MD)模擬的接觸分析伪煤,列出了關(guān)鍵殘基摘要加袋。這些關(guān)鍵的結(jié)合口袋殘基包括 His41, Met49, Phe40, Leu141, Asn142, Gly143, Ser144, Cys145, His163, His164, Met165, Glu166, Pro168, His172, Arg188, Gln189, Thr190, Gln192。

創(chuàng)新性與價(jià)值

  1. 該研究提出了一種新穎的方法抱既,將無監(jiān)督深度學(xué)習(xí)與分子動(dòng)力學(xué)(MD)模擬相結(jié)合职烧,專注于研究 SARS-CoV-2 主要蛋白酶(Mpro)和多種配體。
  2. 研究者的方法在處理大規(guī)模 MD 數(shù)據(jù)集時(shí)具有創(chuàng)新性防泵,無需進(jìn)行監(jiān)督學(xué)習(xí)蚀之,可能克服了數(shù)據(jù)標(biāo)注和標(biāo)準(zhǔn)化等限制。

缺點(diǎn)

  • 缺乏與現(xiàn)有方法的比較分析
  1. 論文未能充分對(duì)其方法與現(xiàn)有監(jiān)督和無監(jiān)督方法進(jìn)行基準(zhǔn)測試捷泞。
  2. 缺乏比較分析可能引發(fā)對(duì)方法效果與現(xiàn)有技術(shù)相比的疑問足删。
  • 驗(yàn)證和可重復(fù)性問題
    1. 鑒于蛋白質(zhì)動(dòng)力學(xué)的復(fù)雜性,該方法的驗(yàn)證似乎不夠充分锁右。
    2. 由于缺乏關(guān)于計(jì)算環(huán)境和軟件參數(shù)的詳細(xì)信息失受,存在關(guān)于可重復(fù)性的擔(dān)憂讶泰。
  • 研究范圍和應(yīng)用的限制
    1. 集中在單一蛋白質(zhì)-配體系統(tǒng)的研究可能限制了研究結(jié)果的普遍適用性。
    2. 該研究未涉及該方法對(duì)其他蛋白質(zhì)或配體類型的潛在應(yīng)用拂到。

    改進(jìn)建議

    • 增強(qiáng)比較分析
      • 包括與現(xiàn)有監(jiān)督和無監(jiān)督學(xué)習(xí)方法的詳細(xì)比較痪署,以展示所提出方法的優(yōu)勢(shì)。
      • 提供案例研究或示例兄旬,證明新方法超越傳統(tǒng)方法狼犯。
    • 加強(qiáng)驗(yàn)證和可重復(fù)性
      • 包括額外的驗(yàn)證研究,可能涉及其他蛋白質(zhì)-配體系統(tǒng)领铐,以展示該方法的多樣性悯森。
      • 提供模擬和深度學(xué)習(xí)算法使用的計(jì)算設(shè)置和參數(shù)的完整細(xì)節(jié)。
    • 擴(kuò)大研究范圍
      • 將該方法應(yīng)用于多種蛋白質(zhì)和配體绪撵,展示其更廣泛的適用性呐馆。
      • 討論該方法對(duì)不同類型分子系統(tǒng)的潛在限制和未來的適應(yīng)性。

    參考資料:
    • Mustali, J., Yasuda, I., Hirano, Y., Yasuoka, K., Gautieri, A., & Arai, N. (2023). Unsupervised deep learning for molecular dynamics simulations: a novel analysis of protein–ligand interactions in SARS-CoV-2 Mpro. RSC Advances, 13(48), 34249–34261. https://doi.org/10.1039/d3ra06375e

    • PDF Download: https://is.gd/YIzAQh


    ?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
    • 序言:七十年代末莲兢,一起剝皮案震驚了整個(gè)濱河市汹来,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌改艇,老刑警劉巖收班,帶你破解...
      沈念sama閱讀 206,126評(píng)論 6 481
    • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異谒兄,居然都是意外死亡摔桦,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
      沈念sama閱讀 88,254評(píng)論 2 382
    • 文/潘曉璐 我一進(jìn)店門承疲,熙熙樓的掌柜王于貴愁眉苦臉地迎上來邻耕,“玉大人,你說我怎么就攤上這事燕鸽⌒质溃” “怎么了?”我有些...
      開封第一講書人閱讀 152,445評(píng)論 0 341
    • 文/不壞的土叔 我叫張陵啊研,是天一觀的道長御滩。 經(jīng)常有香客問我,道長党远,這世上最難降的妖魔是什么削解? 我笑而不...
      開封第一講書人閱讀 55,185評(píng)論 1 278
    • 正文 為了忘掉前任,我火速辦了婚禮沟娱,結(jié)果婚禮上氛驮,老公的妹妹穿的比我還像新娘。我一直安慰自己济似,他們只是感情好矫废,可當(dāng)我...
      茶點(diǎn)故事閱讀 64,178評(píng)論 5 371
    • 文/花漫 我一把揭開白布盏缤。 她就那樣靜靜地躺著,像睡著了一般磷脯。 火紅的嫁衣襯著肌膚如雪蛾找。 梳的紋絲不亂的頭發(fā)上娩脾,一...
      開封第一講書人閱讀 48,970評(píng)論 1 284
    • 那天赵誓,我揣著相機(jī)與錄音,去河邊找鬼柿赊。 笑死俩功,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的碰声。 我是一名探鬼主播诡蜓,決...
      沈念sama閱讀 38,276評(píng)論 3 399
    • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢(mèng)啊……” “哼胰挑!你這毒婦竟也來了蔓罚?” 一聲冷哼從身側(cè)響起,我...
      開封第一講書人閱讀 36,927評(píng)論 0 259
    • 序言:老撾萬榮一對(duì)情侶失蹤瞻颂,失蹤者是張志新(化名)和其女友劉穎豺谈,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體贡这,經(jīng)...
      沈念sama閱讀 43,400評(píng)論 1 300
    • 正文 獨(dú)居荒郊野嶺守林人離奇死亡茬末,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
      茶點(diǎn)故事閱讀 35,883評(píng)論 2 323
    • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了盖矫。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片丽惭。...
      茶點(diǎn)故事閱讀 37,997評(píng)論 1 333
    • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖辈双,靈堂內(nèi)的尸體忽然破棺而出责掏,到底是詐尸還是另有隱情,我是刑警寧澤湃望,帶...
      沈念sama閱讀 33,646評(píng)論 4 322
    • 正文 年R本政府宣布拷橘,位于F島的核電站,受9級(jí)特大地震影響喜爷,放射性物質(zhì)發(fā)生泄漏冗疮。R本人自食惡果不足惜,卻給世界環(huán)境...
      茶點(diǎn)故事閱讀 39,213評(píng)論 3 307
    • 文/蒙蒙 一檩帐、第九天 我趴在偏房一處隱蔽的房頂上張望术幔。 院中可真熱鬧,春花似錦湃密、人聲如沸诅挑。這莊子的主人今日做“春日...
      開封第一講書人閱讀 30,204評(píng)論 0 19
    • 文/蒼蘭香墨 我抬頭看了看天上的太陽拔妥。三九已至忿危,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間没龙,已是汗流浹背铺厨。 一陣腳步聲響...
      開封第一講書人閱讀 31,423評(píng)論 1 260
    • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留硬纤,地道東北人解滓。 一個(gè)月前我還...
      沈念sama閱讀 45,423評(píng)論 2 352
    • 正文 我出身青樓,卻偏偏與公主長得像筝家,于是被迫代替她去往敵國和親洼裤。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
      茶點(diǎn)故事閱讀 42,722評(píng)論 2 345

    推薦閱讀更多精彩內(nèi)容