隨機(jī)森林模型如何提升多肽分子對接準(zhǔn)確性?


?

導(dǎo)讀

通過隨機(jī)森林分類器,提高多肽分子對接的準(zhǔn)確性拧篮。

近年來,60 種多肽藥物在主要市場獲批和超過 150 種多肽進(jìn)行臨床試驗牵舱,多肽治療領(lǐng)域受到廣泛關(guān)注串绩。

然而,傳統(tǒng)對接評分函數(shù)多為小分子設(shè)計芜壁,使得多肽分子對接在合理藥物設(shè)計中表現(xiàn)不佳礁凡,成為研究的難點。

本文介紹了一種隨機(jī)森林分類器慧妄,該分類器專門用于區(qū)分正確的多肽對接顷牌。

研究表明,在一個包含 47 個蛋白質(zhì)-肽復(fù)合物的測試集(與訓(xùn)練集結(jié)構(gòu)不同塞淹,此前用于評估 AutoDock Vina 對多肽對接能力的基準(zhǔn))上窟蓝,這些分類器將 AutoDock 評分函數(shù)的對接能力從約 25%提升至平均約 70%。

為了開發(fā)這些分類器饱普,作者整理了 ProptPep37_2021 數(shù)據(jù)集运挫,這是一個經(jīng)過篩選的高質(zhì)量晶體蛋白質(zhì)-肽復(fù)合物數(shù)據(jù)庫状共,帶有結(jié)構(gòu)相似性信息。該數(shù)據(jù)集還提供了一系列高質(zhì)量的假定構(gòu)象谁帕,與晶體構(gòu)象偏差范圍相對應(yīng)峡继,為每個條目提供了正確和錯誤的肽構(gòu)象(即誘餌)。ProptPep37_2021 數(shù)據(jù)集以及本文介紹的分類器均可免費獲取匈挖。

研究設(shè)計與方法

  • 研究設(shè)計: 研究者復(fù)現(xiàn)了先前文獻(xiàn)中 47 個蛋白質(zhì)-肽復(fù)合物的分子對接結(jié)果碾牌,使用了 AutoDock Vina 和 ADFR。
  • 數(shù)據(jù)集構(gòu)建: 從 RCSB 數(shù)據(jù)庫篩選高質(zhì)量蛋白質(zhì)-肽復(fù)合物关划,創(chuàng)建 ProtPep37_2021 數(shù)據(jù)集小染。該數(shù)據(jù)集遵循嚴(yán)格的篩選標(biāo)準(zhǔn),包括肽鏈長度贮折、結(jié)構(gòu)分辨率和蛋白質(zhì)-肽的相互作用裤翩。

ProtPep37_2021 數(shù)據(jù)集的組成

  • 數(shù)據(jù)集規(guī)模: 包含 322 個蛋白質(zhì)-肽復(fù)合物,肽鏈長度在三到七個氨基酸之間调榄。
  • 結(jié)構(gòu)多樣性: 數(shù)據(jù)集中蛋白質(zhì)鏈結(jié)構(gòu)上的多樣性踊赠,對確保模型泛化能力至關(guān)重要。

蛋白質(zhì)-肽結(jié)合模式

  • 結(jié)合方式: 研究團(tuán)隊對 322 個復(fù)合物進(jìn)行視覺檢查每庆,識別出肽鏈的不同結(jié)合模式筐带,如閉合口袋、隧道結(jié)構(gòu)等缤灵。
  • 結(jié)合位置: 通過分析肽鏈在蛋白質(zhì)表面的結(jié)合方式伦籍,提供了深入理解肽鏈與蛋白質(zhì)相互作用的新視角。

結(jié)構(gòu)相似性評估

  • TM-score 評分: 使用 TM-align 軟件計算蛋白質(zhì)鏈間的結(jié)構(gòu)相似性腮出,TM-score 評分從 0.0 到 1.0帖鸦,高分表示高相似性。
  • 數(shù)據(jù)集多樣性: 大多數(shù)鏈的相似性分?jǐn)?shù)低于 0.4胚嘲,顯示出 ProtPep37_2021 的結(jié)構(gòu)多樣性作儿。

構(gòu)建假定構(gòu)象集合(CPP)

  • 目的: 訓(xùn)練機(jī)器學(xué)習(xí)模型和評估對接性能,需要創(chuàng)建包含正確和錯誤解的假定構(gòu)象集合 CPP馋劈。
  • 方法: 使用 ADFR 進(jìn)行重對接菇篡,生成每個復(fù)合物的初始構(gòu)象集错蝴。

隨機(jī)森林模型訓(xùn)練

  • 特征定義: 定義 22 個特征拐揭,分為能量項玄窝、表面積相關(guān)特征和氫鍵相關(guān)特征。
  • 模型構(gòu)建: 使用 Python 的 scikit-learn 庫訓(xùn)練隨機(jī)森林模型械姻,處理大量特征并妥善處理特征間相關(guān)性寝志。
  • 防止過擬合: 限制訓(xùn)練集和測試集間的結(jié)構(gòu)相似性,確保模型真實性能。

性能評估

  • 對接能力(Docking Power): 評估函數(shù) f 在將正確構(gòu)象作為最高排名構(gòu)象的能力材部。通過分析最高排名構(gòu)象與晶體學(xué)構(gòu)象的 RMSD 值來計算毫缆。

主要結(jié)果

  • RF 模型的性能隨著 RMSDTP 截止值的增加而降低。
  • 利用 ADFR 評分可以顯著提升 RF 分類器的性能乐导。
  • 結(jié)合原始和標(biāo)準(zhǔn)化特征訓(xùn)練的 RF 模型表現(xiàn)最佳苦丁。

研究者在分析 RF 模型性能和選擇時首先發(fā)現(xiàn),所有 RF 分類器在利用 ADFR 評分對構(gòu)象進(jìn)行排名時表現(xiàn)顯著提升物臂。不同的 RF 分類器均呈現(xiàn)出性能隨著 RMSDTP 截止值增加而下降的趨勢旺拉,可能是由于 RMSDTP 截止值提高導(dǎo)致訓(xùn)練樣本中假陽性特征值增多,從而影響了決策樹的預(yù)測能力棵磷。

就 RF 分類器的整體性能而言蛾狗,僅使用 AutoDock 小分子特征的模型表現(xiàn)最差,而結(jié)合其他特征的 ADRS 和 ADRSH 模型表現(xiàn)最佳仪媒。特別是在 RMSDTP=0.0 時沉桌,這些模型性能相近且最優(yōu)。在驗證集上算吩,rADRS 模型被選為「最佳」模型留凭,因其直接使用 AutoDock 評分函數(shù)中的特征,并且在 RMSDTP 0.0 時偎巢,ADRS 與 ADRSH 性能相同蔼夜,但使用的特征較少。

在測試集上應(yīng)用分類器時压昼,所有 RF 模型均超越了訓(xùn)練集的范圍求冷,實際上在測試集上的表現(xiàn)甚至更好,這表明測試集相比隨機(jī)選擇自訓(xùn)練集的集合更為簡單窍霞。此外遵倦,觀察到隨著 RMSDTP 值的增加,性能逐漸降低官撼,使用原始特征進(jìn)行訓(xùn)練的模型表現(xiàn)最佳。

這些結(jié)果表明似谁,通過非線性組合 AutoDock 能量項的 RF 分類器極大提高了對接性能傲绣,超過了 AutoDock 評分函數(shù)的線性組合。此外巩踏,這些模型從增加的表面相關(guān)特征中受益秃诵,表明這些額外的特征捕捉了當(dāng)前 AutoDock 評分函數(shù)無法獲取的信息。

在蛋白質(zhì)配體對接應(yīng)用中塞琼,盡管開發(fā)這些 RF 模型的初衷是用于蛋白質(zhì)對接菠净,但目前介紹的方法和軟件不執(zhí)行對接,僅用于對現(xiàn)有、預(yù)生成的構(gòu)象進(jìn)行重新評分毅往∏A基于這些結(jié)果,預(yù)期在蛋白質(zhì)對接時使用這些 RF 分類器將大大提高對接成功率攀唯。這一假設(shè)得到了測試集上 CPPs 重新排序與實際對接模擬的對接能力類似的事實的支持洁桌,表明 CPPs 代表了模擬對接模擬的合理構(gòu)象集合。此外侯嘀,盡管訓(xùn)練集規(guī)模較小另凌,但每個模型訓(xùn)練的 12 個分類器的表現(xiàn)差異不大,表明這些分類器在不同樣本上訓(xùn)練時同樣有效且穩(wěn)定戒幔。而特征重要性的類似排名進(jìn)一步表明吠谢,這些模型依賴于類似的特征來分類構(gòu)象。這些跡象增強了我們的信心诗茎,即這些分類器在對接過程中用于對接構(gòu)象的排名時將提高性能工坊。

表格一:復(fù)合物統(tǒng)計數(shù)據(jù)

表格 1 展示了正確與錯誤分子對接構(gòu)象的復(fù)合物統(tǒng)計數(shù)據(jù)。所謂真陽性错沃,是指構(gòu)象的 RMSD(均方根偏差)值不超過 2.0 ?栅组。

表格二:特征描述及其包含的特征集

表格 2 詳盡列出了四個特征集中包含的特征描述。

a 代表小分子 AutoDock 評分函數(shù)的相關(guān)術(shù)語特征枢析。b rAD 和 Ramachandra 能量項玉掸。c rADR 和與表面相關(guān)的特征。d rADRS 和與氫鍵相關(guān)的特征醒叁。

表格三:歸一化特征描述及其在 RF 模型中的應(yīng)用

表格 3 展示了在 RF(隨機(jī)森林)模型中使用的歸一化特征描述司浪。

總結(jié):

研究者精心構(gòu)建了一個含 322 個晶體結(jié)構(gòu)的蛋白質(zhì)-肽復(fù)合物數(shù)據(jù)集。這些數(shù)據(jù)不僅明確了蛋白質(zhì)鏈的相似性把沼,還包含了正確與錯誤(誘餌)的構(gòu)象啊易。這個數(shù)據(jù)集對開發(fā)、測試和評估蛋白質(zhì)-肽相互作用預(yù)測方法的社區(qū)具有重要價值饮睬。

依托該數(shù)據(jù)集租谈,研究者開發(fā)了隨機(jī)森林分類器,用以評估肽與其受體相互作用的特定配置的準(zhǔn)確性捆愁。通過避免訓(xùn)練和測試集間的結(jié)構(gòu)重疊割去,分類器得以實現(xiàn)超越訓(xùn)練集的外推能力。盡管機(jī)器學(xué)習(xí)技術(shù)已被廣泛應(yīng)用于小分子結(jié)合自由能的預(yù)測昼丑,并偶爾用于提升小分子對接能力呻逆,這是首次應(yīng)用隨機(jī)森林分類器提升肽對接構(gòu)象的排名。研究證明菩帝,該分類器在后對接重排實驗中顯著提高了正確構(gòu)象相對于錯誤構(gòu)象的排名咖城,其成功率與小分子對接相當(dāng)茬腿,同時遵循了小分子對接領(lǐng)域通用的嚴(yán)格成功度量標(biāo)準(zhǔn)。

研究者討論了將這些模型整合進(jìn) AutoDockFR 對接引擎的可能性宜雀,并預(yù)期這將顯著提高對小肽的對接成功率切平。通過模型整合,研究者能夠不斷完善模型州袒,因為將生成含有更具競爭力的錯誤解的新假設(shè)構(gòu)象集合(CPP)揭绑,用于訓(xùn)練。


參考資料:
  • Sanner, M. F., Dieguez, L., Forli, S., & Lis, E. (2021). Improving Docking Power for Short Peptides Using Random Forest. Journal of Chemical Information and Modeling, 61(6), 3074–3090. https://doi.org/10.1021/acs.jcim.1c00573 IF: 5.6 Q1 B2

  • Data and code:http://github.com/sannerlab/ProtPepRFScorePaper2021

— 完 —

點擊這里??關(guān)注我郎哭,記得標(biāo)星哦~

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末他匪,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子夸研,更是在濱河造成了極大的恐慌邦蜜,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,839評論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件亥至,死亡現(xiàn)場離奇詭異悼沈,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)姐扮,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,543評論 2 382
  • 文/潘曉璐 我一進(jìn)店門絮供,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人茶敏,你說我怎么就攤上這事壤靶。” “怎么了惊搏?”我有些...
    開封第一講書人閱讀 153,116評論 0 344
  • 文/不壞的土叔 我叫張陵贮乳,是天一觀的道長。 經(jīng)常有香客問我恬惯,道長向拆,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,371評論 1 279
  • 正文 為了忘掉前任酪耳,我火速辦了婚禮浓恳,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘碗暗。我一直安慰自己颈将,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 64,384評論 5 374
  • 文/花漫 我一把揭開白布讹堤。 她就那樣靜靜地躺著,像睡著了一般厨疙。 火紅的嫁衣襯著肌膚如雪洲守。 梳的紋絲不亂的頭發(fā)上疑务,一...
    開封第一講書人閱讀 49,111評論 1 285
  • 那天,我揣著相機(jī)與錄音梗醇,去河邊找鬼知允。 笑死,一個胖子當(dāng)著我的面吹牛叙谨,可吹牛的內(nèi)容都是我干的温鸽。 我是一名探鬼主播,決...
    沈念sama閱讀 38,416評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼手负,長吁一口氣:“原來是場噩夢啊……” “哼涤垫!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起竟终,我...
    開封第一講書人閱讀 37,053評論 0 259
  • 序言:老撾萬榮一對情侶失蹤蝠猬,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后统捶,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體榆芦,經(jīng)...
    沈念sama閱讀 43,558評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,007評論 2 325
  • 正文 我和宋清朗相戀三年喘鸟,在試婚紗的時候發(fā)現(xiàn)自己被綠了匆绣。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,117評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡什黑,死狀恐怖崎淳,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情兑凿,我是刑警寧澤凯力,帶...
    沈念sama閱讀 33,756評論 4 324
  • 正文 年R本政府宣布,位于F島的核電站礼华,受9級特大地震影響咐鹤,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜圣絮,卻給世界環(huán)境...
    茶點故事閱讀 39,324評論 3 307
  • 文/蒙蒙 一祈惶、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧扮匠,春花似錦捧请、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,315評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至力麸,卻和暖如春可款,著一層夾襖步出監(jiān)牢的瞬間育韩,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,539評論 1 262
  • 我被黑心中介騙來泰國打工闺鲸, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留筋讨,地道東北人。 一個月前我還...
    沈念sama閱讀 45,578評論 2 355
  • 正文 我出身青樓摸恍,卻偏偏與公主長得像悉罕,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子立镶,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 42,877評論 2 345

推薦閱讀更多精彩內(nèi)容