?
導(dǎo)讀
通過隨機(jī)森林分類器,提高多肽分子對接的準(zhǔn)確性拧篮。
近年來,60 種多肽藥物在主要市場獲批和超過 150 種多肽進(jìn)行臨床試驗牵舱,多肽治療領(lǐng)域受到廣泛關(guān)注串绩。
然而,傳統(tǒng)對接評分函數(shù)多為小分子設(shè)計芜壁,使得多肽分子對接在合理藥物設(shè)計中表現(xiàn)不佳礁凡,成為研究的難點。
本文介紹了一種隨機(jī)森林分類器慧妄,該分類器專門用于區(qū)分正確的多肽對接顷牌。
研究表明,在一個包含 47 個蛋白質(zhì)-肽復(fù)合物的測試集(與訓(xùn)練集結(jié)構(gòu)不同塞淹,此前用于評估 AutoDock Vina 對多肽對接能力的基準(zhǔn))上窟蓝,這些分類器將 AutoDock 評分函數(shù)的對接能力從約 25%提升至平均約 70%。
為了開發(fā)這些分類器饱普,作者整理了 ProptPep37_2021 數(shù)據(jù)集运挫,這是一個經(jīng)過篩選的高質(zhì)量晶體蛋白質(zhì)-肽復(fù)合物數(shù)據(jù)庫状共,帶有結(jié)構(gòu)相似性信息。該數(shù)據(jù)集還提供了一系列高質(zhì)量的假定構(gòu)象谁帕,與晶體構(gòu)象偏差范圍相對應(yīng)峡继,為每個條目提供了正確和錯誤的肽構(gòu)象(即誘餌)。ProptPep37_2021 數(shù)據(jù)集以及本文介紹的分類器均可免費獲取匈挖。
研究設(shè)計與方法
- 研究設(shè)計: 研究者復(fù)現(xiàn)了先前文獻(xiàn)中 47 個蛋白質(zhì)-肽復(fù)合物的分子對接結(jié)果碾牌,使用了 AutoDock Vina 和 ADFR。
- 數(shù)據(jù)集構(gòu)建: 從 RCSB 數(shù)據(jù)庫篩選高質(zhì)量蛋白質(zhì)-肽復(fù)合物关划,創(chuàng)建 ProtPep37_2021 數(shù)據(jù)集小染。該數(shù)據(jù)集遵循嚴(yán)格的篩選標(biāo)準(zhǔn),包括肽鏈長度贮折、結(jié)構(gòu)分辨率和蛋白質(zhì)-肽的相互作用裤翩。
ProtPep37_2021 數(shù)據(jù)集的組成
- 數(shù)據(jù)集規(guī)模: 包含 322 個蛋白質(zhì)-肽復(fù)合物,肽鏈長度在三到七個氨基酸之間调榄。
- 結(jié)構(gòu)多樣性: 數(shù)據(jù)集中蛋白質(zhì)鏈結(jié)構(gòu)上的多樣性踊赠,對確保模型泛化能力至關(guān)重要。
蛋白質(zhì)-肽結(jié)合模式
- 結(jié)合方式: 研究團(tuán)隊對 322 個復(fù)合物進(jìn)行視覺檢查每庆,識別出肽鏈的不同結(jié)合模式筐带,如閉合口袋、隧道結(jié)構(gòu)等缤灵。
- 結(jié)合位置: 通過分析肽鏈在蛋白質(zhì)表面的結(jié)合方式伦籍,提供了深入理解肽鏈與蛋白質(zhì)相互作用的新視角。
結(jié)構(gòu)相似性評估
- TM-score 評分: 使用 TM-align 軟件計算蛋白質(zhì)鏈間的結(jié)構(gòu)相似性腮出,TM-score 評分從 0.0 到 1.0帖鸦,高分表示高相似性。
- 數(shù)據(jù)集多樣性: 大多數(shù)鏈的相似性分?jǐn)?shù)低于 0.4胚嘲,顯示出 ProtPep37_2021 的結(jié)構(gòu)多樣性作儿。
構(gòu)建假定構(gòu)象集合(CPP)
- 目的: 訓(xùn)練機(jī)器學(xué)習(xí)模型和評估對接性能,需要創(chuàng)建包含正確和錯誤解的假定構(gòu)象集合 CPP馋劈。
- 方法: 使用 ADFR 進(jìn)行重對接菇篡,生成每個復(fù)合物的初始構(gòu)象集错蝴。
隨機(jī)森林模型訓(xùn)練
- 特征定義: 定義 22 個特征拐揭,分為能量項玄窝、表面積相關(guān)特征和氫鍵相關(guān)特征。
- 模型構(gòu)建: 使用 Python 的 scikit-learn 庫訓(xùn)練隨機(jī)森林模型械姻,處理大量特征并妥善處理特征間相關(guān)性寝志。
- 防止過擬合: 限制訓(xùn)練集和測試集間的結(jié)構(gòu)相似性,確保模型真實性能。
性能評估
- 對接能力(Docking Power): 評估函數(shù) f 在將正確構(gòu)象作為最高排名構(gòu)象的能力材部。通過分析最高排名構(gòu)象與晶體學(xué)構(gòu)象的 RMSD 值來計算毫缆。
主要結(jié)果
- RF 模型的性能隨著 RMSDTP 截止值的增加而降低。
- 利用 ADFR 評分可以顯著提升 RF 分類器的性能乐导。
- 結(jié)合原始和標(biāo)準(zhǔn)化特征訓(xùn)練的 RF 模型表現(xiàn)最佳苦丁。
研究者在分析 RF 模型性能和選擇時首先發(fā)現(xiàn),所有 RF 分類器在利用 ADFR 評分對構(gòu)象進(jìn)行排名時表現(xiàn)顯著提升物臂。不同的 RF 分類器均呈現(xiàn)出性能隨著 RMSDTP 截止值增加而下降的趨勢旺拉,可能是由于 RMSDTP 截止值提高導(dǎo)致訓(xùn)練樣本中假陽性特征值增多,從而影響了決策樹的預(yù)測能力棵磷。
就 RF 分類器的整體性能而言蛾狗,僅使用 AutoDock 小分子特征的模型表現(xiàn)最差,而結(jié)合其他特征的 ADRS 和 ADRSH 模型表現(xiàn)最佳仪媒。特別是在 RMSDTP=0.0 時沉桌,這些模型性能相近且最優(yōu)。在驗證集上算吩,rADRS 模型被選為「最佳」模型留凭,因其直接使用 AutoDock 評分函數(shù)中的特征,并且在 RMSDTP 0.0 時偎巢,ADRS 與 ADRSH 性能相同蔼夜,但使用的特征較少。
在測試集上應(yīng)用分類器時压昼,所有 RF 模型均超越了訓(xùn)練集的范圍求冷,實際上在測試集上的表現(xiàn)甚至更好,這表明測試集相比隨機(jī)選擇自訓(xùn)練集的集合更為簡單窍霞。此外遵倦,觀察到隨著 RMSDTP 值的增加,性能逐漸降低官撼,使用原始特征進(jìn)行訓(xùn)練的模型表現(xiàn)最佳。
這些結(jié)果表明似谁,通過非線性組合 AutoDock 能量項的 RF 分類器極大提高了對接性能傲绣,超過了 AutoDock 評分函數(shù)的線性組合。此外巩踏,這些模型從增加的表面相關(guān)特征中受益秃诵,表明這些額外的特征捕捉了當(dāng)前 AutoDock 評分函數(shù)無法獲取的信息。
在蛋白質(zhì)配體對接應(yīng)用中塞琼,盡管開發(fā)這些 RF 模型的初衷是用于蛋白質(zhì)對接菠净,但目前介紹的方法和軟件不執(zhí)行對接,僅用于對現(xiàn)有、預(yù)生成的構(gòu)象進(jìn)行重新評分毅往∏A基于這些結(jié)果,預(yù)期在蛋白質(zhì)對接時使用這些 RF 分類器將大大提高對接成功率攀唯。這一假設(shè)得到了測試集上 CPPs 重新排序與實際對接模擬的對接能力類似的事實的支持洁桌,表明 CPPs 代表了模擬對接模擬的合理構(gòu)象集合。此外侯嘀,盡管訓(xùn)練集規(guī)模較小另凌,但每個模型訓(xùn)練的 12 個分類器的表現(xiàn)差異不大,表明這些分類器在不同樣本上訓(xùn)練時同樣有效且穩(wěn)定戒幔。而特征重要性的類似排名進(jìn)一步表明吠谢,這些模型依賴于類似的特征來分類構(gòu)象。這些跡象增強了我們的信心诗茎,即這些分類器在對接過程中用于對接構(gòu)象的排名時將提高性能工坊。
表格一:復(fù)合物統(tǒng)計數(shù)據(jù)
表格 1 展示了正確與錯誤分子對接構(gòu)象的復(fù)合物統(tǒng)計數(shù)據(jù)。所謂真陽性错沃,是指構(gòu)象的 RMSD(均方根偏差)值不超過 2.0 ?栅组。
表格二:特征描述及其包含的特征集
表格 2 詳盡列出了四個特征集中包含的特征描述。
a 代表小分子 AutoDock 評分函數(shù)的相關(guān)術(shù)語特征枢析。b rAD 和 Ramachandra 能量項玉掸。c rADR 和與表面相關(guān)的特征。d rADRS 和與氫鍵相關(guān)的特征醒叁。
表格三:歸一化特征描述及其在 RF 模型中的應(yīng)用
表格 3 展示了在 RF(隨機(jī)森林)模型中使用的歸一化特征描述司浪。
總結(jié):
研究者精心構(gòu)建了一個含 322 個晶體結(jié)構(gòu)的蛋白質(zhì)-肽復(fù)合物數(shù)據(jù)集。這些數(shù)據(jù)不僅明確了蛋白質(zhì)鏈的相似性把沼,還包含了正確與錯誤(誘餌)的構(gòu)象啊易。這個數(shù)據(jù)集對開發(fā)、測試和評估蛋白質(zhì)-肽相互作用預(yù)測方法的社區(qū)具有重要價值饮睬。
依托該數(shù)據(jù)集租谈,研究者開發(fā)了隨機(jī)森林分類器,用以評估肽與其受體相互作用的特定配置的準(zhǔn)確性捆愁。通過避免訓(xùn)練和測試集間的結(jié)構(gòu)重疊割去,分類器得以實現(xiàn)超越訓(xùn)練集的外推能力。盡管機(jī)器學(xué)習(xí)技術(shù)已被廣泛應(yīng)用于小分子結(jié)合自由能的預(yù)測昼丑,并偶爾用于提升小分子對接能力呻逆,這是首次應(yīng)用隨機(jī)森林分類器提升肽對接構(gòu)象的排名。研究證明菩帝,該分類器在后對接重排實驗中顯著提高了正確構(gòu)象相對于錯誤構(gòu)象的排名咖城,其成功率與小分子對接相當(dāng)茬腿,同時遵循了小分子對接領(lǐng)域通用的嚴(yán)格成功度量標(biāo)準(zhǔn)。
研究者討論了將這些模型整合進(jìn) AutoDockFR 對接引擎的可能性宜雀,并預(yù)期這將顯著提高對小肽的對接成功率切平。通過模型整合,研究者能夠不斷完善模型州袒,因為將生成含有更具競爭力的錯誤解的新假設(shè)構(gòu)象集合(CPP)揭绑,用于訓(xùn)練。
參考資料:
Sanner, M. F., Dieguez, L., Forli, S., & Lis, E. (2021). Improving Docking Power for Short Peptides Using Random Forest. Journal of Chemical Information and Modeling, 61(6), 3074–3090. https://doi.org/10.1021/acs.jcim.1c00573 IF: 5.6 Q1 B2
Data and code:http://github.com/sannerlab/ProtPepRFScorePaper2021
點擊這里??關(guān)注我郎哭,記得標(biāo)星哦~