導讀
- DBPP-Predictor 通過整合物理化學和 ADMET 屬性粥烁,提出了一種新型的預測策略栋豫。
- 在外部驗證集上氯葬,DBPP-Predictor 展現(xiàn)出卓越的泛化能力晌端,其 AUC 值介于 0.817 至 0.913 之間捅暴。
評估化學藥物的類似性對于挑選高質(zhì)量的藥物候選物極為重要,它有助于避免或降低不必要的生物學和臨床試驗成本咧纠。一個高品質(zhì)的藥物候選物應當具有優(yōu)良的藥物類似性屬性蓬痒,包括藥理活性、合適的理化性質(zhì)和 ADMET 屬性漆羔。鑒于此梧奢,研究者提出了基于計算機的化學藥物類似性預測方法。盡管面臨諸多挑戰(zhàn)演痒,但已發(fā)展出多種預測模型亲轨。
然而,這些模型通常存在樣本依賴性和解釋性差的問題鸟顺。在這項研究中惦蚊,研究者開發(fā)了一種名為 DBPP-Predictor 的新策略,通過整合物理化學和 ADMET 屬性來預測化學藥物的類似性诊沪。
研究結(jié)果表明养筒,DBPP-Predictor 在外部驗證集上表現(xiàn)出良好的泛化能力,AUC 值在 0.817 至 0.913 之間端姚。在應用可行性方面晕粪,DBPP-Predictor 不僅在不同數(shù)據(jù)集上展現(xiàn)了一致而合理的評分性能,還能夠指導結(jié)構(gòu)優(yōu)化渐裸。
此外巫湘,該工具為藥物類似性評估提供了新的視角,與現(xiàn)有方法沒有顯著的線性相關性昏鹃。研究團隊還開發(fā)了一款免費的獨立軟件尚氛,允許用戶對感興趣的化合物進行藥物類似性預測和屬性配置可視化。
數(shù)據(jù)收集與處理
構(gòu)建正負數(shù)據(jù)集
- 正數(shù)據(jù)集:FDA 藥物(FDA_drug)和全球其他已通過的藥物(Worlddrug)洞渤。
- 負數(shù)據(jù)集:Beker 等研究者建議使用 ZINC 數(shù)據(jù)庫作為“非藥物數(shù)據(jù)集”的理想選擇阅嘶,同時包含 ChEMBL 和 GDB17 數(shù)據(jù)庫中的非藥物。
數(shù)據(jù)處理方式
- 正負未標記學習(PU 學習):探究數(shù)據(jù)噪聲對結(jié)果的影響。
- 降采樣策略:為平衡數(shù)據(jù)集讯柔,執(zhí)行隨機降采樣抡蛙,并進行三輪重復操作。
藥物相似性數(shù)據(jù)的研究
- 數(shù)據(jù)準備步驟:將鹽類轉(zhuǎn)換為對應的酸或堿魂迄、移除混合物和無機物粗截、除去標準化的 SMILES 字符串和重復分子等。
分子特征描述
分子描述符
- 運用 DescriptaStorus 軟件包生成 200 個分子描述符捣炬。
- 分析了特征縮放對描述符表示的影響熊昌。
分子指紋
- 利用 RDKit 軟件包生成包括 MACCS、Morgan湿酸、AtomPairs婿屹、RDK 和 TopoTorsion 在內(nèi)的五種分子指紋。
分子圖的表示
- 將化合物視作分子圖稿械,通過 Deep Graph Library 生成分子圖选泻。
- 使用 RDKit 軟件包提取節(jié)點和邊緣的特性。
藥物性質(zhì)概述
ADMET 和理化性質(zhì)
- 這些性質(zhì)在評估藥物相似性時具有關鍵作用美莫。
- 基于屬性的藥物相似性評估方法页眯。
藥物屬性檔案
- 綜合了與藥物相似性密切相關的特性。
- 通過 γ 參數(shù)調(diào)整屬性組合的權重厢呵。
機器學習方法
應用算法
- 邏輯回歸(LR):一種簡單窝撵、可并行、易于理解的經(jīng)典二分類算法襟铭。
- 支持向量機(SVM):通過各種核函數(shù)解決線性不可分的問題碌奉。
- LightGBM:速度更快、內(nèi)存占用更少寒砖、準確度更高的梯度增強框架赐劣。
模型的優(yōu)化和評估
- 使用 GridSearchCV 工具來優(yōu)化各個模型的參數(shù)。
- 運用十折交叉驗證和外部驗證對模型進行評估哩都。
圖神經(jīng)網(wǎng)絡方法
采用的模型結(jié)構(gòu)
- 包括圖卷積網(wǎng)絡(GCN)魁兼、圖注意力網(wǎng)絡(GAT)、圖樣本聚合網(wǎng)絡(GraphSAGE)和 AttentiveFP 網(wǎng)絡漠嵌。
防止過擬合和資源節(jié)約: 實施早停策略咐汞,通過貝葉斯優(yōu)化選取適宜的超參數(shù)访敌。
DBPP-Predictor 軟件
- 基于 Tkinter 開發(fā)的獨立應用軟件墩划,提供藥物相似性評估和屬性簡介的可視化功能。
- 用戶界面友好业踏,便于非專業(yè)用戶操作约炎。
數(shù)據(jù)集分析與藥物模型評估
數(shù)據(jù)集分析揭示了藥物相似性和化學多樣性植阴,對藥物評估模型的開發(fā)具有重要的指導作用。
- ?? 化學數(shù)據(jù)集的采集與整理
- ?? 藥物相似性和化學多樣性的分析
- ?? 藥物評估模型的開發(fā)與驗證
作者從 ZINC、ChEMBL 和 GDB17 三個數(shù)據(jù)庫中采集了已批準的藥物和非藥物化合物掠手,用于模型的訓練和測試热芹。通過數(shù)據(jù)預處理,共整理出 5147 種藥物惨撇,包括 FDA 批準的 2679 種和其他地區(qū)批準的 2468 種。此外府寒,作者還從每個數(shù)據(jù)庫中隨機選擇了 10,000 個分子作為負樣本魁衙,并利用 PU 學習策略對這些負樣本集中的噪聲數(shù)據(jù)進行了分析。
為了深入研究化學空間株搔,研究者對這些數(shù)據(jù)集進行了主成分分析(PCA)剖淀、Tanimoto 相似性分析和 Murcko 骨架分析。分析結(jié)果顯示纤房,數(shù)據(jù)在空間中的分布廣泛纵隔,且具有明顯的結(jié)構(gòu)多樣性。研究中還檢測到 3337 個 Murcko 骨架炮姨,體現(xiàn)了高度的化學多樣性捌刮。
在藥物評估模型的開發(fā)方面,研究者提出的 DBPP-Predictor 包括六種物理化學和 20 種 ADMET 屬性端點舒岸,并建立在超過 500 個高質(zhì)量端點數(shù)據(jù)之上绅作。分析表明,ADMET 端點在藥物相似性評估中具有較高的重要性蛾派,有效地判斷了化合物的藥物相似性俄认。
此外,研究者使用不同類型的分子表征來評估模型洪乍,并采用網(wǎng)格搜索和貝葉斯搜索進行了參數(shù)優(yōu)化眯杏。通過十折交叉驗證,評估了模型的性能壳澳。結(jié)果顯示岂贩,DBPP-Predictor 在混合表征策略下表現(xiàn)良好,能有效區(qū)分藥物和非藥物钾埂。
為了測試模型的泛化性能河闰,使用了測試集和外部驗證集進行了評估。結(jié)果顯示褥紫,DBPP-Predictor 在不同驗證集上表現(xiàn)出較強的魯棒性和優(yōu)秀的泛化能力姜性。
DBPP-Predictor 還提供了一個獨立的軟件界面和功能,支持單個分子和批量分子的藥物相似性預測髓考。用戶可輸入標準的 SMILES 字符串進行預測部念,預測結(jié)果將以 CSV 格式保存,并提供了屬性檔案的可視化模塊,方便用戶進行優(yōu)化研究儡炼。
圖表 1:藥物類似性預測基于屬性剖析(DBPP-Predictor)示意圖
該圖展現(xiàn)了藥物的理化屬性和 ADMET 屬性剖析過程妓湘。
圖表 2:數(shù)據(jù)集總體相似度熱圖和分子構(gòu)架展示
圖中 A 部分使用 MACCS 指紋展示了數(shù)據(jù)集整體的 Tanimoto 相似度熱圖。B 部分則顯示了數(shù)據(jù)集中頻率最高的 150 種分子構(gòu)架乌询。
圖表 3:藥物與非藥物的理化屬性剖析和毒性終點分析
圖中 A 部分對藥物與非藥物(ZINC榜贴、ChEMBL 和 GDB17)的理化屬性進行了剖析,包括分子量(MW)妹田、脂溶性(logP)和極性表面積(TPSA)唬党。B 部分呈現(xiàn)了四個毒性終點的散點矩陣分析,分別是呼吸毒性(Repro)鬼佣、遺傳毒性(Gene)驶拱、肝臟毒性(Hepa)和口服急性毒性(ROA)。
圖表 4:模型在不同表征方法下的外部驗證集性能
圖表 5:五個數(shù)據(jù)集的藥物類似性評分小提琴圖及樣本依賴性分析
A 部分呈現(xiàn)了 QED 評分晶衷。B 部分展示了 GCN 評分蓝纲。C 部分為 FP 評分。D 部分涉及描述符評分晌纫。E 部分為 DBPP 評分税迷。
圖 6:展示在真實世界數(shù)據(jù)集上的 A QED 值,B FP 得分和 C DBPP 得分對比
圖 7:藥物相似性評估中锹漱,展現(xiàn) A ADMET 得分與 DBPP 得分翁狐,B QED 與 DBPP 得分的相關性
圖 8:平均生長抑制濃度(Avg. GI50)與 DBPP 得分比較
關于設計化合物的平均 50%生長抑制濃度(Avg. GI50)與 DBPP 得分(11a、11d 和 52b)的比較凌蔬。Avg. GI50 指的是對 60 種人類癌細胞系的平均 GI50 值
圖 9:獨立軟件 DBPP-Predictor 的界面展示露懒。
用戶可以選擇預測單個分子或批量分子的藥物相似性評估。其可視化功能提供易于理解的屬性配置解釋
表 1:呈現(xiàn)各數(shù)據(jù)集中的化合物信息
表 2:基于不同表示的模型的十折交叉驗證結(jié)果展示
表 3:不同數(shù)據(jù)集上的 DBPP 得分對比
結(jié)論
研究者開發(fā)了一款名為 DBPPPredictor 的新型藥物相似性評分函數(shù)砂心。該函數(shù)結(jié)合了藥物的理化性質(zhì)與 ADMET(吸收懈词、分布、代謝辩诞、排泄和毒性)屬性坎弯,用于評估化學藥物的類藥性。DBPPPredictor 融合了深度學習译暂、機器學習技術和多種化學指紋抠忘,如 AtomPairs、ECFPs外永、MACCS 和 Morgan崎脉,提升了其在藥物研發(fā)領域的應用廣度和準確性。
DBPPPredictor 利用圖神經(jīng)網(wǎng)絡技術伯顶,如 GCN囚灼、GAT 和 GraphSAGE骆膝,進一步提高了藥物相似性預測的準確性和效率。在參數(shù)設定上灶体,它涵蓋了氫鍵受體(HBA/HBD)數(shù)量阅签、分子量(MW)、可旋轉(zhuǎn)鍵數(shù)量(nROT)和拓撲極性表面積(TPSA)等多種化學和生物學參數(shù)蝎抽。這些參數(shù)的綜合應用使得 DBPPPredictor 能夠全面評估藥物的類藥性政钟,為藥物發(fā)現(xiàn)和開發(fā)提供了一種更準確、高效的評價工具樟结。
創(chuàng)新性:
- DBPP-Predictor 模型中集成了各種屬性概況(理化和 ADMET)是一種新穎的方法锥涕。與傳統(tǒng)模型相比,它可能提供了更全面狭吼、更細致的藥物樣性評估,傳統(tǒng)模型可能只關注較窄的屬性范圍殖妇。
- DBPP-Predictor 提供的獨立軟件刁笙,允許用戶預測和可視化化合物的屬性概況,是一個獨特且實用的工具谦趣,增強了研究的可用性和應用性疲吸。
參考資料:
Gu, Y., Wang, Y., Zhu, K., Li, W., Liu, G., & Tang, Y. (2024). DBPP-Predictor: a novel strategy for prediction of chemical drug-likeness based on property profiles. Journal of Cheminformatics, 16(1). https://doi.org/10.1186/s13321-024-00800-9 IF: 8.6 Q1 B2
Data and code:?https://github.com/yxgu2353/DBPP-Predictor
點擊這里??關注我,記得標星哦~