DBPP-Predictor: 新型藥物相似性評分



導讀

  • DBPP-Predictor 通過整合物理化學和 ADMET 屬性粥烁,提出了一種新型的預測策略栋豫。
  • 在外部驗證集上氯葬,DBPP-Predictor 展現(xiàn)出卓越的泛化能力晌端,其 AUC 值介于 0.817 至 0.913 之間捅暴。

評估化學藥物的類似性對于挑選高質(zhì)量的藥物候選物極為重要,它有助于避免或降低不必要的生物學和臨床試驗成本咧纠。一個高品質(zhì)的藥物候選物應當具有優(yōu)良的藥物類似性屬性蓬痒,包括藥理活性、合適的理化性質(zhì)和 ADMET 屬性漆羔。鑒于此梧奢,研究者提出了基于計算機的化學藥物類似性預測方法。盡管面臨諸多挑戰(zhàn)演痒,但已發(fā)展出多種預測模型亲轨。

然而,這些模型通常存在樣本依賴性和解釋性差的問題鸟顺。在這項研究中惦蚊,研究者開發(fā)了一種名為 DBPP-Predictor 的新策略,通過整合物理化學和 ADMET 屬性來預測化學藥物的類似性诊沪。

研究結(jié)果表明养筒,DBPP-Predictor 在外部驗證集上表現(xiàn)出良好的泛化能力,AUC 值在 0.817 至 0.913 之間端姚。在應用可行性方面晕粪,DBPP-Predictor 不僅在不同數(shù)據(jù)集上展現(xiàn)了一致而合理的評分性能,還能夠指導結(jié)構(gòu)優(yōu)化渐裸。

此外巫湘,該工具為藥物類似性評估提供了新的視角,與現(xiàn)有方法沒有顯著的線性相關性昏鹃。研究團隊還開發(fā)了一款免費的獨立軟件尚氛,允許用戶對感興趣的化合物進行藥物類似性預測和屬性配置可視化。

數(shù)據(jù)收集與處理

構(gòu)建正負數(shù)據(jù)集

  • 正數(shù)據(jù)集:FDA 藥物(FDA_drug)和全球其他已通過的藥物(Worlddrug)洞渤。
  • 負數(shù)據(jù)集:Beker 等研究者建議使用 ZINC 數(shù)據(jù)庫作為“非藥物數(shù)據(jù)集”的理想選擇阅嘶,同時包含 ChEMBL 和 GDB17 數(shù)據(jù)庫中的非藥物。

數(shù)據(jù)處理方式

  • 正負未標記學習(PU 學習):探究數(shù)據(jù)噪聲對結(jié)果的影響。
  • 降采樣策略:為平衡數(shù)據(jù)集讯柔,執(zhí)行隨機降采樣抡蛙,并進行三輪重復操作。

藥物相似性數(shù)據(jù)的研究

  • 數(shù)據(jù)準備步驟:將鹽類轉(zhuǎn)換為對應的酸或堿魂迄、移除混合物和無機物粗截、除去標準化的 SMILES 字符串和重復分子等。

分子特征描述

分子描述符

  • 運用 DescriptaStorus 軟件包生成 200 個分子描述符捣炬。
  • 分析了特征縮放對描述符表示的影響熊昌。

分子指紋

  • 利用 RDKit 軟件包生成包括 MACCS、Morgan湿酸、AtomPairs婿屹、RDK 和 TopoTorsion 在內(nèi)的五種分子指紋。

分子圖的表示

  • 將化合物視作分子圖稿械,通過 Deep Graph Library 生成分子圖选泻。
  • 使用 RDKit 軟件包提取節(jié)點和邊緣的特性。

藥物性質(zhì)概述

ADMET 和理化性質(zhì)

  • 這些性質(zhì)在評估藥物相似性時具有關鍵作用美莫。
  • 基于屬性的藥物相似性評估方法页眯。

藥物屬性檔案

  • 綜合了與藥物相似性密切相關的特性。
  • 通過 γ 參數(shù)調(diào)整屬性組合的權重厢呵。

機器學習方法

應用算法

  • 邏輯回歸(LR):一種簡單窝撵、可并行、易于理解的經(jīng)典二分類算法襟铭。
  • 支持向量機(SVM):通過各種核函數(shù)解決線性不可分的問題碌奉。
  • LightGBM:速度更快、內(nèi)存占用更少寒砖、準確度更高的梯度增強框架赐劣。

模型的優(yōu)化和評估

  • 使用 GridSearchCV 工具來優(yōu)化各個模型的參數(shù)。
  • 運用十折交叉驗證和外部驗證對模型進行評估哩都。

圖神經(jīng)網(wǎng)絡方法

采用的模型結(jié)構(gòu)

  • 包括圖卷積網(wǎng)絡(GCN)魁兼、圖注意力網(wǎng)絡(GAT)、圖樣本聚合網(wǎng)絡(GraphSAGE)和 AttentiveFP 網(wǎng)絡漠嵌。

防止過擬合和資源節(jié)約: 實施早停策略咐汞,通過貝葉斯優(yōu)化選取適宜的超參數(shù)访敌。

DBPP-Predictor 軟件

  • 基于 Tkinter 開發(fā)的獨立應用軟件墩划,提供藥物相似性評估和屬性簡介的可視化功能。
  • 用戶界面友好业踏,便于非專業(yè)用戶操作约炎。

數(shù)據(jù)集分析與藥物模型評估

數(shù)據(jù)集分析揭示了藥物相似性和化學多樣性植阴,對藥物評估模型的開發(fā)具有重要的指導作用。

  • ?? 化學數(shù)據(jù)集的采集與整理
  • ?? 藥物相似性和化學多樣性的分析
  • ?? 藥物評估模型的開發(fā)與驗證

作者從 ZINC、ChEMBL 和 GDB17 三個數(shù)據(jù)庫中采集了已批準的藥物和非藥物化合物掠手,用于模型的訓練和測試热芹。通過數(shù)據(jù)預處理,共整理出 5147 種藥物惨撇,包括 FDA 批準的 2679 種和其他地區(qū)批準的 2468 種。此外府寒,作者還從每個數(shù)據(jù)庫中隨機選擇了 10,000 個分子作為負樣本魁衙,并利用 PU 學習策略對這些負樣本集中的噪聲數(shù)據(jù)進行了分析。

為了深入研究化學空間株搔,研究者對這些數(shù)據(jù)集進行了主成分分析(PCA)剖淀、Tanimoto 相似性分析和 Murcko 骨架分析。分析結(jié)果顯示纤房,數(shù)據(jù)在空間中的分布廣泛纵隔,且具有明顯的結(jié)構(gòu)多樣性。研究中還檢測到 3337 個 Murcko 骨架炮姨,體現(xiàn)了高度的化學多樣性捌刮。

在藥物評估模型的開發(fā)方面,研究者提出的 DBPP-Predictor 包括六種物理化學和 20 種 ADMET 屬性端點舒岸,并建立在超過 500 個高質(zhì)量端點數(shù)據(jù)之上绅作。分析表明,ADMET 端點在藥物相似性評估中具有較高的重要性蛾派,有效地判斷了化合物的藥物相似性俄认。

此外,研究者使用不同類型的分子表征來評估模型洪乍,并采用網(wǎng)格搜索和貝葉斯搜索進行了參數(shù)優(yōu)化眯杏。通過十折交叉驗證,評估了模型的性能壳澳。結(jié)果顯示岂贩,DBPP-Predictor 在混合表征策略下表現(xiàn)良好,能有效區(qū)分藥物和非藥物钾埂。

為了測試模型的泛化性能河闰,使用了測試集和外部驗證集進行了評估。結(jié)果顯示褥紫,DBPP-Predictor 在不同驗證集上表現(xiàn)出較強的魯棒性和優(yōu)秀的泛化能力姜性。

DBPP-Predictor 還提供了一個獨立的軟件界面和功能,支持單個分子和批量分子的藥物相似性預測髓考。用戶可輸入標準的 SMILES 字符串進行預測部念,預測結(jié)果將以 CSV 格式保存,并提供了屬性檔案的可視化模塊,方便用戶進行優(yōu)化研究儡炼。

圖表 1:藥物類似性預測基于屬性剖析(DBPP-Predictor)示意圖

該圖展現(xiàn)了藥物的理化屬性和 ADMET 屬性剖析過程妓湘。

圖表 2:數(shù)據(jù)集總體相似度熱圖和分子構(gòu)架展示

圖中 A 部分使用 MACCS 指紋展示了數(shù)據(jù)集整體的 Tanimoto 相似度熱圖。B 部分則顯示了數(shù)據(jù)集中頻率最高的 150 種分子構(gòu)架乌询。

圖表 3:藥物與非藥物的理化屬性剖析和毒性終點分析

圖中 A 部分對藥物與非藥物(ZINC榜贴、ChEMBL 和 GDB17)的理化屬性進行了剖析,包括分子量(MW)妹田、脂溶性(logP)和極性表面積(TPSA)唬党。B 部分呈現(xiàn)了四個毒性終點的散點矩陣分析,分別是呼吸毒性(Repro)鬼佣、遺傳毒性(Gene)驶拱、肝臟毒性(Hepa)和口服急性毒性(ROA)。

圖表 4:模型在不同表征方法下的外部驗證集性能

圖表 5:五個數(shù)據(jù)集的藥物類似性評分小提琴圖及樣本依賴性分析

A 部分呈現(xiàn)了 QED 評分晶衷。B 部分展示了 GCN 評分蓝纲。C 部分為 FP 評分。D 部分涉及描述符評分晌纫。E 部分為 DBPP 評分税迷。

圖 6:展示在真實世界數(shù)據(jù)集上的 A QED 值,B FP 得分和 C DBPP 得分對比

圖 7:藥物相似性評估中锹漱,展現(xiàn) A ADMET 得分與 DBPP 得分翁狐,B QED 與 DBPP 得分的相關性

圖 8:平均生長抑制濃度(Avg. GI50)與 DBPP 得分比較

關于設計化合物的平均 50%生長抑制濃度(Avg. GI50)與 DBPP 得分(11a、11d 和 52b)的比較凌蔬。Avg. GI50 指的是對 60 種人類癌細胞系的平均 GI50 值

圖 9:獨立軟件 DBPP-Predictor 的界面展示露懒。

用戶可以選擇預測單個分子或批量分子的藥物相似性評估。其可視化功能提供易于理解的屬性配置解釋

表 1:呈現(xiàn)各數(shù)據(jù)集中的化合物信息

表 2:基于不同表示的模型的十折交叉驗證結(jié)果展示

表 3:不同數(shù)據(jù)集上的 DBPP 得分對比

結(jié)論

研究者開發(fā)了一款名為 DBPPPredictor 的新型藥物相似性評分函數(shù)砂心。該函數(shù)結(jié)合了藥物的理化性質(zhì)與 ADMET(吸收懈词、分布、代謝辩诞、排泄和毒性)屬性坎弯,用于評估化學藥物的類藥性。DBPPPredictor 融合了深度學習译暂、機器學習技術和多種化學指紋抠忘,如 AtomPairs、ECFPs外永、MACCS 和 Morgan崎脉,提升了其在藥物研發(fā)領域的應用廣度和準確性。

DBPPPredictor 利用圖神經(jīng)網(wǎng)絡技術伯顶,如 GCN囚灼、GAT 和 GraphSAGE骆膝,進一步提高了藥物相似性預測的準確性和效率。在參數(shù)設定上灶体,它涵蓋了氫鍵受體(HBA/HBD)數(shù)量阅签、分子量(MW)、可旋轉(zhuǎn)鍵數(shù)量(nROT)和拓撲極性表面積(TPSA)等多種化學和生物學參數(shù)蝎抽。這些參數(shù)的綜合應用使得 DBPPPredictor 能夠全面評估藥物的類藥性政钟,為藥物發(fā)現(xiàn)和開發(fā)提供了一種更準確、高效的評價工具樟结。

創(chuàng)新性

  • DBPP-Predictor 模型中集成了各種屬性概況(理化和 ADMET)是一種新穎的方法锥涕。與傳統(tǒng)模型相比,它可能提供了更全面狭吼、更細致的藥物樣性評估,傳統(tǒng)模型可能只關注較窄的屬性范圍殖妇。
  • DBPP-Predictor 提供的獨立軟件刁笙,允許用戶預測和可視化化合物的屬性概況,是一個獨特且實用的工具谦趣,增強了研究的可用性和應用性疲吸。

參考資料:
  • Gu, Y., Wang, Y., Zhu, K., Li, W., Liu, G., & Tang, Y. (2024). DBPP-Predictor: a novel strategy for prediction of chemical drug-likeness based on property profiles. Journal of Cheminformatics, 16(1). https://doi.org/10.1186/s13321-024-00800-9 IF: 8.6 Q1 B2

  • Data and code:?https://github.com/yxgu2353/DBPP-Predictor

— 完 —

點擊這里??關注我,記得標星哦~

?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末前鹅,一起剝皮案震驚了整個濱河市摘悴,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌舰绘,老刑警劉巖蹂喻,帶你破解...
    沈念sama閱讀 206,126評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異捂寿,居然都是意外死亡口四,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評論 2 382
  • 文/潘曉璐 我一進店門秦陋,熙熙樓的掌柜王于貴愁眉苦臉地迎上來蔓彩,“玉大人,你說我怎么就攤上這事驳概〕嘟溃” “怎么了?”我有些...
    開封第一講書人閱讀 152,445評論 0 341
  • 文/不壞的土叔 我叫張陵顺又,是天一觀的道長更卒。 經(jīng)常有香客問我,道長稚照,這世上最難降的妖魔是什么逞壁? 我笑而不...
    開封第一講書人閱讀 55,185評論 1 278
  • 正文 為了忘掉前任流济,我火速辦了婚禮,結(jié)果婚禮上腌闯,老公的妹妹穿的比我還像新娘绳瘟。我一直安慰自己,他們只是感情好姿骏,可當我...
    茶點故事閱讀 64,178評論 5 371
  • 文/花漫 我一把揭開白布糖声。 她就那樣靜靜地躺著,像睡著了一般分瘦。 火紅的嫁衣襯著肌膚如雪蘸泻。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 48,970評論 1 284
  • 那天嘲玫,我揣著相機與錄音悦施,去河邊找鬼。 笑死去团,一個胖子當著我的面吹牛抡诞,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播土陪,決...
    沈念sama閱讀 38,276評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼昼汗,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了鬼雀?” 一聲冷哼從身側(cè)響起顷窒,我...
    開封第一講書人閱讀 36,927評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎源哩,沒想到半個月后鞋吉,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,400評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡励烦,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,883評論 2 323
  • 正文 我和宋清朗相戀三年坯辩,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片崩侠。...
    茶點故事閱讀 37,997評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡漆魔,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出却音,到底是詐尸還是另有隱情改抡,我是刑警寧澤,帶...
    沈念sama閱讀 33,646評論 4 322
  • 正文 年R本政府宣布系瓢,位于F島的核電站阿纤,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏夷陋。R本人自食惡果不足惜欠拾,卻給世界環(huán)境...
    茶點故事閱讀 39,213評論 3 307
  • 文/蒙蒙 一胰锌、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧藐窄,春花似錦资昧、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至刹枉,卻和暖如春叽唱,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背微宝。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評論 1 260
  • 我被黑心中介騙來泰國打工棺亭, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人蟋软。 一個月前我還...
    沈念sama閱讀 45,423評論 2 352
  • 正文 我出身青樓镶摘,卻偏偏與公主長得像,于是被迫代替她去往敵國和親钟鸵。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 42,722評論 2 345

推薦閱讀更多精彩內(nèi)容