2024-03-09
結(jié)合師姐畢業(yè)論文
AI輔助藥物篩選
AI輔助藥物設(shè)計
1图柏、數(shù)據(jù)收集和準(zhǔn)備
PubChem數(shù)據(jù)庫以IDO1抑制劑為搜索詞條進(jìn)行數(shù)據(jù)收集,對于這些化學(xué)物报破,把ChEMBL明確報告為活性化合物記為活性悠就,即抑制劑;把ChEMBL明確報告無活性的化合物標(biāo)記為無活性充易,即為非抑制劑梗脾。此外,還將ChEMBL未明確報告但活性值>10uM的化合物也記為無活性盹靴,視為非抑制劑炸茧。(在上面步驟的基礎(chǔ)上 按照上面步驟 應(yīng)該是每個化合物都是都活性值的) 每個化合物都指定以下活性值類型之一:IC50、 EC50稿静、Kd梭冠、Ki,刪除沒有活性值或無文獻(xiàn)支持的化合物自赔。
確保收集分子都轉(zhuǎn)換為SMILES字符串妈嘹,數(shù)據(jù)通過以下方式進(jìn)行預(yù)處理:(1) 標(biāo)準(zhǔn)化所有分子結(jié)構(gòu) (2) 去除無機(jī)物 (3) 將鹽轉(zhuǎn)化為相應(yīng)的酸或堿 (4) 過濾掉重復(fù)的分子結(jié)構(gòu) (感覺這里應(yīng)該是還要刪除標(biāo)簽沖突的分子)
將處理后分子按8:2劃分訓(xùn)練集和測試集
收集2021-2023文獻(xiàn)組成外部驗證集柳琢,評估模型泛化能力绍妨,同樣進(jìn)行預(yù)處理润脸,排除與訓(xùn)練集和測試集重復(fù)的數(shù)據(jù)
數(shù)據(jù)集分析:使用基于ECFP4指紋的化學(xué)空間分布(PCA降維 三維)和谷本系數(shù)評估訓(xùn)練、測試和外部驗證的劃分他去;計算三個數(shù)據(jù)集平均谷本系數(shù)
2毙驯、分子表征和特征選擇
分子指紋和分子描述符進(jìn)行傳統(tǒng)機(jī)器學(xué)習(xí)模型的構(gòu)建
基于圖的深度學(xué)習(xí)模型
- 使用padel軟件生成指紋 選了5種:MACCS、PubchemFP灾测、ExtendFP爆价、CDKFP、KRFP
- 使用RDKit計算2D描述符(208位)和ECFP4指紋:這里對2D描述符進(jìn)行預(yù)處理(1) 計算每個特征的方差媳搪,刪除方差為0或接近0的描述符 (2) 計算兩兩特征之間的相關(guān)系數(shù)铭段,對于系數(shù)>0.95的兩個描述符,只保留其中一個
- 基于圖:每個分子都被視為以原子為節(jié)點秦爆、化學(xué)鍵為邊的無向圖序愚。Deepchem種的ConvMolFeaturizer模塊可以快速將每個化學(xué)物從SMILES轉(zhuǎn)換為分子圖
3、預(yù)測模型的構(gòu)建
①建議基模型等限,然后建立最優(yōu)模型 ②RF爸吮、SVM、XGboost望门、LightGBM + GCN(deepchem)構(gòu)建模型形娇,網(wǎng)格搜索調(diào)參數(shù)尋找最優(yōu)超參數(shù),之后使用十折交叉驗證對模型在訓(xùn)練集中表現(xiàn)進(jìn)行評估筹误,并選出表現(xiàn)最好的前五個模型作為基模型 (GCN中設(shè)置如epoch桐早、學(xué)習(xí)率等超參)③堆疊基模型: 多個基模型的預(yù)測作為第二層學(xué)習(xí)算法的輸入,第二層基于邏輯回歸算法訓(xùn)練形成新的預(yù)測
4厨剪、模型性能評估
使用訓(xùn)練集進(jìn)行十折交叉驗證來檢驗魯棒性勘畔;使用測試集進(jìn)一步進(jìn)行評估,最后利用外部驗證集評估泛化能力 經(jīng)典的一些評估指標(biāo):ACC丽惶、Precision炫七、F1SE、SP钾唬、MCC
內(nèi)部:所有機(jī)器學(xué)習(xí)模型十折交叉驗證評估結(jié)果作箱形圖 選前五個万哪;GCN模型十折交叉驗證
外部:前五個模型、GCN抡秆、堆疊模型進(jìn)行test/external數(shù)據(jù)集評估
5奕巍、模型應(yīng)用域定義
r+Zσ公式;訓(xùn)練集中兩個最近化合物之間評估歐式距離和歐式距離標(biāo)準(zhǔn)差儒士;如果待測化合物與其訓(xùn)練集中的k個最近鄰之間距離大于閾值的止,則在域外;
①計算改變Z值和k下的域外化合物數(shù)量 ②五個基模型在不同Z和k下應(yīng)用域化合物AUC和ACC值 綜合評估這兩個指標(biāo)確定最優(yōu)Z和k ③在最優(yōu)Z和k下比較堆疊模型域內(nèi)着撩、域外以及不區(qū)分的評估
6诅福、優(yōu)勢子挖掘
SARpy軟件 IG(信息增益)和準(zhǔn)確率(ACC)
優(yōu)勢子:片段數(shù)量和頻率
7匾委、模型解釋
利用SHAP,具體來說對XGB-PubChem模型進(jìn)行SHAP分析