預(yù)測模型構(gòu)建實現(xiàn)

2024-03-09

結(jié)合師姐畢業(yè)論文
AI輔助藥物篩選
AI輔助藥物設(shè)計


1图柏、數(shù)據(jù)收集和準(zhǔn)備
PubChem數(shù)據(jù)庫以IDO1抑制劑為搜索詞條進(jìn)行數(shù)據(jù)收集,對于這些化學(xué)物报破,把ChEMBL明確報告為活性化合物記為活性悠就,即抑制劑;把ChEMBL明確報告無活性的化合物標(biāo)記為無活性充易,即為非抑制劑梗脾。此外,還將ChEMBL未明確報告但活性值>10uM的化合物也記為無活性盹靴,視為非抑制劑炸茧。(在上面步驟的基礎(chǔ)上 按照上面步驟 應(yīng)該是每個化合物都是都活性值的) 每個化合物都指定以下活性值類型之一:IC50、 EC50稿静、Kd梭冠、Ki,刪除沒有活性值或無文獻(xiàn)支持的化合物自赔。
確保收集分子都轉(zhuǎn)換為SMILES字符串妈嘹,數(shù)據(jù)通過以下方式進(jìn)行預(yù)處理:(1) 標(biāo)準(zhǔn)化所有分子結(jié)構(gòu) (2) 去除無機(jī)物 (3) 將鹽轉(zhuǎn)化為相應(yīng)的酸或堿 (4) 過濾掉重復(fù)的分子結(jié)構(gòu) (感覺這里應(yīng)該是還要刪除標(biāo)簽沖突的分子)
將處理后分子按8:2劃分訓(xùn)練集和測試集
收集2021-2023文獻(xiàn)組成外部驗證集柳琢,評估模型泛化能力绍妨,同樣進(jìn)行預(yù)處理润脸,排除與訓(xùn)練集和測試集重復(fù)的數(shù)據(jù)
數(shù)據(jù)集分析:使用基于ECFP4指紋的化學(xué)空間分布(PCA降維 三維)和谷本系數(shù)評估訓(xùn)練、測試和外部驗證的劃分他去;計算三個數(shù)據(jù)集平均谷本系數(shù)

2毙驯、分子表征和特征選擇
分子指紋和分子描述符進(jìn)行傳統(tǒng)機(jī)器學(xué)習(xí)模型的構(gòu)建
基于圖的深度學(xué)習(xí)模型

  • 使用padel軟件生成指紋 選了5種:MACCS、PubchemFP灾测、ExtendFP爆价、CDKFP、KRFP
  • 使用RDKit計算2D描述符(208位)和ECFP4指紋:這里對2D描述符進(jìn)行預(yù)處理(1) 計算每個特征的方差媳搪,刪除方差為0或接近0的描述符 (2) 計算兩兩特征之間的相關(guān)系數(shù)铭段,對于系數(shù)>0.95的兩個描述符,只保留其中一個
  • 基于圖:每個分子都被視為以原子為節(jié)點秦爆、化學(xué)鍵為邊的無向圖序愚。Deepchem種的ConvMolFeaturizer模塊可以快速將每個化學(xué)物從SMILES轉(zhuǎn)換為分子圖

3、預(yù)測模型的構(gòu)建
①建議基模型等限,然后建立最優(yōu)模型 ②RF爸吮、SVM、XGboost望门、LightGBM + GCN(deepchem)構(gòu)建模型形娇,網(wǎng)格搜索調(diào)參數(shù)尋找最優(yōu)超參數(shù),之后使用十折交叉驗證對模型在訓(xùn)練集中表現(xiàn)進(jìn)行評估筹误,并選出表現(xiàn)最好的前五個模型作為基模型 (GCN中設(shè)置如epoch桐早、學(xué)習(xí)率等超參)③堆疊基模型: 多個基模型的預(yù)測作為第二層學(xué)習(xí)算法的輸入,第二層基于邏輯回歸算法訓(xùn)練形成新的預(yù)測

4厨剪、模型性能評估
使用訓(xùn)練集進(jìn)行十折交叉驗證來檢驗魯棒性勘畔;使用測試集進(jìn)一步進(jìn)行評估,最后利用外部驗證集評估泛化能力 經(jīng)典的一些評估指標(biāo):ACC丽惶、Precision炫七、F1SE、SP钾唬、MCC

內(nèi)部:所有機(jī)器學(xué)習(xí)模型十折交叉驗證評估結(jié)果作箱形圖 選前五個万哪;GCN模型十折交叉驗證
外部:前五個模型、GCN抡秆、堆疊模型進(jìn)行test/external數(shù)據(jù)集評估

5奕巍、模型應(yīng)用域定義
r+Zσ公式;訓(xùn)練集中兩個最近化合物之間評估歐式距離和歐式距離標(biāo)準(zhǔn)差儒士;如果待測化合物與其訓(xùn)練集中的k個最近鄰之間距離大于閾值的止,則在域外;
①計算改變Z值和k下的域外化合物數(shù)量 ②五個基模型在不同Z和k下應(yīng)用域化合物AUC和ACC值 綜合評估這兩個指標(biāo)確定最優(yōu)Z和k ③在最優(yōu)Z和k下比較堆疊模型域內(nèi)着撩、域外以及不區(qū)分的評估

6诅福、優(yōu)勢子挖掘
SARpy軟件 IG(信息增益)和準(zhǔn)確率(ACC)
優(yōu)勢子:片段數(shù)量和頻率

7匾委、模型解釋
利用SHAP,具體來說對XGB-PubChem模型進(jìn)行SHAP分析

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末氓润,一起剝皮案震驚了整個濱河市赂乐,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌咖气,老刑警劉巖挨措,帶你破解...
    沈念sama閱讀 222,000評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異崩溪,居然都是意外死亡浅役,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,745評論 3 399
  • 文/潘曉璐 我一進(jìn)店門伶唯,熙熙樓的掌柜王于貴愁眉苦臉地迎上來担租,“玉大人谣旁,你說我怎么就攤上這事涩嚣。” “怎么了结笨?”我有些...
    開封第一講書人閱讀 168,561評論 0 360
  • 文/不壞的土叔 我叫張陵反惕,是天一觀的道長尝艘。 經(jīng)常有香客問我,道長姿染,這世上最難降的妖魔是什么背亥? 我笑而不...
    開封第一講書人閱讀 59,782評論 1 298
  • 正文 為了忘掉前任,我火速辦了婚禮悬赏,結(jié)果婚禮上狡汉,老公的妹妹穿的比我還像新娘。我一直安慰自己闽颇,他們只是感情好盾戴,可當(dāng)我...
    茶點故事閱讀 68,798評論 6 397
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著兵多,像睡著了一般尖啡。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上剩膘,一...
    開封第一講書人閱讀 52,394評論 1 310
  • 那天衅斩,我揣著相機(jī)與錄音,去河邊找鬼怠褐。 笑死畏梆,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播奠涌,決...
    沈念sama閱讀 40,952評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼宪巨,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了铣猩?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,852評論 0 276
  • 序言:老撾萬榮一對情侶失蹤茴丰,失蹤者是張志新(化名)和其女友劉穎达皿,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體贿肩,經(jīng)...
    沈念sama閱讀 46,409評論 1 318
  • 正文 獨居荒郊野嶺守林人離奇死亡峦椰,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,483評論 3 341
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了汰规。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片汤功。...
    茶點故事閱讀 40,615評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖溜哮,靈堂內(nèi)的尸體忽然破棺而出滔金,到底是詐尸還是另有隱情,我是刑警寧澤茂嗓,帶...
    沈念sama閱讀 36,303評論 5 350
  • 正文 年R本政府宣布餐茵,位于F島的核電站,受9級特大地震影響述吸,放射性物質(zhì)發(fā)生泄漏忿族。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,979評論 3 334
  • 文/蒙蒙 一蝌矛、第九天 我趴在偏房一處隱蔽的房頂上張望道批。 院中可真熱鬧,春花似錦入撒、人聲如沸隆豹。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,470評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽噪伊。三九已至,卻和暖如春氮唯,著一層夾襖步出監(jiān)牢的瞬間鉴吹,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,571評論 1 272
  • 我被黑心中介騙來泰國打工惩琉, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留豆励,地道東北人。 一個月前我還...
    沈念sama閱讀 49,041評論 3 377
  • 正文 我出身青樓,卻偏偏與公主長得像良蒸,于是被迫代替她去往敵國和親技扼。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,630評論 2 359

推薦閱讀更多精彩內(nèi)容