分子生成思路

2024-03-11

基于reinvent2.0(基于RNN框架)進(jìn)行小分子從頭設(shè)計

總的來說是基于ChEMBL數(shù)據(jù)集對RNN模型進(jìn)行預(yù)訓(xùn)練棵帽,之后從文獻(xiàn)中收集的數(shù)據(jù)應(yīng)用于預(yù)訓(xùn)練的模型(即進(jìn)行遷移學(xué)習(xí)微調(diào)模型),之后再使用自定義打分函數(shù)通過強化學(xué)習(xí)優(yōu)化模型

Ⅰ、數(shù)據(jù)處理步驟:

對于微調(diào)數(shù)據(jù),以IC50=10 μM 為閾值,IC50≥10 μM 的被認(rèn)為是非apo-IDO1 抑制劑,IC50<10 μM 的被認(rèn)為是apo-IDO1 抑制劑

一岭洲、為了獲得性能良好的生成模型,使用RDKit 等工具包對收集的化合物 (預(yù)訓(xùn)練數(shù)據(jù)和微調(diào)數(shù)據(jù)) 進(jìn)行
預(yù)處理坎匿,具體處理步驟如下:
(1)將所有分子的SMILES 正則化盾剩,刪除無效和重復(fù)的分子
(2)去除無機物、鹽類化合物
(3)去除明顯不類藥的分子替蔬,例如去除那些過大的分子告私、含有反應(yīng)基團(tuán)的分子等
(4)去除一些含有稀有元素的分子,僅保留含有H承桥、C驻粟、N、O凶异、F蜀撑、S、P唠帝、Cl屯掖、Br 元素的分子
(5)預(yù)訓(xùn)練集還要去除與微調(diào)數(shù)據(jù)重復(fù)的分子

二玄柏、將所有SMILES 字符串中出現(xiàn)的字符全部標(biāo)記化(Tokenization)襟衰,根據(jù)詞匯表使用獨熱編碼(One-Hot Encoding)將SMILES 字符串轉(zhuǎn)化為稀疏矩陣


標(biāo)記化

Ⅱ、模型框架

分子生成模型是使用阿斯利康公司開發(fā)的REINVENT2.0 自定義搭建的粪摘,主要分為三部分瀑晒。
第一部分是基于RNN 架構(gòu)訓(xùn)練可以生成各種不同化合物的普通先驗
(General Prior)模型绍坝;
第二部分是基于普通先驗?zāi)P鸵隺po-IDO1 抑制劑數(shù)據(jù)微調(diào)模型,形成聚焦先驗(Focused Prior)模型苔悦;
第三部分是在聚焦先驗?zāi)P偷幕A(chǔ)上轩褐,引入強化學(xué)習(xí)優(yōu)化策略,通過自定義的打分函數(shù)訓(xùn)練模型生成具有良好類藥性的潛在apo-IDO1抑制劑玖详。

Ⅲ把介、生成模型評估


一個簡化的代碼示例

展示如何用Python和假定的庫(這里我們使用偽代碼表示)構(gòu)建分子生成模型,具體到REINVENT 2.0 和特定的庫細(xì)節(jié)可能會有所不同蟋座,但基本思路應(yīng)該是相似的拗踢。我們將按照您描述的三部分來構(gòu)建示例。

第一部分:訓(xùn)練通用先驗?zāi)P?/strong>

from reinvent_models import RNNModel

# 初始化并訓(xùn)練一個基于RNN的模型向臀,生成通用化合物
general_prior_model = RNNModel()
general_prior_model.train(data='general_chemicals_dataset', epochs=50)

第二部分:訓(xùn)練聚焦先驗?zāi)P?/strong>

# 加載apo-IDO1抑制劑的數(shù)據(jù)集進(jìn)行微調(diào)
focused_prior_model = general_prior_model  # 基于通用先驗?zāi)P烷_始
focused_prior_model.finetune(data='apo_IDO1_inhibitors_dataset', epochs=20)

第三部分:應(yīng)用強化學(xué)習(xí)優(yōu)化策略

from reinvent_reinforcement import ReinforcementLearning

# 定義一個自定義的打分函數(shù)巢墅,這個函數(shù)基于某些化合物屬性(比如:類藥性、選擇性等)給化合物打分
def custom_scoring_function(molecule):
    # 這里只是一個示例函數(shù)券膀,實際的打分邏輯會更復(fù)雜
    score = compute_drug_like_properties(molecule)
    return score

# 使用強化學(xué)習(xí)和自定義的打分函數(shù)優(yōu)化聚焦先驗?zāi)P?rl = ReinforcementLearning(model=focused_prior_model, scoring_function=custom_scoring_function)
rl.train(epochs=30)

請注意君纫,這些代碼段僅為示例,使用了假設(shè)的函數(shù)和庫名稱芹彬。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末蓄髓,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子舒帮,更是在濱河造成了極大的恐慌双吆,老刑警劉巖,帶你破解...
    沈念sama閱讀 222,000評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件会前,死亡現(xiàn)場離奇詭異好乐,居然都是意外死亡,警方通過查閱死者的電腦和手機瓦宜,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,745評論 3 399
  • 文/潘曉璐 我一進(jìn)店門蔚万,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人临庇,你說我怎么就攤上這事反璃。” “怎么了假夺?”我有些...
    開封第一講書人閱讀 168,561評論 0 360
  • 文/不壞的土叔 我叫張陵淮蜈,是天一觀的道長。 經(jīng)常有香客問我已卷,道長梧田,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,782評論 1 298
  • 正文 為了忘掉前任,我火速辦了婚禮裁眯,結(jié)果婚禮上鹉梨,老公的妹妹穿的比我還像新娘。我一直安慰自己穿稳,他們只是感情好存皂,可當(dāng)我...
    茶點故事閱讀 68,798評論 6 397
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著逢艘,像睡著了一般旦袋。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上它改,一...
    開封第一講書人閱讀 52,394評論 1 310
  • 那天猜憎,我揣著相機與錄音,去河邊找鬼搔课。 笑死胰柑,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的爬泥。 我是一名探鬼主播柬讨,決...
    沈念sama閱讀 40,952評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼袍啡!你這毒婦竟也來了踩官?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,852評論 0 276
  • 序言:老撾萬榮一對情侶失蹤境输,失蹤者是張志新(化名)和其女友劉穎蔗牡,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體嗅剖,經(jīng)...
    沈念sama閱讀 46,409評論 1 318
  • 正文 獨居荒郊野嶺守林人離奇死亡辩越,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,483評論 3 341
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了信粮。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片黔攒。...
    茶點故事閱讀 40,615評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖强缘,靈堂內(nèi)的尸體忽然破棺而出督惰,到底是詐尸還是另有隱情,我是刑警寧澤旅掂,帶...
    沈念sama閱讀 36,303評論 5 350
  • 正文 年R本政府宣布赏胚,位于F島的核電站,受9級特大地震影響商虐,放射性物質(zhì)發(fā)生泄漏觉阅。R本人自食惡果不足惜崖疤,卻給世界環(huán)境...
    茶點故事閱讀 41,979評論 3 334
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望留拾。 院中可真熱鬧,春花似錦鲫尊、人聲如沸痴柔。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,470評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽咳蔚。三九已至,卻和暖如春搔驼,著一層夾襖步出監(jiān)牢的瞬間谈火,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,571評論 1 272
  • 我被黑心中介騙來泰國打工舌涨, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留糯耍,地道東北人。 一個月前我還...
    沈念sama閱讀 49,041評論 3 377
  • 正文 我出身青樓囊嘉,卻偏偏與公主長得像温技,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子扭粱,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,630評論 2 359

推薦閱讀更多精彩內(nèi)容