導(dǎo)讀
Tree-Invent 生成模型作為一種層次化的生成工具谭确,將分子圖等效地轉(zhuǎn)換為多叉樹(shù)悔耘,從而創(chuàng)新性地表征分子的復(fù)雜結(jié)構(gòu)鄙才。在這個(gè)模型中,復(fù)雜環(huán)系統(tǒng)择吊、非環(huán)原子和化學(xué)鍵分別由虛擬環(huán)節(jié)點(diǎn)李根、單節(jié)點(diǎn)和邊緣來(lái)表征。為了實(shí)現(xiàn)節(jié)點(diǎn)添加几睛、環(huán)形成和節(jié)點(diǎn)連接等操作房轿,作者獨(dú)立訓(xùn)練了三個(gè)子模型。這些子模型可以便捷地整合起來(lái)所森,以進(jìn)行自動(dòng)回歸分子生成囱持。模型引入了獨(dú)特的掩碼機(jī)制,能夠適應(yīng)在拓?fù)浼s束下的結(jié)構(gòu)生成焕济,從而更準(zhǔn)確地控制結(jié)構(gòu)纷妆。此外,結(jié)合強(qiáng)化學(xué)習(xí)該模型能夠處理各種多樣化的受約束結(jié)構(gòu)生成任務(wù)晴弃,如骨架躍遷掩幢、骨架修飾和連接器設(shè)計(jì)等逊拍。
方法
理解 Tree-Invent 的基本概念
簡(jiǎn)化分子結(jié)構(gòu)
Tree-Invent 引入了一種表征分子圖的創(chuàng)新方法。它將復(fù)雜的環(huán)系統(tǒng)簡(jiǎn)化為粗亮r冢化的環(huán)節(jié)點(diǎn)顺献,同時(shí)將非環(huán)原子描述為單個(gè)原子節(jié)點(diǎn)。這種表征方式將復(fù)雜的分子生成過(guò)程轉(zhuǎn)化為可管理的兩步程序:生成樹(shù)結(jié)構(gòu)枯怖,然后生成環(huán)結(jié)構(gòu)注整。
節(jié)點(diǎn)拓?fù)渲讣y(NTF)
Tree-Invent 的一個(gè)關(guān)鍵元素是 NTF。它編碼了環(huán)系統(tǒng)的各種屬性度硝,例如環(huán)的數(shù)量肿轨、芳香環(huán)的存在、外環(huán)雙鍵蕊程,以及特定原子(如 C椒袍、N、O 等)的數(shù)量藻茂。NTF 在生成和細(xì)化分子圖中的環(huán)結(jié)構(gòu)中發(fā)揮著至關(guān)重要的作用驹暑。
五步結(jié)構(gòu)生成過(guò)程
Tree-Invent 采用系統(tǒng)的五步過(guò)程生成分子結(jié)構(gòu):
Tree-Invent 的架構(gòu)概覽
Tree-Invent 的架構(gòu)基于三個(gè)主要模塊:
每個(gè)模塊都配備了圖神經(jīng)網(wǎng)絡(luò)(GNN)塊和多層感知器(MLP)網(wǎng)絡(luò)折晦,促進(jìn)復(fù)雜計(jì)算和決策過(guò)程。
Tree-Invent 的創(chuàng)新特性
圖神經(jīng)網(wǎng)絡(luò)的運(yùn)用
Tree-Invent 廣泛利用圖卷積網(wǎng)絡(luò)(GCN)來(lái)學(xué)習(xí)和表征圖結(jié)構(gòu)沾瓦。該模型將分子圖或子圖視為一系列節(jié)點(diǎn)和邊特征筋遭,通過(guò)門(mén)控圖神經(jīng)網(wǎng)絡(luò)(GGNN)進(jìn)行處理。
MLP 的作用
Tree-Invent 中的 MLP 對(duì)于預(yù)測(cè)各種過(guò)程(如節(jié)點(diǎn)添加暴拄、環(huán)生成和節(jié)點(diǎn)連接)的行動(dòng)概率分布至關(guān)重要漓滔,提高了模型的決策準(zhǔn)確性。
先進(jìn)的分子生成技術(shù)
Tree-Invent 在生成具有各種約束的分子結(jié)構(gòu)方面脫穎而出:
該模型擅長(zhǎng)處理復(fù)雜任務(wù)豁鲤,如骨架躍遷秽誊、骨架修飾和連接器設(shè)計(jì),這在藥物發(fā)現(xiàn)和化學(xué)合成中至關(guān)重要琳骡。
整合強(qiáng)化學(xué)習(xí)
將強(qiáng)化學(xué)習(xí)(RL)與 Tree-Invent 結(jié)合是一個(gè)重大進(jìn)步锅论。這種整合促進(jìn)了結(jié)構(gòu)優(yōu)化,實(shí)現(xiàn)了針對(duì)靶標(biāo)屬性的優(yōu)化楣号,使模型不僅具有生成能力最易,還具有預(yù)測(cè)和適應(yīng)能力。
數(shù)據(jù)集利用
Tree-Invent 在 GuacaMol 數(shù)據(jù)集上進(jìn)行了訓(xùn)練炫狱,涵蓋了大量的分子結(jié)構(gòu)藻懒。模型的訓(xùn)練涉及復(fù)雜的分段、原子遍歷方法和優(yōu)化技術(shù)视译,確保了分子圖生成的穩(wěn)健性和準(zhǔn)確性嬉荆。
主要結(jié)果及圖表
Tree-Invent 生成模型最初在 GuacaMol 數(shù)據(jù)集上進(jìn)行訓(xùn)練,并在 50000 個(gè)化合物樣本集上進(jìn)行性能評(píng)估什往。結(jié)果顯示,該模型在結(jié)構(gòu)有效性慌闭、唯一性和新穎性方面的表現(xiàn)可與其他模型媲美别威。然而,在 KL 散度和 Frechet ChemNet Distance(FCD)指標(biāo)上表現(xiàn)較弱驴剔。在特定化學(xué)任務(wù)中省古,如使用強(qiáng)化學(xué)習(xí)生成 DRD2 活性分子時(shí),模型展現(xiàn)了較高的預(yù)測(cè)準(zhǔn)確率和探索化學(xué)空間的能力丧失。
在設(shè)計(jì) CDK4 抑制劑方面豺妓,Tree-Invent 模型通過(guò)遷移學(xué)習(xí)快速掌握 CDK4 抑制劑的結(jié)構(gòu)特點(diǎn)。利用遷移學(xué)習(xí)布讹,模型能生成與已知抑制劑結(jié)構(gòu)相近的分子琳拭。此外,模型在生成結(jié)構(gòu)受限分子方面也展現(xiàn)了其獨(dú)特性描验。例如白嘁,在生成核苷類(lèi)似物時(shí),模型在滿足拓?fù)錁?shù)約束條件下膘流,成功生成新的核苷結(jié)構(gòu)絮缅。在強(qiáng)化學(xué)習(xí)環(huán)境中鲁沥,模型同樣有效地執(zhí)行骨架躍遷和骨架修飾等任務(wù)。
綜合來(lái)看耕魄,Tree-Invent 生成模型不僅在無(wú)約束環(huán)境中表現(xiàn)出色画恰,而且在結(jié)合強(qiáng)化學(xué)習(xí)和遷移學(xué)習(xí)等方法時(shí),能夠靈活應(yīng)對(duì)多種化學(xué)設(shè)計(jì)任務(wù)吸奴,如骨架躍遷允扇、骨架修飾和連接體設(shè)計(jì)。
圖表 1: 分子表征的拓?fù)錁?shù)及其組成部分
圖表 2: 樹(shù)狀創(chuàng)新分子生成工作流程基礎(chǔ)圖
圖表 3: 模型架構(gòu)
圖表 4: 訓(xùn)練數(shù)據(jù)準(zhǔn)備的結(jié)構(gòu)劃分示例
左側(cè)為輸入神經(jīng)網(wǎng)絡(luò)的劃分片段档泽,右側(cè)為輸出俊戳。虛線代表預(yù)期創(chuàng)建的鍵。
圖表 5: 氟苯的拓?fù)鋱D和分子圖
圖表 6: 拓?fù)浼s束示例
圖表 7: Tree-Invent 訓(xùn)練過(guò)程中生成分子的平均活性得分
圖表 8: 遷移學(xué)習(xí)過(guò)程中生成分子與訓(xùn)練集的平均 Tanimoto 相似性
圖表 9: 腺嘌呤的結(jié)構(gòu)及其樹(shù)狀結(jié)構(gòu)
圖表 10: Celecoxib 的結(jié)構(gòu)及其用于結(jié)構(gòu)生成的兩種不同拓?fù)浼s束
圖表 11: 不同約束下生成的結(jié)構(gòu)
圖表 12: ADAM17 活性分子的骨架修飾
圖表 13: 僅位置約束和拓?fù)浼s束下生成的骨架修飾示例
圖表 14: S1PR1 抑制劑連接器的定義拓?fù)浼s束
表 1:節(jié)點(diǎn)特征 x 與邊特征 Xerw 的構(gòu)成
表 2:APD 加耙饰、APD 環(huán)與 APD 連接形狀張量在單步驟中的應(yīng)用
表 3:遷移學(xué)習(xí)和強(qiáng)化學(xué)習(xí)中使用的幾個(gè)數(shù)據(jù)集及 SVC 模型在測(cè)試集上的分類(lèi)性能
表 4:Tree-Invent 與其他基準(zhǔn)模型的性能比較
要點(diǎn)總結(jié)
缺點(diǎn):
- 方法和數(shù)據(jù)可能缺乏足夠的細(xì)節(jié)铜秆,以供其他研究人員復(fù)制和驗(yàn)證淹真。
- 可能存在對(duì) Tree-Invent 模型的可擴(kuò)展性和普遍性的擔(dān)憂。
- 與現(xiàn)有前沿生成模型和技術(shù)的比較不足(比如: Reinvent 分子生成模型)连茧,限制了對(duì)其優(yōu)勢(shì)或改進(jìn)的理解核蘸。
- 缺乏對(duì) Tree-Invent 如何不同于或改進(jìn)當(dāng)前方法論的批判性分析。
- 一些結(jié)果可能未清晰呈現(xiàn)啸驯,或在其解釋和討論中缺乏足夠的深度客扎。
- 可能過(guò)分依賴計(jì)算數(shù)據(jù),而沒(méi)有充分的實(shí)驗(yàn)驗(yàn)證或真實(shí)世界案例測(cè)試罚斗。
改進(jìn)建議
- 提供更詳細(xì)的方法和數(shù)據(jù)信息徙鱼,以增強(qiáng)可復(fù)制性。
- 包含更多的驗(yàn)證惰聂,可能通過(guò)實(shí)驗(yàn)結(jié)果或案例研究疆偿,以展示該模型的實(shí)際應(yīng)用性。
- 擴(kuò)展與現(xiàn)有前沿生成模型的比較搓幌,突出 Tree-Invent 模型的特定優(yōu)勢(shì)和局限杆故。
- 包含更全面的討論,闡述該模型在當(dāng)前計(jì)算化學(xué)工具領(lǐng)域的位置溉愁。
- 明確結(jié)果的呈現(xiàn)处铛,確保數(shù)據(jù)可解讀且有效傳達(dá)。
- 加深對(duì)結(jié)果的分析拐揭,關(guān)注其實(shí)際應(yīng)用和未來(lái)研究的潛在領(lǐng)域撤蟆。
參考資料:
Reymond, J.-L. (2015). The Chemical Space Project. Accounts of Chemical Research, 48(3), 722–730. https://doi.org/10.1021/ar500432k
Code: https://github.com/MingyuanXu/Tree-Invent.
文獻(xiàn)下載(復(fù)制鏈接到外部瀏覽器打開(kāi)): https://is.gd/YOYHsj