讀文獻(xiàn)之前的幾個(gè)基礎(chǔ)概念:
1.基因表達(dá)譜(changes in transcriptional profiles,CTPs):是一種在分子生物學(xué)領(lǐng)域蒜撮,借助cDNA终惑、表達(dá)序列標(biāo)簽(EST)或寡核苷酸芯片來(lái)測(cè)定細(xì)胞基因表達(dá)情況(包括特定基因是否表達(dá)混卵、表達(dá)豐度写隶、不同組織、不同發(fā)育階段以及不同生理狀態(tài)下的表達(dá)差異)的方法。通過(guò)一次性測(cè)定大量基因構(gòu)建起細(xì)胞功能的總體態(tài)勢(shì)圖,可以從圖譜中區(qū)分出正在分裂的細(xì)胞巴席,以及細(xì)胞對(duì)于特征性治療的反應(yīng)∽缧瑁基因表達(dá)譜還有助于了解疾病的發(fā)病機(jī)制漾唉、藥物的生理反應(yīng)和治療效果荧库。基因表達(dá)圖譜從邏輯上說(shuō)是基因測(cè)序的下一個(gè)步驟赵刑,基因序列包含細(xì)胞可能存在的功能的信息分衫,而基因表達(dá)譜則包含細(xì)胞實(shí)際上正在完成的工作的信息。(https://zh.wikipedia.org/wiki/%E5%9F%BA%E5%9B%A0%E8%A1%A8%E8%BE%BE%E8%B0%B1)
2.基因簽名(gene signatures):具有獨(dú)特基因表達(dá)模式的細(xì)胞中的單個(gè)或組合基因組般此,這是由于改變或未改變的生物過(guò)程或病原性疾病導(dǎo)致的蚪战。不要將這與基因表達(dá)譜的概念混淆。激活常規(guī)生理過(guò)程中的通路或?qū)?a target="_blank">刺激的生理反應(yīng)會(huì)導(dǎo)致信號(hào)轉(zhuǎn)導(dǎo)和相互作用的級(jí)聯(lián)反應(yīng)铐懊,從而引起基因表達(dá)水平的改變邀桑,這被歸類(lèi)為該生理過(guò)程或反應(yīng)的基因特征】坪酰基因特征的臨床應(yīng)用細(xì)分為預(yù)后壁畸、診斷和預(yù)測(cè)特征。理論上可由基因表達(dá)特征定義的表型范圍從預(yù)測(cè)患有疾病的個(gè)體的存活或預(yù)后的表型茅茂、用于區(qū)分疾病的不同亞型的表型到預(yù)測(cè)特定途徑激活的表型.?理想情況下捏萍,基因特征可用于選擇特定治療對(duì)其有效的一組患者。(https://en.wikipedia.org/wiki/Gene_signature)
3.基因富集分析(gene set enrichment analysis,GSEA):是一種識(shí)別在大量基因或蛋白質(zhì)中過(guò)度表達(dá)且可能與疾病表型相關(guān)的基因或蛋白質(zhì)類(lèi)別的方法空闲。該方法使用統(tǒng)計(jì)方法來(lái)識(shí)別顯著富集或耗竭的基因組令杈。轉(zhuǎn)錄組學(xué)技術(shù)和蛋白質(zhì)組學(xué)結(jié)果通常可以識(shí)別出數(shù)千個(gè)用于分析的基因碴倾。(https://en.wikipedia.org/wiki/Gene_set_enrichment_analysis)
今天閱讀的是北京大學(xué)醫(yī)學(xué)院謝正偉團(tuán)隊(duì)發(fā)表在Nature Biotechnology上的文章逗噩,文章提出了一種基于深度學(xué)習(xí)的藥效預(yù)測(cè)系統(tǒng)(DLEPS),該系統(tǒng)將藥物SMILES分子輸入神經(jīng)網(wǎng)絡(luò)來(lái)擬合藥物作用下基因表達(dá)譜的變化信息跌榔,從而預(yù)測(cè)疾病藥物分子给赞,該模型在測(cè)試集上的預(yù)測(cè)效果(Pearson相關(guān)系數(shù))達(dá)到0.74;之后文章作者還進(jìn)行了案例分析矫户,即分別預(yù)測(cè)肥胖、高尿酸血癥和非酒精性脂肪肝炎三種疾病藥物分子残邀,隨后通過(guò)構(gòu)建小鼠模型驗(yàn)證了系統(tǒng)預(yù)測(cè)的候選藥物的有效性皆辽,表面該系統(tǒng)具有通用性,可以預(yù)測(cè)多種疾病的藥物分子芥挣。
研究背景
基于靶蛋白的研發(fā)目前存在的問(wèn)題是不能處理缺乏明確定義靶蛋白的疾病驱闷,針對(duì)這種疾病的策略是設(shè)計(jì)一個(gè)能夠獨(dú)立于特定靶標(biāo)的藥效預(yù)測(cè)模型。比如Stokes, J. M等人于2020年發(fā)表在Cell期刊上的研究提出使用定制的深度學(xué)習(xí)模型來(lái)發(fā)現(xiàn)治療大腸桿菌感染的新候選抗生素空免,但是該模型依賴(lài)于特定單一疾病狀態(tài)的表型數(shù)據(jù)空另,缺乏推廣到其他疾病的能力。因此蹋砚,設(shè)計(jì)出一種能夠預(yù)測(cè)多種疾病藥物分子的通用系統(tǒng)是有重要意義的扼菠。
本文貢獻(xiàn)
(1)本文提出了一個(gè)基于深度學(xué)習(xí)的疾病藥物分子預(yù)測(cè)模型摄杂,該模型是利用藥物分子和藥物作用下的基因表達(dá)譜信息進(jìn)行訓(xùn)練,不需要知道靶蛋白信息循榆,這給缺乏明確定義靶蛋白的疾病藥物分子預(yù)測(cè)帶來(lái)新的思路析恢;
(2)本文做了生物實(shí)驗(yàn)驗(yàn)證了系統(tǒng)的有效性,分別是使用褐變基因特征尋找抗肥胖分子秧饮、使用多個(gè)基因特征識(shí)別抗高尿酸血癥分子以及鑒定抗非酒精性脂肪性肝炎的藥物分子映挂。
模型介紹
1.數(shù)據(jù)預(yù)處理
本文使用的數(shù)據(jù)集是L1000,該數(shù)據(jù)來(lái)源于一個(gè)項(xiàng)目庫(kù)(Integrated Network-Based Cellular Signatures)盗尸,對(duì)其進(jìn)行清洗處理柑船,按照以下規(guī)則進(jìn)行清洗:
1)分子必須有超過(guò)5個(gè)備份;
2)分子的SMILES要能使用RDKIT(version 2017.9.1)工具解析泼各。
隨后鞍时,通過(guò)處理過(guò)程獲得了與疾病的標(biāo)志性基因有關(guān)的17051個(gè)已經(jīng)驗(yàn)證的分子,其中隨機(jī)選取14051個(gè)分子作為訓(xùn)練集历恐,1500個(gè)分子作為驗(yàn)證集以及1500分子作為測(cè)試集寸癌。
2.方法
模型輸入與疾病標(biāo)志性基因表達(dá)譜變化有關(guān)的藥物分子數(shù)據(jù),輸出藥物作用下的基因表達(dá)譜信息弱贼,從而預(yù)測(cè)疾病藥物分子蒸苇。藥物分子的SMILES可以通過(guò)變分自動(dòng)編碼器作為純文本編碼到潛在空間中。首先吮旅,使用GVAE(語(yǔ)法樹(shù)模型)對(duì)藥物分子的SMILES(是用rdkit處理的規(guī)范的SMILES)進(jìn)行編碼溪烤,即將SMILES解析成一個(gè)語(yǔ)法樹(shù)(有76個(gè)節(jié)點(diǎn)類(lèi)型),然后再解析為扁平向量庇勃,進(jìn)行one-hot編碼(最大長(zhǎng)度227檬嘀,數(shù)據(jù)維度277*76),然后將其傳遞給三層一維卷積神經(jīng)網(wǎng)絡(luò)(Conv1D(9, 9)责嚷,輸出維度為 (269, 9)鸳兽,Conv1D(9, 9),輸出維度為 (261, 9)罕拂,Conv1D) (10, 11) 輸出維度為 (251, 10))得到新的特征表示揍异。將新的特征表示展平(dim=2510)成一維的向量,然后傳遞到一個(gè)全連接神經(jīng)網(wǎng)絡(luò)爆班,輸出得到兩個(gè)新的特征表示衷掷,分別是中心向量和半徑向量,對(duì)中心向量和半徑向量進(jìn)行采樣獲得新的向量表示柿菩,隨后作為隱向量輸入到一個(gè)含有5層全連接層的神經(jīng)網(wǎng)絡(luò)(其中每層都施加Dropout機(jī)制戚嗅,前3層的激活函數(shù)采用Relu,第4層的激活函數(shù)采用Tanh,最后一層不使用激活函數(shù))懦胞,用于預(yù)測(cè)轉(zhuǎn)錄譜(CTPs替久,978個(gè)標(biāo)志性基因)的變化。最后医瘫,978個(gè)標(biāo)志性基因通過(guò)線性變換轉(zhuǎn)化為12328個(gè)基因侣肄。
模型采用采用 dropout 層來(lái)克服過(guò)擬合。tanh 函數(shù)的作用是使輸出在 [?1, 1] 的范圍內(nèi)醇份,之后的線性層將在 [?∞, +∞] 范圍內(nèi)輸出稼锅。模型使用帶有固定參數(shù)的預(yù)訓(xùn)練 GVAE 模型進(jìn)行第一步訓(xùn)練(30,000 步)。然后將所有參數(shù)再微調(diào) 10,000 步僚纷。使用均方誤差作為損失函數(shù)矩距,使用 Adam 作為優(yōu)化方法。使用 Pearson 相關(guān)系數(shù)評(píng)估模型的性能怖竭。
實(shí)驗(yàn)
1.預(yù)測(cè)結(jié)果
本文采用Pearson相關(guān)系數(shù)作為評(píng)價(jià)指標(biāo)來(lái)評(píng)估模型的性能锥债,并通過(guò)設(shè)置不同的Pearson相關(guān)系數(shù)閾值來(lái)計(jì)算平均Pearson相關(guān)系數(shù)作為模型性能指標(biāo);模型的訓(xùn)練集和測(cè)試集的不同Pearson相關(guān)系數(shù)閾值繪制的類(lèi)似于ROC曲線如下圖g和j所示:
2.案例分析
略痊臭。
參考文獻(xiàn)
https://www.nature.com/articles/s41587-021-00946-z#Abs1