day01 | 利用深度學(xué)習(xí)從基因轉(zhuǎn)錄數(shù)據(jù)中預(yù)測(cè)藥物療效

圖1

讀文獻(xiàn)之前的幾個(gè)基礎(chǔ)概念：

1.基因表達(dá)譜（changes in transcriptional profiles,CTPs）：是一種在分子生物學(xué)領(lǐng)域蒜撮，借助cDNA终惑、表達(dá)序列標(biāo)簽（EST）或寡核苷酸芯片來(lái)測(cè)定細(xì)胞基因表達(dá)情況（包括特定基因是否表達(dá)混卵、表達(dá)豐度写隶、不同組織、不同發(fā)育階段以及不同生理狀態(tài)下的表達(dá)差異）的方法。通過(guò)一次性測(cè)定大量基因構(gòu)建起細(xì)胞功能的總體態(tài)勢(shì)圖，可以從圖譜中區(qū)分出正在分裂的細(xì)胞巴席，以及細(xì)胞對(duì)于特征性治療的反應(yīng)∽缧瑁基因表達(dá)譜還有助于了解疾病的發(fā)病機(jī)制漾唉、藥物的生理反應(yīng)和治療效果荧库。基因表達(dá)圖譜從邏輯上說(shuō)是基因測(cè)序的下一個(gè)步驟赵刑，基因序列包含細(xì)胞可能存在的功能的信息分衫，而基因表達(dá)譜則包含細(xì)胞實(shí)際上正在完成的工作的信息。（https://zh.wikipedia.org/wiki/%E5%9F%BA%E5%9B%A0%E8%A1%A8%E8%BE%BE%E8%B0%B1）

2.基因簽名（gene signatures）：具有獨(dú)特基因表達(dá)模式的細(xì)胞中的單個(gè)或組合基因組般此，這是由于改變或未改變的生物過(guò)程或病原性疾病導(dǎo)致的蚪战。不要將這與基因表達(dá)譜的概念混淆。激活常規(guī)生理過(guò)程中的通路或?qū)?a target="_blank">刺激的生理反應(yīng)會(huì)導(dǎo)致信號(hào)轉(zhuǎn)導(dǎo)和相互作用的級(jí)聯(lián)反應(yīng)铐懊，從而引起基因表達(dá)水平的改變邀桑，這被歸類(lèi)為該生理過(guò)程或反應(yīng)的基因特征】坪酰基因特征的臨床應(yīng)用細(xì)分為預(yù)后壁畸、診斷和預(yù)測(cè)特征。理論上可由基因表達(dá)特征定義的表型范圍從預(yù)測(cè)患有疾病的個(gè)體的存活或預(yù)后的表型茅茂、用于區(qū)分疾病的不同亞型的表型到預(yù)測(cè)特定途徑激活的表型.?理想情況下捏萍，基因特征可用于選擇特定治療對(duì)其有效的一組患者。（https://en.wikipedia.org/wiki/Gene_signature）

3.基因富集分析（gene set enrichment analysis,GSEA）：是一種識(shí)別在大量基因或蛋白質(zhì)中過(guò)度表達(dá)且可能與疾病表型相關(guān)的基因或蛋白質(zhì)類(lèi)別的方法空闲。該方法使用統(tǒng)計(jì)方法來(lái)識(shí)別顯著富集或耗竭的基因組令杈。轉(zhuǎn)錄組學(xué)技術(shù)和蛋白質(zhì)組學(xué)結(jié)果通常可以識(shí)別出數(shù)千個(gè)用于分析的基因碴倾。（https://en.wikipedia.org/wiki/Gene_set_enrichment_analysis）

今天閱讀的是北京大學(xué)醫(yī)學(xué)院謝正偉團(tuán)隊(duì)發(fā)表在Nature Biotechnology上的文章逗噩，文章提出了一種基于深度學(xué)習(xí)的藥效預(yù)測(cè)系統(tǒng)（DLEPS），該系統(tǒng)將藥物SMILES分子輸入神經(jīng)網(wǎng)絡(luò)來(lái)擬合藥物作用下基因表達(dá)譜的變化信息跌榔，從而預(yù)測(cè)疾病藥物分子给赞，該模型在測(cè)試集上的預(yù)測(cè)效果（Pearson相關(guān)系數(shù)）達(dá)到0.74；之后文章作者還進(jìn)行了案例分析矫户，即分別預(yù)測(cè)肥胖、高尿酸血癥和非酒精性脂肪肝炎三種疾病藥物分子残邀，隨后通過(guò)構(gòu)建小鼠模型驗(yàn)證了系統(tǒng)預(yù)測(cè)的候選藥物的有效性皆辽，表面該系統(tǒng)具有通用性，可以預(yù)測(cè)多種疾病的藥物分子芥挣。

研究背景

基于靶蛋白的研發(fā)目前存在的問(wèn)題是不能處理缺乏明確定義靶蛋白的疾病驱闷，針對(duì)這種疾病的策略是設(shè)計(jì)一個(gè)能夠獨(dú)立于特定靶標(biāo)的藥效預(yù)測(cè)模型。比如Stokes, J. M等人于2020年發(fā)表在Cell期刊上的研究提出使用定制的深度學(xué)習(xí)模型來(lái)發(fā)現(xiàn)治療大腸桿菌感染的新候選抗生素空免，但是該模型依賴(lài)于特定單一疾病狀態(tài)的表型數(shù)據(jù)空另，缺乏推廣到其他疾病的能力。因此蹋砚，設(shè)計(jì)出一種能夠預(yù)測(cè)多種疾病藥物分子的通用系統(tǒng)是有重要意義的扼菠。

本文貢獻(xiàn)

（1）本文提出了一個(gè)基于深度學(xué)習(xí)的疾病藥物分子預(yù)測(cè)模型摄杂，該模型是利用藥物分子和藥物作用下的基因表達(dá)譜信息進(jìn)行訓(xùn)練，不需要知道靶蛋白信息循榆，這給缺乏明確定義靶蛋白的疾病藥物分子預(yù)測(cè)帶來(lái)新的思路析恢；

（2）本文做了生物實(shí)驗(yàn)驗(yàn)證了系統(tǒng)的有效性，分別是使用褐變基因特征尋找抗肥胖分子秧饮、使用多個(gè)基因特征識(shí)別抗高尿酸血癥分子以及鑒定抗非酒精性脂肪性肝炎的藥物分子映挂。

模型介紹

1.數(shù)據(jù)預(yù)處理

本文使用的數(shù)據(jù)集是L1000，該數(shù)據(jù)來(lái)源于一個(gè)項(xiàng)目庫(kù)（Integrated Network-Based Cellular Signatures）盗尸，對(duì)其進(jìn)行清洗處理柑船，按照以下規(guī)則進(jìn)行清洗：

1）分子必須有超過(guò)5個(gè)備份；

2）分子的SMILES要能使用RDKIT(version 2017.9.1)工具解析泼各。

隨后鞍时，通過(guò)處理過(guò)程獲得了與疾病的標(biāo)志性基因有關(guān)的17051個(gè)已經(jīng)驗(yàn)證的分子，其中隨機(jī)選取14051個(gè)分子作為訓(xùn)練集历恐，1500個(gè)分子作為驗(yàn)證集以及1500分子作為測(cè)試集寸癌。

2.方法

圖2.模型介紹

模型輸入與疾病標(biāo)志性基因表達(dá)譜變化有關(guān)的藥物分子數(shù)據(jù)，輸出藥物作用下的基因表達(dá)譜信息弱贼，從而預(yù)測(cè)疾病藥物分子蒸苇。藥物分子的SMILES可以通過(guò)變分自動(dòng)編碼器作為純文本編碼到潛在空間中。首先吮旅，使用GVAE（語(yǔ)法樹(shù)模型）對(duì)藥物分子的SMILES（是用rdkit處理的規(guī)范的SMILES）進(jìn)行編碼溪烤，即將SMILES解析成一個(gè)語(yǔ)法樹(shù)（有76個(gè)節(jié)點(diǎn)類(lèi)型），然后再解析為扁平向量庇勃，進(jìn)行one-hot編碼（最大長(zhǎng)度227檬嘀，數(shù)據(jù)維度277*76），然后將其傳遞給三層一維卷積神經(jīng)網(wǎng)絡(luò)（Conv1D(9, 9)责嚷，輸出維度為 (269, 9)鸳兽，Conv1D(9, 9)，輸出維度為 (261, 9)罕拂，Conv1D) (10, 11) 輸出維度為 (251, 10)）得到新的特征表示揍异。將新的特征表示展平（dim=2510）成一維的向量，然后傳遞到一個(gè)全連接神經(jīng)網(wǎng)絡(luò)爆班，輸出得到兩個(gè)新的特征表示衷掷，分別是中心向量和半徑向量，對(duì)中心向量和半徑向量進(jìn)行采樣獲得新的向量表示柿菩，隨后作為隱向量輸入到一個(gè)含有5層全連接層的神經(jīng)網(wǎng)絡(luò)（其中每層都施加Dropout機(jī)制戚嗅，前3層的激活函數(shù)采用Relu，第4層的激活函數(shù)采用Tanh，最后一層不使用激活函數(shù)）懦胞，用于預(yù)測(cè)轉(zhuǎn)錄譜（CTPs替久，978個(gè)標(biāo)志性基因）的變化。最后医瘫，978個(gè)標(biāo)志性基因通過(guò)線性變換轉(zhuǎn)化為12328個(gè)基因侣肄。

模型采用采用 dropout 層來(lái)克服過(guò)擬合。tanh 函數(shù)的作用是使輸出在 [?1, 1] 的范圍內(nèi)醇份，之后的線性層將在 [?∞, +∞] 范圍內(nèi)輸出稼锅。模型使用帶有固定參數(shù)的預(yù)訓(xùn)練 GVAE 模型進(jìn)行第一步訓(xùn)練（30,000 步）。然后將所有參數(shù)再微調(diào) 10,000 步僚纷。使用均方誤差作為損失函數(shù)矩距，使用 Adam 作為優(yōu)化方法。使用 Pearson 相關(guān)系數(shù)評(píng)估模型的性能怖竭。

實(shí)驗(yàn)

1.預(yù)測(cè)結(jié)果

本文采用Pearson相關(guān)系數(shù)作為評(píng)價(jià)指標(biāo)來(lái)評(píng)估模型的性能锥债，并通過(guò)設(shè)置不同的Pearson相關(guān)系數(shù)閾值來(lái)計(jì)算平均Pearson相關(guān)系數(shù)作為模型性能指標(biāo)；模型的訓(xùn)練集和測(cè)試集的不同Pearson相關(guān)系數(shù)閾值繪制的類(lèi)似于ROC曲線如下圖g和j所示：

圖3.模型性能評(píng)估

2.案例分析

略痊臭。

參考文獻(xiàn)

https://www.nature.com/articles/s41587-021-00946-z#Abs1

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末哮肚，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子广匙，更是在濱河造成了極大的恐慌允趟，老刑警劉巖，帶你破解...
沈念sama閱讀 217,277評(píng)論 6贊 503
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件鸦致，死亡現(xiàn)場(chǎng)離奇詭異潮剪，居然都是意外死亡，警方通過(guò)查閱死者的電腦和手機(jī)分唾，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,689評(píng)論 3贊 393
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)抗碰，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)，“玉大人绽乔，你說(shuō)我怎么就攤上這事弧蝇。” “怎么了折砸？”我有些...
開(kāi)封第一講書(shū)人閱讀 163,624評(píng)論 0贊 353
道士緝兇錄：失蹤的賣(mài)姜人
文/不壞的土叔我叫張陵看疗，是天一觀的道長(zhǎng)。經(jīng)常有香客問(wèn)我鞍爱，道長(zhǎng)，這世上最難降的妖魔是什么专酗？我笑而不...
開(kāi)封第一講書(shū)人閱讀 58,356評(píng)論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任睹逃，我火速辦了婚禮，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘沉填。我一直安慰自己疗隶，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 67,402評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布翼闹。她就那樣靜靜地躺著斑鼻，像睡著了一般。火紅的嫁衣襯著肌膚如雪猎荠。梳的紋絲不亂的頭發(fā)上坚弱，一...
開(kāi)封第一講書(shū)人閱讀 51,292評(píng)論 1贊 301
城市分裂傳說(shuō)
那天，我揣著相機(jī)與錄音关摇，去河邊找鬼荒叶。笑死，一個(gè)胖子當(dāng)著我的面吹牛输虱，可吹牛的內(nèi)容都是我干的些楣。我是一名探鬼主播，決...
沈念sama閱讀 40,135評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼宪睹，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼愁茁！你這毒婦竟也來(lái)了？” 一聲冷哼從身側(cè)響起亭病，我...
開(kāi)封第一講書(shū)人閱讀 38,992評(píng)論 0贊 275
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤鹅很，失蹤者是張志新（化名）和其女友劉穎，沒(méi)想到半個(gè)月后命贴，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體道宅，經(jīng)...
沈念sama閱讀 45,429評(píng)論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,636評(píng)論 3贊 334
?白月光啟示錄
正文我和宋清朗相戀三年胸蛛，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了污茵。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 39,785評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡葬项，死狀恐怖泞当，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情民珍，我是刑警寧澤襟士，帶...
沈念sama閱讀 35,492評(píng)論 5贊 345
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站嚷量，受9級(jí)特大地震影響陋桂，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜蝶溶，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,092評(píng)論 3贊 328
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一嗜历、第九天我趴在偏房一處隱蔽的房頂上張望宣渗。院中可真熱鬧，春花似錦梨州、人聲如沸痕囱。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 31,723評(píng)論 0贊 22
一樁弒父案暴匠，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)鞍恢。三九已至，卻和暖如春每窖，著一層夾襖步出監(jiān)牢的瞬間帮掉，已是汗流浹背。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 32,858評(píng)論 1贊 269
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工岛请，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留旭寿，地道東北人。一個(gè)月前我還...
沈念sama閱讀 47,891評(píng)論 2贊 370
代替公主和親
正文我出身青樓崇败，卻偏偏與公主長(zhǎng)得像盅称，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子后室，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,713評(píng)論 2贊 354