高通量機(jī)制驅(qū)動(dòng)表型化合物篩選的深度學(xué)習(xí)框架及其在COVID-19藥物再利用中的應(yīng)用

A deep learning framework for high-throughput mechanism-driven phenotype compound screening and its application to COVID-19 drug repurposing

https://www.nature.com/articles/s42256-020-00285-9

基于表型的化合物篩選比基于靶點(diǎn)的藥物發(fā)現(xiàn)具有優(yōu)勢(shì),但不可擴(kuò)展竿音,對(duì)藥物作用機(jī)制缺乏了解嗽桩∧馨洌化學(xué)誘導(dǎo)的基因表達(dá)譜提供了表型反應(yīng)的機(jī)制性特征敲霍;然而,這些數(shù)據(jù)的使用受到其稀疏性汗侵、不可靠性和相對(duì)較低的吞吐量的限制间雀。很少有方法可以進(jìn)行基于表型的從頭化合物篩選。在這里涵亏,我們提出了一種基于機(jī)制驅(qū)動(dòng)的神經(jīng)網(wǎng)絡(luò)方法DeepCE宰睡,它利用圖形神經(jīng)網(wǎng)絡(luò)和多頭注意機(jī)制來模擬化學(xué)亞結(jié)構(gòu)-基因和基因-基因關(guān)聯(lián),以預(yù)測(cè)由從頭化學(xué)物質(zhì)擾動(dòng)的差異基因表達(dá)譜气筋。此外拆内,我們提出了一種新的數(shù)據(jù)擴(kuò)充方法,從L1000數(shù)據(jù)集中不可靠的實(shí)驗(yàn)中提取有用的信息宠默。實(shí)驗(yàn)結(jié)果表明麸恍,DeepCE的性能優(yōu)于現(xiàn)有的方法。DeepCE生成的基因表達(dá)譜的有效性通過與下游分類任務(wù)的觀察數(shù)據(jù)進(jìn)行比較得到了進(jìn)一步的支持搀矫。為了證明DeepCE的價(jià)值抹沪,我們將其應(yīng)用于COVID-19的藥物再利用,并產(chǎn)生與臨床證據(jù)一致的新的先導(dǎo)化合物艾君。因此采够,DeepCE通過利用噪聲組學(xué)數(shù)據(jù)和篩選新的化學(xué)物質(zhì)來調(diào)節(jié)系統(tǒng)對(duì)疾病的反應(yīng),為穩(wěn)健的預(yù)測(cè)建模提供了一個(gè)潛在的強(qiáng)大框架冰垄。


以靶向?yàn)榛A(chǔ)的高通量篩選在傳統(tǒng)的藥物發(fā)現(xiàn)過程中占主導(dǎo)地位蹬癌。幾十年來权她,它一直是計(jì)算機(jī)輔助藥物發(fā)現(xiàn)的焦點(diǎn),包括深度學(xué)習(xí)的最新應(yīng)用逝薪;然而隅要,一種化學(xué)物質(zhì)對(duì)一種蛋白質(zhì)的調(diào)節(jié)所產(chǎn)生的讀數(shù)與機(jī)體水平的治療效果或副作用關(guān)系不大。因此董济,從靶向篩選產(chǎn)生的先導(dǎo)化合物到批準(zhǔn)藥物的失敗率很高步清。基于表型的篩選為鑒定細(xì)胞活性化合物帶來了新的興趣虏肾,但由于高通量和目標(biāo)反褶積困難廓啊。因此,高通量封豪、機(jī)制驅(qū)動(dòng)的表型化合物篩選方法將有助于藥物的發(fā)現(xiàn)和開發(fā)谴轮。

基因表達(dá)譜已被廣泛用于表征細(xì)胞和機(jī)體表型。對(duì)人類細(xì)胞系化學(xué)擾動(dòng)的全基因組基因表達(dá)的系統(tǒng)分析已經(jīng)導(dǎo)致了藥物發(fā)現(xiàn)和藥理學(xué)系統(tǒng)的重大改進(jìn)吹埠。特別是第步,基因表達(dá)譜可應(yīng)用于藥物重組1、2缘琅、3粘都、4、發(fā)現(xiàn)藥物機(jī)制5刷袍、識(shí)別先導(dǎo)化合物6和預(yù)測(cè)臨床前化合物7的副作用翩隧。使用全基因組化學(xué)誘導(dǎo)的基因表達(dá)最初是由于連接性圖譜(CMap)8的出現(xiàn)而成為可能的,該圖譜由5個(gè)人類癌癥細(xì)胞系的基因表達(dá)譜組成做个,這些細(xì)胞系在6小時(shí)后受到約1300種化合物的干擾鸽心;然而己英,跨細(xì)胞類型的有限數(shù)據(jù)可用性限制了上述分析的性能燕锥,這在很大程度上取決于化學(xué)品和人類細(xì)胞系的覆蓋范圍。為了克服這一限制圆兵,美國(guó)國(guó)立衛(wèi)生研究院(NIH)綜合網(wǎng)絡(luò)細(xì)胞特征庫(kù)(LINCS)項(xiàng)目9開發(fā)了一種新的基因表達(dá)譜分析方法L1000(它是CMap項(xiàng)目的擴(kuò)展)太闺。在LINCS的第一階段之后糯景,L1000數(shù)據(jù)集包含了約1400000個(gè)基因表達(dá)譜,這些基因表達(dá)譜是關(guān)于約50個(gè)人類細(xì)胞系對(duì)約20000種化合物中的一種在不同濃度范圍內(nèi)的反應(yīng)省骂。L1000數(shù)據(jù)集及其規(guī)范化版本10最近廣泛用于藥物再利用和發(fā)現(xiàn)11,12蟀淮。盡管取得了這些成功,但在使用L1000時(shí)仍存在幾個(gè)主要問題钞澳。首先怠惶,盡管基因表達(dá)譜的數(shù)目比CMap中的要大得多,但是在化學(xué)品和細(xì)胞系的巨大組合空間中仍然存在許多缺失的表達(dá)值轧粟。第二策治,有數(shù)以億計(jì)的類似藥物的脓魏、可購(gòu)買的化學(xué)物質(zhì)是潛在的候選藥物13。用實(shí)驗(yàn)方法檢測(cè)所有這些化學(xué)物質(zhì)在多個(gè)細(xì)胞系中的化學(xué)誘導(dǎo)基因表達(dá)譜是不可行的通惫。最后茂翔,由于各種實(shí)驗(yàn)問題(例如批量效應(yīng)),許多實(shí)驗(yàn)測(cè)量不可靠(如補(bǔ)充圖1所示)履腋。這些嚴(yán)重的障礙將限制利用L1000數(shù)據(jù)集進(jìn)行藥物發(fā)現(xiàn)的有效性和范圍珊燎。因此,為不可測(cè)量和不可靠的實(shí)驗(yàn)預(yù)測(cè)基因表達(dá)值是必要的遵湖。

組合空間中丟失的條目不是L1000數(shù)據(jù)集獨(dú)有的問題悔政。在L1000出現(xiàn)之前,已經(jīng)提出了幾種基因表達(dá)數(shù)據(jù)缺失值的插補(bǔ)方法延旧。我們將這些方法分為兩種主要方法卓箫,它們依賴于基因表達(dá)數(shù)據(jù)以外的其他信息。第一種方法不使用任何額外的信息垄潮。遵循這種方法的工作包括k近鄰(kNN)14、奇異值分解14闷盔、最小均方15弯洗、16、17逢勾、貝葉斯主成分分析18牡整、高斯混合聚類19和支持向量回歸20。第二種方法使用額外的信息來預(yù)測(cè)表達(dá)譜溺拱。例如逃贝,化學(xué)結(jié)構(gòu)用于預(yù)測(cè)化學(xué)誘導(dǎo)的基因表達(dá),但這項(xiàng)工作沒有考慮細(xì)胞特異性信息21迫摔。

上述方法是為矩陣結(jié)構(gòu)數(shù)據(jù)(即沐扳,基因××實(shí)驗(yàn))設(shè)計(jì)的,而L1000數(shù)據(jù)集是張量結(jié)構(gòu)數(shù)據(jù)(即句占,基因××化學(xué)××細(xì)胞××劑量××?xí)r間)沪摄,因此不能用于捕捉有助于插補(bǔ)缺失值的高維關(guān)聯(lián)1000英鎊。在L1000數(shù)據(jù)集中纱烘,提出了幾種預(yù)測(cè)基因表達(dá)譜的方法杨拐。特別是,為了處理高維結(jié)構(gòu)化數(shù)據(jù)擂啥,我們開發(fā)了一個(gè)稱為多元回歸的線性回歸模型的擴(kuò)展哄陶,以捕獲特征間出現(xiàn)的交互作用22。矩陣完成方法也適用于處理張量結(jié)構(gòu)的基因表達(dá)數(shù)據(jù)23,24哺壶。

化學(xué)誘導(dǎo)基因表達(dá)預(yù)測(cè)模型及數(shù)據(jù)集

在本節(jié)中屋吨,我們介紹了我們研究中使用的數(shù)據(jù)集和我們提出的模型DeepCE蜒谤,以及用于預(yù)測(cè)基因表達(dá)譜的基線模型,如線性模型离赫、香草神經(jīng)網(wǎng)絡(luò)芭逝、kNN和張量訓(xùn)練權(quán)重優(yōu)化(TT-WOPT)模型。圖1顯示了用于L1000基因表達(dá)譜預(yù)測(cè)的訓(xùn)練和測(cè)試這些計(jì)算模型的一般框架渊胸⊙ⅲ基本上,計(jì)算模型以L1000的實(shí)驗(yàn)信息(即化合物翎猛、細(xì)胞系胖翰、時(shí)間戳和化學(xué)劑量)為輸入,將其轉(zhuǎn)化為數(shù)值表示切厘,然后根據(jù)這些表示預(yù)測(cè)L1000的基因表達(dá)譜萨咳。在我們的研究中使用的化學(xué)和生物物體的數(shù)值特征轉(zhuǎn)換過程以及DeepCE和其他基線的模型實(shí)現(xiàn)的細(xì)節(jié)見補(bǔ)充說明2和4。本文還提出了從L1000不可靠實(shí)驗(yàn)中提取有用信息的數(shù)據(jù)增強(qiáng)方法疫稿,以提高模型的預(yù)測(cè)性能培他,并給出了模型的評(píng)價(jià)方法。

圖1:用于訓(xùn)練L1000基因表達(dá)譜預(yù)測(cè)的計(jì)算模型并將其用于下游應(yīng)用(即用于COVID-19治療的藥物再利用)的一般框架遗座。

θ是一組模型參數(shù)舀凛,f是θ的函數(shù),用于將實(shí)驗(yàn)信息映射到基因表達(dá)譜途蒋,l是θ的函數(shù)猛遍,用于計(jì)算預(yù)測(cè)基因表達(dá)譜和基本真基因表達(dá)譜之間的差異。學(xué)習(xí)過程的目標(biāo)是盡量減少L1000數(shù)據(jù)集中預(yù)測(cè)剖面和地面真實(shí)剖面之間的損失号坡。經(jīng)過訓(xùn)練后懊烤,這些模型被用于在外部分子數(shù)據(jù)庫(kù)(DrugBank)中生成新化學(xué)品的配置文件。然后將這些圖譜用于電子篩選(與患者基因表達(dá)進(jìn)行比較)宽堆,以尋找治療COVID-19的潛在藥物腌紧。

數(shù)據(jù)集集合

在下面的段落中,我們介紹了我們研究中幾個(gè)生物數(shù)據(jù)集的細(xì)節(jié)和用法日麸,包括L1000寄啼、STRING、藥庫(kù)和COVID-19患者的轉(zhuǎn)錄組數(shù)據(jù)代箭。我們還在補(bǔ)充表1中提供了這些數(shù)據(jù)集的摘要墩划。

基于貝葉斯的L1000數(shù)據(jù)峰值反褶積

在L1000的原始版本發(fā)布9之后,人們做出了許多努力來提高這個(gè)數(shù)據(jù)集的質(zhì)量嗡综。例如乙帮,一些工作建議使用高斯混合模型來提高峰值反褶積步驟26、27的精度极景,而不是按照原始版本使用k均值聚類算法察净。另一項(xiàng)工作是開發(fā)一種稱為特征方向的多變量方法來計(jì)算基因特征驾茴,而不是使用原始版本10的調(diào)節(jié)z-分?jǐn)?shù)。在我們的研究中氢卡,我們?cè)诨谪惾~斯的峰值反褶積L1000數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)锈至,結(jié)果表明,該數(shù)據(jù)集可以從L1000分析數(shù)據(jù)中生成更穩(wěn)健的z-分?jǐn)?shù)剖面译秦,因此可以更好地表示擾動(dòng)因子28峡捡。特別是,我們?cè)谶@個(gè)數(shù)據(jù)集的第5級(jí)數(shù)據(jù)上訓(xùn)練和評(píng)估我們提出的方法筑悴。利用L1000數(shù)據(jù)集中7個(gè)最常見細(xì)胞系和6個(gè)最常見化學(xué)劑量的實(shí)驗(yàn)結(jié)果構(gòu)建了我們的基因表達(dá)數(shù)據(jù)集们拙。然后,我們從我們的數(shù)據(jù)集中選擇高質(zhì)量的實(shí)驗(yàn)阁吝,并將它們分成高質(zhì)量的訓(xùn)練集以及開發(fā)和測(cè)試集砚婆。我們還通過在我們的基因表達(dá)數(shù)據(jù)集中保留不可靠的實(shí)驗(yàn)來構(gòu)造原始訓(xùn)練集,并通過我們的數(shù)據(jù)擴(kuò)充算法生成擴(kuò)充訓(xùn)練集突勇。這些集合的構(gòu)造細(xì)節(jié)見補(bǔ)充說明1装盯。這些培訓(xùn)、開發(fā)和測(cè)試集的統(tǒng)計(jì)數(shù)據(jù)見補(bǔ)充表2甲馋。

人類蛋白質(zhì)相互作用的字符串?dāng)?shù)據(jù)庫(kù)

STRING29是蛋白質(zhì)相互作用的多源數(shù)據(jù)庫(kù)验夯。這些可以直接(物理)或間接(功能)已知或預(yù)測(cè)的相互作用來自五個(gè)主要來源,包括基因組背景預(yù)測(cè)摔刁、高通量實(shí)驗(yàn)室實(shí)驗(yàn)、保守共表達(dá)海蔽、自動(dòng)文本挖掘和過去的知識(shí)數(shù)據(jù)庫(kù)共屈。在我們的設(shè)置中,我們從這個(gè)數(shù)據(jù)庫(kù)中提取人類蛋白質(zhì)-蛋白質(zhì)相互作用網(wǎng)絡(luò)(即約19000個(gè)節(jié)點(diǎn)(蛋白質(zhì))和約12000000個(gè)邊緣(相互作用))党窜,以計(jì)算L1000基因的載體表達(dá)拗引。在我們的研究中使用的化合物的藥物靶向載體表示也由這個(gè)人類蛋白質(zhì)-蛋白質(zhì)相互作用網(wǎng)絡(luò)計(jì)算。從字符串?dāng)?shù)據(jù)庫(kù)生成這些表示的詳細(xì)信息見補(bǔ)充說明2幌衣。

用于藥物-靶點(diǎn)相互作用和疾病預(yù)測(cè)的藥物庫(kù)數(shù)據(jù)庫(kù)

DrugBank是一個(gè)著名的綜合數(shù)據(jù)庫(kù)矾削,用于許多生物信息學(xué)和化學(xué)信息學(xué)任務(wù)30。這個(gè)數(shù)據(jù)庫(kù)包括有關(guān)藥物及其靶點(diǎn)的信息豁护。在我們的實(shí)驗(yàn)中哼凯,我們從ATC樹的第一級(jí)提取解剖治療化學(xué)(ATC)標(biāo)簽,并從DrugBank的L1000數(shù)據(jù)集中提取藥物靶點(diǎn)楚里。在提取的數(shù)據(jù)集中有698個(gè)藥物靶點(diǎn)和14個(gè)ATC標(biāo)簽断部。在此數(shù)據(jù)集中,我們根據(jù)藥物標(biāo)簽的出現(xiàn)頻率班缎,選擇出現(xiàn)頻率最高的ATC標(biāo)簽和藥物靶點(diǎn)作為藥物標(biāo)簽蝴光,分別形成藥物靶點(diǎn)和ATC預(yù)測(cè)數(shù)據(jù)集她渴。這些數(shù)據(jù)集用于評(píng)估從我們的模型生成的基因表達(dá)譜的性能。我們還預(yù)測(cè)了DrugBank中所有藥物的基因表達(dá)譜蔑祟,并用它們來篩選COVID-19治療的潛在候選藥物趁耗。

SARS-CoV-2感染對(duì)患者表達(dá)的影響

本研究的患者表達(dá)數(shù)據(jù)集可從國(guó)家基因組數(shù)據(jù)中心(NGDC,PRJCA002273)31和國(guó)家生物技術(shù)信息中心(NCBI疆虚,GSE147507)32下載苛败。前者包括8例SARS-CoV-2患者和12例健康樣本,后者只有1例SARS-CoV-2患者和2例健康樣本装蓬。對(duì)于每個(gè)數(shù)據(jù)集著拭,我們使用來自SARS-CoV-2患者和健康陰性對(duì)照的表達(dá)譜進(jìn)行差異表達(dá)分析。因此牍帚,第一個(gè)數(shù)據(jù)集可以被認(rèn)為是基于人群的基因表達(dá)分析儡遮,而第二個(gè)數(shù)據(jù)集是針對(duì)患者的基因表達(dá)分析。DESeq233包用于生成患者的差異基因表達(dá)譜暗赶。并不是所有的L1000基因都出現(xiàn)在DESeq2包的結(jié)果中鄙币,因此我們?cè)谂c化學(xué)誘導(dǎo)的基因表達(dá)譜進(jìn)行比較時(shí),只考慮同時(shí)出現(xiàn)在L1000數(shù)據(jù)集和DESeq2包中的基因蹂随。

該模型由三個(gè)主要部分組成:用GCN生成化合物特征的特征轉(zhuǎn)換部分十嘿,用預(yù)先訓(xùn)練好的信息表示L1000個(gè)基因,用前饋神經(jīng)網(wǎng)絡(luò)生成細(xì)胞和劑量的特征岳锁;學(xué)習(xí)高級(jí)特征關(guān)聯(lián)的交互網(wǎng)絡(luò)(省略與交互網(wǎng)絡(luò)中第一層結(jié)構(gòu)相似的第二層的細(xì)節(jié)以節(jié)省空間)绩衷;從高級(jí)特征預(yù)測(cè)基因表達(dá)譜的預(yù)測(cè)網(wǎng)絡(luò)。

神經(jīng)指紋的GCN

對(duì)于許多生物預(yù)測(cè)問題激率,數(shù)據(jù)驅(qū)動(dòng)的化學(xué)指紋比預(yù)先定義的化學(xué)指紋(如PubChem咳燕,Extended Connectivity Fingerprint(ECFP))更有效。因此乒躺,我們建議使用GCN來捕捉化學(xué)子結(jié)構(gòu)信息招盲。用于化學(xué)指紋的原始GCN模型34以化合物的圖結(jié)構(gòu)作為輸入,并通過卷積運(yùn)算從圖(化合物)的鄰域更新圖(化合物)中的每個(gè)節(jié)點(diǎn)(原子)的向量表示嘉冒。因此曹货,卷積運(yùn)算后每個(gè)節(jié)點(diǎn)的向量可以看作是化學(xué)子結(jié)構(gòu)的表示。最后一個(gè)向量(每個(gè)節(jié)點(diǎn)的向量之和)作為化學(xué)指紋讳推。在我們的實(shí)驗(yàn)中使用的GCN模型主要是基于該模型顶籽,但有一個(gè)小的修改。特別是银觅,我們?yōu)槊總€(gè)節(jié)點(diǎn)輸出向量表示蜕衡,而不是為化合物輸出一個(gè)向量表示,因?yàn)槲覀兿胍M化學(xué)子結(jié)構(gòu)特征與基因特征的關(guān)聯(lián)。在我們的設(shè)置中慨仿,我們使用具有兩個(gè)卷積層(半徑久脯,R?=?2)的GCN模型。這意味著每個(gè)原子的GCN的輸出向量表示化學(xué)子結(jié)構(gòu)镰吆,它是該原子的兩個(gè)躍點(diǎn)的跨度帘撰。原子的初始表示(捕捉原子的符號(hào)、度万皿、氫鄰域數(shù)和芳香性)和鍵的初始表示(捕捉鍵的類型)分別是長(zhǎng)度分別為62和6的多個(gè)熱向量摧找。實(shí)驗(yàn)中使用的GCN模型的細(xì)節(jié)見補(bǔ)充算法1。

基因-基因和化學(xué)亞結(jié)構(gòu)-基因特征關(guān)聯(lián)的多頭注意

注意機(jī)制是一個(gè)集合中的一個(gè)元素根據(jù)注意權(quán)重有選擇地聚焦于另一個(gè)集合(注意)或其集合(自我注意)的子集牢硅,在基于神經(jīng)網(wǎng)絡(luò)的模型中得到廣泛應(yīng)用蹬耘,并有效地應(yīng)用于許多人工智能任務(wù),包括計(jì)算機(jī)視覺和自然語(yǔ)言處理减余。在我們的實(shí)驗(yàn)中综苔,我們提出應(yīng)用多頭注意方法來模擬基因特征、基因和化學(xué)子結(jié)構(gòu)特征之間的關(guān)聯(lián)位岔。在transformer模型中首次提出了多頭注意如筛,它為許多自然語(yǔ)言處理任務(wù)提供了最新的結(jié)果35∈闾В基本上杨刨,集合中的每個(gè)元素都可以由一組三個(gè)向量表示:查詢、鍵和值擦剑。單個(gè)注意模塊是一個(gè)將查詢和鍵值對(duì)集映射到輸出矩陣的函數(shù)妖胀,輸出矩陣由以下公式計(jì)算:

{\mathrm{Attention}}({Q},{K},{V})={\mathrm{softmax}}\left(\frac{{QK}^{T}}{\sqrt{qm508m8_{k}}}\right){V}

其中Q、K惠勒、V分別是查詢做粤、鍵、值的矩陣(集合)捉撮,T是轉(zhuǎn)置運(yùn)算,dk是縮放因子妇垢。多頭注意通過連接幾個(gè)單獨(dú)的注意模塊來關(guān)注不同的表示子空間:

{\mathrm{MultiHead}}({Q},{K},{V})={\mathrm{concat}}({\mathrm{healivza3d}}_{1},...,{\mathrm{hea8mz0bo7}}_{h}){{W}}^{O}

其中{\mathrm{heasdcptx6}}_{i}={\mathrm{Attention}}({Q}{{W}}_{i}^{Q},{K}{{W}}_{i}^{K},{V}{{W}}_{i}^{V})巾遭,WO,WQ闯估,WK灼舍,WV是學(xué)習(xí)參數(shù),h是頭數(shù)涨薪。

這種多頭注意機(jī)制是用來構(gòu)建DeepCE交互成分的主要成分骑素。特別地,交互組件包括兩個(gè)相同的層刚夺,其中第一層的輸出用作第二層的輸入献丑。對(duì)于每一層末捣,我們使用兩個(gè)獨(dú)立的多頭部注意模塊,每個(gè)模塊有四個(gè)頭部來模擬基因集中的基因之間以及基因集中的元素和化學(xué)子結(jié)構(gòu)集中的元素之間的關(guān)聯(lián)创橄。查詢箩做、鍵和值向量的長(zhǎng)度設(shè)置為512。將這兩個(gè)多頭注意模塊的輸出串聯(lián)起來妥畏,放入歸一化層邦邦、前饋層和另一歸一化層。交互組件的抽象架構(gòu)如圖2所示醉蚁。

多輸出預(yù)測(cè)

多輸出預(yù)測(cè)組件是一個(gè)具有校正線性單元(ReLU)激活函數(shù)的兩層前饋神經(jīng)網(wǎng)絡(luò)燃辖,將輸入作為化學(xué)神經(jīng)指紋、互作組件生成的基因特征网棍、細(xì)胞系和化學(xué)劑量特征的串聯(lián)黔龟,以預(yù)測(cè)所有基因的基因表達(dá)值L1000基因組合如下:

{Y}={{W}}_{2}(\mathrm{{ReLU}}({{W}}_{1}{X}+{{\bf}}_{1}))+{{\bf确沸}}_{2}

其中W1捌锭、W2、b1罗捎、b2是該網(wǎng)絡(luò)的權(quán)重矩陣和偏差向量观谦。這個(gè)前饋神經(jīng)網(wǎng)絡(luò)的輸出大小被設(shè)置為978,這是L1000個(gè)基因的數(shù)目桨菜。

目標(biāo)函數(shù)

DeepCE模型中使用的目標(biāo)函數(shù)是預(yù)測(cè)值和基本真值基因表達(dá)值之間的均方誤差(MSE)豁状,計(jì)算如下:

{{\bf{loss}}}_{\mathrm{DeepCE}}({{\Theta }})=\frac{1}{NM}\mathop{\sum }\nolimits_{i = 1}^{N}\mathop{\sum }\nolimits_{j = 1}^{M}{({z}_{i,j}-{y}_{i,j})}^{2}

其中,Θ是DeepCE模型中的一組參數(shù)倒得;N和M分別是數(shù)據(jù)集中基因表達(dá)譜的數(shù)量和L1000基因的數(shù)量泻红;zi,j和yi霞掺,j分別是第i個(gè)基因表達(dá)譜中第j個(gè)基因的基本真值和預(yù)測(cè)基因表達(dá)值谊路。

基線模型

在本節(jié)中,我們描述了我們實(shí)驗(yàn)中使用的幾種基線模型菩彬,包括線性模型缠劝、香草神經(jīng)網(wǎng)絡(luò)、kNN和TT-WOPT24骗灶。

線性模型

我們實(shí)驗(yàn)了一個(gè)多輸出線性回歸模型及其正則化版本惨恭,包括套索回歸(L1正則化)和嶺回歸(L2正則化)模型。與DeepCE類似耙旦,這些模型的輸入是化學(xué)脱羡、基因、細(xì)胞系和化學(xué)劑量特征的數(shù)值表示的串聯(lián),但是我們使用預(yù)定義的化學(xué)指紋和藥物靶點(diǎn)特征锉罐,而不是來自GCN的數(shù)據(jù)驅(qū)動(dòng)表示帆竹。這些陳述的細(xì)節(jié)在補(bǔ)充資料中描述。多輸出線性模型可以看作是無(wú)激活函數(shù)的單層前饋神經(jīng)網(wǎng)絡(luò)氓鄙。

香草神經(jīng)網(wǎng)絡(luò)

我們實(shí)驗(yàn)中使用的香草神經(jīng)網(wǎng)絡(luò)可以看作是DeepCE模型的一個(gè)簡(jiǎn)單版本馆揉,它不包括用于模擬基因-基因和基因-化學(xué)子結(jié)構(gòu)特征關(guān)聯(lián)的交互網(wǎng)絡(luò)組件,以及用于生成神經(jīng)指紋的GCN抖拦。這種普通神經(jīng)網(wǎng)絡(luò)的輸入類似于線性模型的輸入升酣。該網(wǎng)絡(luò)中的以下幾層類似于DeepCE模型中的預(yù)測(cè)網(wǎng)絡(luò)組件,它是一個(gè)具有ReLU激活函數(shù)的兩層前饋神經(jīng)網(wǎng)絡(luò)态罪。

kNN公司

我們還提出了一種基于kNN的新化學(xué)環(huán)境下基因表達(dá)預(yù)測(cè)方法噩茄。具體地,通過對(duì)同一設(shè)置中的訓(xùn)練集中的新化合物的最近鄰域的基因表達(dá)譜求平均來生成在一特定設(shè)置(即复颈,細(xì)胞系绩聘、化學(xué)劑量)中的新化合物的基因表達(dá)譜。在我們的研究中耗啦,我們實(shí)驗(yàn)了從1到15的不同鄰域數(shù)和不同的相似性度量凿菩,包括余弦、相關(guān)帜讲、Jaccard和Tanimoto衅谷,以及歐氏距離。

張量列車重量?jī)?yōu)化

張量序列權(quán)重優(yōu)化(TT-WOPT)是一種張量完成方法似将,旨在從現(xiàn)有的張量數(shù)據(jù)中提取缺失值获黔。它已被證明是預(yù)測(cè)L1000數(shù)據(jù)集缺失值的有效方法,L1000數(shù)據(jù)集可以表示為張量結(jié)構(gòu)對(duì)象在验,而無(wú)需使用額外的信息24玷氏。在我們的研究中,我們進(jìn)行了實(shí)驗(yàn)比較TT-WOPT與我們提出的模型腋舌,特別是在從頭化學(xué)設(shè)置盏触。由于該模型不需要額外的信息,因此輸入是以張量表示的L1000基因表達(dá)值块饺。

數(shù)據(jù)擴(kuò)充

從補(bǔ)充圖1可以看出赞辩,L1000中只有少量的實(shí)驗(yàn)是可靠的(平均皮爾遜相關(guān)(APC)得分?≥?0.7),因此如果我們不能從大量不可靠的實(shí)驗(yàn)中利用有用的信息刨沦,將是浪費(fèi)。我們?cè)诒?中顯示膘怕,簡(jiǎn)單地向高質(zhì)量的訓(xùn)練集(原始訓(xùn)練集)添加不可靠的實(shí)驗(yàn)會(huì)使我們的模型的性能變差想诅。因此,我們提出了一種數(shù)據(jù)擴(kuò)充方法,通過這種方法我們可以有效地利用不可靠的實(shí)驗(yàn)來提高我們模型的性能来破。我們認(rèn)為篮灼,雖然一個(gè)實(shí)驗(yàn)(5級(jí)數(shù)據(jù))是不可靠的,但并不是所有的生物復(fù)制實(shí)驗(yàn)(4級(jí)數(shù)據(jù))都是不可靠的徘禁,我們將通過我們提出的數(shù)據(jù)擴(kuò)充方法提取這些可靠的生物復(fù)制實(shí)驗(yàn)诅诱。其基本思想是,我們首先在高質(zhì)量的訓(xùn)練集上訓(xùn)練我們的模型送朱,然后為不可靠的實(shí)驗(yàn)生成預(yù)測(cè)的基因表達(dá)譜娘荡。將這些預(yù)測(cè)的基因表達(dá)譜與它們的生物復(fù)制基因表達(dá)譜進(jìn)行比較,并且我們合并了與它們的預(yù)測(cè)基因表達(dá)譜的相似性分?jǐn)?shù)大于閾值的生物復(fù)制基因表達(dá)譜驶沼。補(bǔ)充算法2詳細(xì)介紹了這種數(shù)據(jù)擴(kuò)充方法炮沐。在我們的設(shè)置中,相似性得分是皮爾遜相關(guān)回怜。

表1用不同訓(xùn)練集訓(xùn)練的普通神經(jīng)網(wǎng)絡(luò)大年、kNN、具有不同化學(xué)特征的線性模型玉雾、TTWOPT和DeepCE及其簡(jiǎn)單變體的測(cè)試集的性能


績(jī)效評(píng)估

實(shí)驗(yàn)中采用皮爾遜相關(guān)系數(shù)作為評(píng)價(jià)模型性能的主要指標(biāo)翔试。在微陣列數(shù)據(jù)分析中,測(cè)量基本真值和預(yù)測(cè)基因表達(dá)譜之間關(guān)系的相關(guān)分?jǐn)?shù)已被證明比誤差測(cè)量更有效36,37复旬。此外垦缅,利用Pearson相關(guān),我們可以對(duì)我們的模型進(jìn)行無(wú)偏評(píng)估赢底,這些模型是針對(duì)MSE優(yōu)化的失都。我們計(jì)算數(shù)據(jù)集的平均皮爾遜相關(guān)性如下:

r=\frac{1}{N}\mathop{\sum }\nolimits_{i = 1}^{N}\frac{\mathop{\sum }\nolimits_{j = 1}^{M}({z}_{i,j}-{\bar{z}}_{i})({y}_{i,j}-{\bar{y}}_{i})}{\sqrt{\mathop{\sum }\nolimits_{j = 1}^{M}{({z}_{i,j}-{\bar{z}}_{i})}^{2}}\sqrt{\mathop{\sum }\nolimits_{j = 1}^{M}{({y}_{i,j}-{\bar{y}}_{i})}^{2}}}

其中{z}_{i,j},{y}_{i,j},{\bar{z}}_{i},{\bar{y}}_{i}分別是第i個(gè)基因表達(dá)譜中第j個(gè)基因的基本真值和預(yù)測(cè)基因表達(dá)值,以及第i個(gè)基因表達(dá)譜的基本真值和預(yù)測(cè)平均值幸冻。

除了Pearson相關(guān)外粹庞,我們還報(bào)告了其他指標(biāo)的模型性能,包括均方根誤差(r.m.s.e.)洽损、基因集富集分析(GSEA)38庞溜、39和39精度@k。雖然皮爾遜相關(guān)和r.m.s.e.捕獲了所有L1000基因之間的變異碑定,GSEA和P@k公司(包括正面和負(fù)面)P@k公司)只關(guān)注最重要的上調(diào)和下調(diào)基因流码。因此,使用多個(gè)度量標(biāo)準(zhǔn)可以從不同方面衡量模型的性能延刘。這些額外指標(biāo)的詳情見補(bǔ)充說明3漫试。

此外,我們使用受試者操作特性曲線(AUC)下的面積來驗(yàn)證這些預(yù)測(cè)輪廓對(duì)于下游二分類任務(wù)(包括藥物靶點(diǎn)和ATC代碼預(yù)測(cè))的有效性碘赖。

結(jié)果和討論

下面的結(jié)果和討論主要基于Pearson相關(guān)驾荣;我們還通過其他指標(biāo)觀察到相同的模式外构。

在新的化學(xué)環(huán)境中,DeepCE大大優(yōu)于基線模型

在這個(gè)實(shí)驗(yàn)中播掷,我們比較了DeepCE和它的簡(jiǎn)單變體审编,這些變體是通過去除整個(gè)相互作用成分或僅僅是其中的一部分(即化學(xué)亞結(jié)構(gòu)-基因或基因-基因特征關(guān)聯(lián)模塊)來構(gòu)建的,包括一個(gè)香草神經(jīng)網(wǎng)絡(luò)歧匈、kNN垒酬、線性模型和TT-WOPT。雖然TT-WOPT僅根據(jù)基因表達(dá)值預(yù)測(cè)產(chǎn)量件炉,但其他模型則學(xué)習(xí)實(shí)驗(yàn)信息與基因表達(dá)譜之間的關(guān)系進(jìn)行預(yù)測(cè)勘究。對(duì)于DeepCE,我們使用神經(jīng)指紋妻率,而對(duì)于其他模型乱顾,我們使用預(yù)定義的指紋,包括PubChem和circular(ECFP6)指紋宫静,以及藥物靶點(diǎn)信息走净,包括潛在靶點(diǎn)相互作用譜(LTIP)40和我們提出的藥物靶點(diǎn)特征來表示化學(xué)品。所有模型都在高質(zhì)量的訓(xùn)練集上進(jìn)行訓(xùn)練孤里,并在測(cè)試集上進(jìn)行評(píng)估伏伯。

如表1所示,DeepCE模型及其變體比基線模型實(shí)現(xiàn)了數(shù)量級(jí)的改進(jìn)捌袜。特別是说搅,通過在測(cè)試集上實(shí)現(xiàn)0.4907的皮爾遜相關(guān)(配對(duì)t檢驗(yàn),P值?<?4.63?×?10?15)虏等,DeepCE模型大大優(yōu)于其他模型弄唧,包括香草神經(jīng)網(wǎng)絡(luò)、kNN霍衫、線性模型和TT-WOPT候引。與去除了相互作用成分的簡(jiǎn)單變體相比,DeepCE也獲得了更好的性能敦跌,表明化學(xué)亞結(jié)構(gòu)-基因和基因-基因特征關(guān)聯(lián)建模的有效性澄干。具體而言,當(dāng)去除化學(xué)亞結(jié)構(gòu)-基因特征關(guān)聯(lián)部分(Deep-CE-藥物-基因attn)柠傍、基因-基因特征關(guān)聯(lián)部分(Deep-CE-基因-基因attn)和整個(gè)相互作用成分(Deep-CE-基因attn)時(shí)麸俘,DeepCE的性能降低到0.4620、0.4477和0.4418(配對(duì)t檢驗(yàn)惧笛,P值?<?2.25?×?10?5)从媚。我們還通過觀察細(xì)胞系、化學(xué)劑量和L1000基因來深入研究DeepCE的性能患整。該分析的結(jié)果顯示在補(bǔ)充圖中拜效。2和3炭懊。對(duì)于基線模型,vanilla神經(jīng)網(wǎng)絡(luò)和kNN取得了較好的性能拂檩。線性模型包括線性回歸,套索和嶺回歸不能很好地解決我們的問題嘲碧。這表明線性關(guān)系不足以對(duì)數(shù)據(jù)集中變量之間的依賴關(guān)系進(jìn)行建模稻励。TT-WOPT,正如預(yù)期的那樣愈涩,不利用基因表達(dá)值以外的其他特征來進(jìn)行預(yù)測(cè)望抽,在從頭化學(xué)環(huán)境中不起作用。特別是履婉,它實(shí)現(xiàn)了0.0144的皮爾遜相關(guān)煤篙,這類似于隨機(jī)性。我們還通過對(duì)高質(zhì)量數(shù)據(jù)集進(jìn)行交叉驗(yàn)證毁腿,對(duì)這些性能進(jìn)行了誤差估計(jì)辑奈。結(jié)果見補(bǔ)充表5。

在插補(bǔ)設(shè)置方面已烤,DeepCE優(yōu)于最先進(jìn)的方法

我們進(jìn)一步研究了DeepCE在傳統(tǒng)插補(bǔ)設(shè)置下的性能鸠窗,該設(shè)置不要求測(cè)試集中的化學(xué)物質(zhì)與訓(xùn)練集中的化學(xué)物質(zhì)不同,并將其與TT-WOPT進(jìn)行了比較胯究,結(jié)果表明稍计,TT-WOPT對(duì)該設(shè)置是有效的。為此裕循,我們將高質(zhì)量的數(shù)據(jù)集隨機(jī)拆分為新的訓(xùn)練集臣嚣、開發(fā)集和測(cè)試集,并在這些集上進(jìn)行實(shí)驗(yàn)剥哑。請(qǐng)注意硅则,此時(shí),我們按基因表達(dá)譜(而不是化合物)拆分?jǐn)?shù)據(jù)集星持。插補(bǔ)設(shè)置的培訓(xùn)抢埋、開發(fā)和測(cè)試集詳情見補(bǔ)充表3。

對(duì)于傳統(tǒng)的插補(bǔ)設(shè)置督暂,我們觀察到DeepCE比TT-WOPT有很大的優(yōu)勢(shì)揪垄。特別是,對(duì)于TT-WOPT逻翁,DeepCE的Pearson相關(guān)系數(shù)為0.7010對(duì)0.5113饥努。這一結(jié)果表明,通過有效利用化學(xué)和生物對(duì)象(包括化合物和基因)的特征八回,DeepCE在從頭化學(xué)和傳統(tǒng)插補(bǔ)設(shè)置中始終取得最佳性能酷愧。

化學(xué)相似性對(duì)預(yù)測(cè)性能有影響

為了深入研究我們模型的預(yù)測(cè)性能驾诈,我們探討了測(cè)試集和訓(xùn)練集之間化學(xué)相似性的影響。特別地溶浴,我們計(jì)算測(cè)試集中的一個(gè)實(shí)驗(yàn)和訓(xùn)練集中的最近鄰實(shí)驗(yàn)之間的距離乍迄,這些實(shí)驗(yàn)是由同一細(xì)胞系上最相似的化學(xué)物質(zhì)(通過比較它們的指紋和測(cè)試集中的實(shí)驗(yàn)所誘導(dǎo)的化學(xué)化合物的指紋來確定)誘導(dǎo)的。兩個(gè)實(shí)驗(yàn)之間的距離是兩種化學(xué)物質(zhì)PubChem指紋的Tanimoto系數(shù)士败,測(cè)試集中的實(shí)驗(yàn)與其訓(xùn)練集中的最近鄰實(shí)驗(yàn)之間的距離是該實(shí)驗(yàn)與其每個(gè)最近鄰實(shí)驗(yàn)之間距離的平均值闯两。在計(jì)算測(cè)試集中所有實(shí)驗(yàn)到訓(xùn)練集的距離后,我們按升序排序并比較這些實(shí)驗(yàn)的Pearson相關(guān)分?jǐn)?shù)谅将。我們計(jì)算測(cè)試集中所有實(shí)驗(yàn)的平均皮爾遜相關(guān)分?jǐn)?shù)漾狼,這些實(shí)驗(yàn)到訓(xùn)練集的距離小于排序列表的第一個(gè)四分位數(shù)(Q1),從Q1到第二個(gè)四分位數(shù)(Q2)饥臂,從Q2到第三個(gè)四分位數(shù)(Q3)逊躁,并且大于Q3。圖3顯示了三個(gè)模型(包括DeepCE隅熙、vanilla神經(jīng)網(wǎng)絡(luò)和kNN)在這些距離上的平均Pearson相關(guān)分?jǐn)?shù)稽煤;我們可以看到,當(dāng)測(cè)試集中的實(shí)驗(yàn)與訓(xùn)練集中的最近鄰實(shí)驗(yàn)更相似時(shí)囚戚,所有模型的預(yù)測(cè)性能都更高念脯。我們還認(rèn)識(shí)到,對(duì)于所有距離類別弯淘,DeepCE都比vanilla神經(jīng)網(wǎng)絡(luò)和kNN具有更好的性能绿店,特別是對(duì)于距離訓(xùn)練集小于Q1的實(shí)驗(yàn)。

在訓(xùn)練集和測(cè)試集中庐橙,不同化學(xué)品之間距離的DeepCE假勿、vanilla神經(jīng)網(wǎng)絡(luò)和kNN的性能。d是由Tanimoto系數(shù)在訓(xùn)練集和測(cè)試集中測(cè)量的化合物之間的距離态鳖,Q1转培、Q2和Q3是距離排序列表的第一、第二和第三個(gè)四分位數(shù)浆竭。

數(shù)據(jù)質(zhì)量對(duì)預(yù)測(cè)性能有重要影響

除了稀疏性問題外浸须,L1000數(shù)據(jù)集還包含許多不可靠的基因表達(dá)譜。為了研究噪聲對(duì)我們模型預(yù)測(cè)性能的影響邦泄,我們?cè)诓煌挠?xùn)練集上訓(xùn)練了兩個(gè)基線模型(包括神經(jīng)網(wǎng)絡(luò)和kNN)删窒,這些訓(xùn)練集是通過過濾不可靠的基因表達(dá)譜而產(chǎn)生的,不同的APC閾值從–1(原始訓(xùn)練集)到0.7(高質(zhì)量訓(xùn)練集)顺囊。PubChem指紋圖譜是本實(shí)驗(yàn)所用的化學(xué)特征肌索。

如圖4所示,所有模型具有相同的模式特碳。從閾值0.1開始诚亚,當(dāng)閾值較高時(shí)晕换,它們?cè)跍y(cè)試集上獲得更好的性能,最佳設(shè)置是在高質(zhì)量的訓(xùn)練集上訓(xùn)練我們的模型(即站宗,vanilla神經(jīng)網(wǎng)絡(luò)的Pearson相關(guān)系數(shù)為0.3923闸准,kNN的Pearson相關(guān)系數(shù)為0.3903)。對(duì)于在閾值<0.1的原始訓(xùn)練集和過濾不可靠實(shí)驗(yàn)生成的其他訓(xùn)練集上的訓(xùn)練梢灭,地面真值和預(yù)測(cè)的基因表達(dá)譜是不相關(guān)的恕汇,顯示了模型預(yù)測(cè)的隨機(jī)性。這些結(jié)果表明或辖,不可靠數(shù)據(jù)對(duì)預(yù)測(cè)性能有嚴(yán)重的負(fù)面影響,從數(shù)據(jù)集中去除這部分?jǐn)?shù)據(jù)是獲得良好性能的必要條件枣接。

香草神經(jīng)網(wǎng)絡(luò)和kNN在不同APC閾值設(shè)置下的皮爾遜相關(guān)分?jǐn)?shù)颂暇。這些模型在不同APC閾值下過濾不可靠實(shí)驗(yàn)生成的訓(xùn)練集上進(jìn)行訓(xùn)練,然后在高質(zhì)量的測(cè)試集上進(jìn)行評(píng)估但惶。

一種新的數(shù)據(jù)擴(kuò)充方法提高了模型的性能

我們提出了數(shù)據(jù)擴(kuò)充方法(在補(bǔ)充算法2中詳細(xì)描述)來有效地利用來自不可靠基因表達(dá)譜的有用信息耳鸯。在這個(gè)實(shí)驗(yàn)中,我們?cè)u(píng)估了這種方法對(duì)我們的模型的影響膀曾。特別地县爬,使用高質(zhì)量訓(xùn)練集上訓(xùn)練的DeepCE生成基因表達(dá)譜,選擇生物復(fù)制譜的閾值為0.5添谊,這與DeepCE的性能相似财喳。此擴(kuò)充訓(xùn)練集的統(tǒng)計(jì)數(shù)據(jù)如補(bǔ)充表1所示。

在增廣訓(xùn)練集上訓(xùn)練vanilla神經(jīng)網(wǎng)絡(luò)斩狱、kNN和DeepCE的實(shí)驗(yàn)結(jié)果如表1所示耳高。我們可以看到,在大多數(shù)情況下所踊,在這個(gè)增廣訓(xùn)練集上訓(xùn)練的所有模型的性能都得到了提高泌枪。例如,DeepCE的Pearson相關(guān)系數(shù)從0.4907增加到0.5014(配對(duì)t檢驗(yàn)秕岛,P值<0.05)碌燕。這些結(jié)果表明,從不可靠的基因表達(dá)譜中提取的信息對(duì)基因表達(dá)預(yù)測(cè)是有效的继薛。

化學(xué)特征的選擇影響模型的性能

在這個(gè)實(shí)驗(yàn)中修壕,我們研究了幾種化學(xué)特征表示對(duì)我們模型的有效性。本實(shí)驗(yàn)中使用的模型是一個(gè)用于PubChem的香草神經(jīng)網(wǎng)絡(luò)遏考、ECFP指紋叠殷、我們提出的藥物靶點(diǎn)特征和LTIP,以及用于神經(jīng)指紋的沒有交互成分的DeepCE模型诈皿。這些模型是在高質(zhì)量的訓(xùn)練集上訓(xùn)練的林束。我們還通過從離散均勻分布生成大小類似于PubChem指紋的隨機(jī)二元向量來創(chuàng)建隨機(jī)化學(xué)特征像棘。

表1顯示了這些模型在不同化學(xué)特征表示下的皮爾遜相關(guān)性能。首先壶冒,化學(xué)特征比隨機(jī)特征具有更好的性能缕题,這表明化學(xué)特征捕獲了有關(guān)化學(xué)物質(zhì)的重要信息,有助于預(yù)測(cè)基因表達(dá)譜胖腾。第二烟零,使用神經(jīng)指紋的DeepCE獲得了0.4418的Pearson相關(guān)性,這是與其他設(shè)置(配對(duì)t檢驗(yàn)咸作,P值?<?4.89?×?10?5)相比的最佳性能锨阿。對(duì)于其他化學(xué)特征,基于生物的特征(包括藥物靶點(diǎn)特征和LTIP)比基于化學(xué)的特征(包括PubChem和ECFP指紋)的性能稍好记罚。所有這些觀察結(jié)果均通過配對(duì)t檢驗(yàn)進(jìn)行驗(yàn)證墅诡,P值<0.01。事實(shí)上桐智,大多數(shù)P值遠(yuǎn)小于0.01末早。

我們還進(jìn)行了消融研究,通過從特征向量中去除其他特征(即細(xì)胞系说庭、劑量)來研究它們對(duì)預(yù)測(cè)性能的影響然磷。補(bǔ)充表6中的結(jié)果表明,刪除這些特征會(huì)降低DeepCE的性能刊驴,最壞的情況是刪除細(xì)胞系和劑量信息姿搜。

DeepCE在預(yù)測(cè)下游任務(wù)方面是有效的

在本節(jié)中,我們?cè)O(shè)計(jì)了一個(gè)實(shí)驗(yàn)來回答這樣一個(gè)問題:這些預(yù)測(cè)的基因表達(dá)譜是否能夠?yàn)橄掠晤A(yù)測(cè)任務(wù)提供附加值捆憎,特別是在L1000數(shù)據(jù)集中的原始基因表達(dá)譜不可靠的情況下痪欲。我們首先提取在L1000(原始特征集)中沒有可靠實(shí)驗(yàn)的化學(xué)品的基因表達(dá)譜,并使用在高質(zhì)量訓(xùn)練集上訓(xùn)練的DeepCE模型生成這些藥物的基因表達(dá)譜(預(yù)測(cè)特征集)攻礼。然后调违,我們使用這些集合作為藥物的特征來訓(xùn)練兩個(gè)任務(wù)的分類模型:ATC編碼和藥物靶點(diǎn)預(yù)測(cè)责静。這些數(shù)據(jù)集的構(gòu)造細(xì)節(jié)見補(bǔ)充說明1和補(bǔ)充表7。最后,我們訓(xùn)練了四種流行的分類模型熬丧,包括logistic回歸臊泌、支持向量機(jī)妻怎、kNN和決策樹箫锤,使用14種不同版本的化學(xué)特征(每個(gè)原始特征集和預(yù)測(cè)特征集有7種細(xì)胞特異性特征),用于14個(gè)二元分類任務(wù)(即僚焦,10個(gè)ATC代碼和4個(gè)毒品目標(biāo))锰提。對(duì)于每個(gè)實(shí)驗(yàn)設(shè)置,我們使用交叉驗(yàn)證并報(bào)告平均結(jié)果。

COVID-19的藥物再利用

為了進(jìn)一步證明DeepCE的價(jià)值立肘,我們使用化學(xué)誘導(dǎo)的基因表達(dá)譜來發(fā)現(xiàn)治療COVID-19的潛在藥物边坤。由于COVID-19患者的疾病狀態(tài)和癥狀因年齡、性別谅年、基礎(chǔ)條件等因素的不同而顯著不同茧痒,因此我們?cè)趦煞N情況下評(píng)估了COVID-19任務(wù)的藥物再利用,包括人群(患者組)和個(gè)體(患者個(gè)體)分析融蹂。特別是旺订,我們首先在L1000數(shù)據(jù)集的高質(zhì)量部分使用經(jīng)過訓(xùn)練的DeepCE生成Drugbank數(shù)據(jù)庫(kù)中所有11179種藥物在最大化學(xué)劑量下的預(yù)測(cè)基因表達(dá)譜。對(duì)于患者基因表達(dá)譜超燃,我們使用來自NGDC和NCBI的SARS-COV-2基因表達(dá)數(shù)據(jù)集区拳,分別計(jì)算基于人群和個(gè)體的患者的差異基因表達(dá)譜。具體來說意乓,DESeq2軟件包用于從8個(gè)SARS-CoV-2患者和12個(gè)健康樣本(基于人群)以及從1個(gè)SARS-CoV-2患者和2個(gè)健康樣本(基于個(gè)體)生成患者檔案樱调。然后,我們通過計(jì)算Spearman的基因表達(dá)譜與患者基因表達(dá)譜之間的秩序相關(guān)得分洽瞬,在Drugbank中篩選藥物,并選擇得分最負(fù)的藥物作為潛在藥物业汰。在這里伙窃,我們將A549的基因表達(dá)譜與高質(zhì)量數(shù)據(jù)集中的主要七個(gè)細(xì)胞系相鄰的癌肺組織結(jié)合起來。除了預(yù)測(cè)的基因表達(dá)譜外样漆,我們還包括從L1000數(shù)據(jù)集的高質(zhì)量部分提取的基因表達(dá)譜为障。對(duì)于每個(gè)細(xì)胞系,我們提取與患者資料負(fù)相關(guān)得分最高的前100種藥物作為潛在藥物放祟。最后鳍怨,作為篩選過程的結(jié)果,我們輸出了在所有細(xì)胞系中都有可能進(jìn)行COVID-19治療的藥物跪妥。

表2用于COVID-19治療的潛在藥物的化學(xué)結(jié)構(gòu)鞋喇、現(xiàn)狀和已知用途(即,當(dāng)通過Spearman相關(guān)性將其細(xì)胞特異性預(yù)測(cè)基因表達(dá)譜與基于polulation的患者譜進(jìn)行比較時(shí)眉撵,出現(xiàn)在所有8個(gè)細(xì)胞系的前100個(gè)藥物列表中的藥物)侦香。實(shí)驗(yàn)藥物和研究藥物分別是處于臨床前或動(dòng)物試驗(yàn)階段和人體臨床試驗(yàn)階段的藥物

基于人群和個(gè)體的藥物再利用結(jié)果分別如表2和擴(kuò)展數(shù)據(jù)圖2所示。COVID-19誘導(dǎo)的急性呼吸衰竭被認(rèn)為與病毒的直接致病性和宿主炎癥反應(yīng)的失調(diào)有關(guān)纽疟。如表2所示罐韩,在我們確定用于人群分析的十種藥物中,三種是用于丙型肝炎治療的抗病毒藥物污朽,兩種是免疫抑制劑散吵。特別是,揮發(fā)性物質(zhì)通道蛋白和環(huán)孢霉素是免疫抑制劑和鈣調(diào)神經(jīng)磷酸酶抑制劑,具有相似的結(jié)構(gòu)矾睦。環(huán)孢霉素已被用于預(yù)防器官排斥反應(yīng)和治療T細(xì)胞相關(guān)的自身免疫性疾病晦款,并在預(yù)防COVID-1941,42,43,44引起的炎癥反應(yīng)失控、SARS-CoV-2復(fù)制和急性肺損傷等方面顯示出潛在的作用顷锰。鈣調(diào)神經(jīng)磷酸酶抑制劑也被證明是有希望的治療嚴(yán)重COVID-19病例45,46柬赐。Alisporivir是環(huán)孢素的一種非免疫抑制類似物,具有強(qiáng)的親環(huán)素抑制特性官紫,在Vero E6細(xì)胞中被證明能有效減少SARS-CoV-2 RNA的產(chǎn)生47肛宋。此外,纈沙坦可抑制影響免疫抑制劑轉(zhuǎn)運(yùn)的P-糖蛋白束世,頭孢泊泊龍可用于醫(yī)院和社區(qū)獲得性肺炎48酝陈。

對(duì)于基于個(gè)體的分析,在我們確定的15種藥物中(擴(kuò)展數(shù)據(jù)圖2)毁涉,9種是抗病毒藥物沉帮,其中7種作為NS5A抑制劑用于治療丙型肝炎。它們與基于人群的分析確定的排名靠前的藥物相似贫堰。特別是來自丙型肝炎治療的兩種藥物(elbasvir和velpatasvir)通過使用其他方法49穆壕、50、51被證明是COVID-19治療的潛在候選藥物其屏。此外喇勋,兩種藥物具有抗炎或免疫調(diào)節(jié)功能,并有可能在COVID-19感染下調(diào)節(jié)免疫應(yīng)答偎行。拉尼基達(dá)能抑制P-糖蛋白1的功能川背,影響免疫抑制劑的轉(zhuǎn)運(yùn)「蛱唬基于個(gè)體的分析也能識(shí)別具有相似作用模式的藥物熄云。AMG-487靶向趨化因子受體CXCR3,CXCR3可調(diào)節(jié)白細(xì)胞的轉(zhuǎn)運(yùn)妙真。值得注意的是缴允,這里的所有潛在藥物在L1000數(shù)據(jù)集中都不可用,這表明在基于人群和基于個(gè)體的情況下珍德,DeepCE對(duì)于表型復(fù)合物篩選的有效性癌椿。

結(jié)論

深度學(xué)習(xí)在藥物發(fā)現(xiàn)中引起了極大的關(guān)注。過去和現(xiàn)有的努力主要集中于加速針對(duì)單一靶點(diǎn)的化合物篩選52菱阵。然而踢俄,這樣一種單藥一基因的模式在追蹤復(fù)雜疾病方面被證明不太成功。一種系統(tǒng)的化合物篩選方法晴及,既考慮到生物系統(tǒng)的信息都办,又使用化學(xué)誘導(dǎo)的系統(tǒng)反應(yīng)作為讀數(shù),將為發(fā)現(xiàn)安全有效的生物系統(tǒng)治療方法提供新的機(jī)會(huì)。在這項(xiàng)研究中琳钉,我們提出了DeepCE势木,一個(gè)新的和強(qiáng)大的神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)的模型預(yù)測(cè)化學(xué)誘導(dǎo)基因表達(dá)譜從化學(xué)和生物對(duì)象,特別是在從頭化學(xué)設(shè)置歌懒。與其他模型相比啦桌,我們的模型在預(yù)測(cè)基因表達(dá)譜方面取得了最新的成果,不僅在從頭化學(xué)環(huán)境中及皂,而且在傳統(tǒng)環(huán)境中甫男。此外,我們還針對(duì)L1000的不可靠測(cè)量問題验烧,引入了數(shù)據(jù)增強(qiáng)方法板驳,有效地利用不可靠基因表達(dá)譜中的有用信息,提高了模型的預(yù)測(cè)性能碍拆。此外若治,下游預(yù)測(cè)任務(wù)評(píng)估表明,在L1000中感混,用DeepCE生成的基因表達(dá)譜訓(xùn)練分類模型比用不可靠的基因表達(dá)譜訓(xùn)練分類模型取得更好的性能端幼,表明DeepCE對(duì)下游預(yù)測(cè)的附加值。最后弧满,DeepCE通過對(duì)DrugBank中所有化合物進(jìn)行電子篩選婆跑,針對(duì)COVID-19患者的臨床表型(即,將DeepCE產(chǎn)生的化學(xué)誘導(dǎo)基因表達(dá)譜與患者譜進(jìn)行比較)谱秽,證明了DeepCE在尋找COVID-19治療方法這一挑戰(zhàn)和緊迫問題上的有效性洽蛀∧∶裕總之疟赊,DeepCE可能是一個(gè)強(qiáng)大的基于表型的化合物篩選工具。

數(shù)據(jù)可用性

基于貝葉斯的峰值反褶積LINCS L1000數(shù)據(jù)集可在https://github.com/njpipeorgan/L1000-bayesian峡碉。我們研究中使用的訓(xùn)練近哟、開發(fā)和測(cè)試基因表達(dá)集,DrugBank中所有藥物的基因表達(dá)譜從DeepCE生成鲫寄,可在https://github.com/pth1993/DeepCE吉执。

Code availability

DeepCE source code and its usage instructions are available in Github (https://github.com/pth1993/DeepCE) and Zenodo (https://doi.org/10.5281/zenodo.3978774).

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市地来,隨后出現(xiàn)的幾起案子戳玫,更是在濱河造成了極大的恐慌,老刑警劉巖未斑,帶你破解...
    沈念sama閱讀 206,013評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件咕宿,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)府阀,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,205評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門缆镣,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人试浙,你說我怎么就攤上這事董瞻。” “怎么了田巴?”我有些...
    開封第一講書人閱讀 152,370評(píng)論 0 342
  • 文/不壞的土叔 我叫張陵钠糊,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我固额,道長(zhǎng)眠蚂,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,168評(píng)論 1 278
  • 正文 為了忘掉前任斗躏,我火速辦了婚禮逝慧,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘啄糙。我一直安慰自己笛臣,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,153評(píng)論 5 371
  • 文/花漫 我一把揭開白布隧饼。 她就那樣靜靜地躺著沈堡,像睡著了一般。 火紅的嫁衣襯著肌膚如雪燕雁。 梳的紋絲不亂的頭發(fā)上诞丽,一...
    開封第一講書人閱讀 48,954評(píng)論 1 283
  • 那天,我揣著相機(jī)與錄音拐格,去河邊找鬼僧免。 笑死,一個(gè)胖子當(dāng)著我的面吹牛捏浊,可吹牛的內(nèi)容都是我干的懂衩。 我是一名探鬼主播,決...
    沈念sama閱讀 38,271評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼金踪,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼浊洞!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起胡岔,我...
    開封第一講書人閱讀 36,916評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤法希,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后靶瘸,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體苫亦,經(jīng)...
    沈念sama閱讀 43,382評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡尖淘,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,877評(píng)論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了著觉。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片村生。...
    茶點(diǎn)故事閱讀 37,989評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖饼丘,靈堂內(nèi)的尸體忽然破棺而出趁桃,到底是詐尸還是另有隱情,我是刑警寧澤肄鸽,帶...
    沈念sama閱讀 33,624評(píng)論 4 322
  • 正文 年R本政府宣布卫病,位于F島的核電站,受9級(jí)特大地震影響典徘,放射性物質(zhì)發(fā)生泄漏蟀苛。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,209評(píng)論 3 307
  • 文/蒙蒙 一逮诲、第九天 我趴在偏房一處隱蔽的房頂上張望帜平。 院中可真熱鬧,春花似錦梅鹦、人聲如沸裆甩。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,199評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)嗤栓。三九已至,卻和暖如春箍邮,著一層夾襖步出監(jiān)牢的瞬間茉帅,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,418評(píng)論 1 260
  • 我被黑心中介騙來泰國(guó)打工锭弊, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留堪澎,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,401評(píng)論 2 352
  • 正文 我出身青樓廷蓉,卻偏偏與公主長(zhǎng)得像全封,于是被迫代替她去往敵國(guó)和親马昙。 傳聞我的和親對(duì)象是個(gè)殘疾皇子桃犬,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,700評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容