作者:Resther
審稿:童蒙
編輯:angelica
想知道scRNA-seq分析中遭遇哪些痛點(diǎn)嚾劝啊速兔?
想知道深度學(xué)習(xí)又是怎么被拿來(lái)解決這些問(wèn)題的囇憔骸秒咐?
一起來(lái)看~
1、scRNA-seq數(shù)據(jù)處理中的挑戰(zhàn)
單細(xì)胞RNA測(cè)序(scRNA-seq)技術(shù)正帶給生物醫(yī)學(xué)領(lǐng)域新的發(fā)展盈简,研究者利用這一技術(shù)能細(xì)致分析單個(gè)細(xì)胞層次上的信息凑耻。
過(guò)去幾年中,用于scRNA-seq數(shù)據(jù)分析的生物信息學(xué)技術(shù)得到了飛速發(fā)展柠贤,但仍有一些尚未解決的挑戰(zhàn)香浩,比如缺失事件(dropout event)、批次效應(yīng)(batch effect)臼勉、噪音(noise)邻吭、高維度(high dimensionality)、可伸縮性(scalability)等宴霸。
1.1 Dropout event
單細(xì)胞RNA-seq數(shù)據(jù)通常包含很多可能由于原始RNA擴(kuò)增失敗镜盯、或者低表達(dá)基因少量RNA分子和轉(zhuǎn)錄過(guò)程隨機(jī)性而導(dǎo)致scRNA-seq數(shù)據(jù)表達(dá)矩陣中存在缺失值這一情況岸裙,稱之為缺失事件(dropout event, dropouts是指空beads)。
dropout的比例是跟protocol相關(guān)速缆,而且與每個(gè)細(xì)胞測(cè)序的reads數(shù)密切相關(guān)。Dropout event模糊了基因-基因關(guān)系的檢測(cè)恩闻,由于在scRNA-seq中可能無(wú)法檢測(cè)到大量真正表達(dá)的轉(zhuǎn)錄本艺糜,因此dropout可能會(huì)很大程度上影響下游的分析。
1.2 Batch effect
單細(xì)胞RNA-seq數(shù)據(jù)通常在不同的條件幢尚、平臺(tái)或不同的實(shí)驗(yàn)室通過(guò)多批次收集破停。批次之間的差異會(huì)導(dǎo)致不同的基因表達(dá)值,稱為批次效應(yīng)尉剩。
這種批次因素可能會(huì)混淆真正在生物學(xué)上細(xì)胞間異質(zhì)性導(dǎo)致的差異真慢,如果不加以糾正,批次效應(yīng)可能導(dǎo)致數(shù)據(jù)中出現(xiàn)虛假結(jié)構(gòu)理茎,并在下游分析中產(chǎn)生誤導(dǎo)性結(jié)論黑界。
已發(fā)表的用于scRNA-seq數(shù)據(jù)中去除批次效應(yīng)的方法包括規(guī)范相關(guān)分析(canonical correlation analysis, CCA)和相互最近鄰居(mutual nearest neighbors, MNN)。
1.3 Technical noise
除了缺失事件和批次效應(yīng)外皂林,其他一些技術(shù)因素也可能會(huì)導(dǎo)致scRNA-seq數(shù)據(jù)產(chǎn)生偏差朗鸠,尤其是對(duì)于低表達(dá)基因而言,例如cDNA擴(kuò)增偏差础倍、細(xì)胞周期效應(yīng)烛占、測(cè)序深度不足等,我們將這種偏差稱之為技術(shù)噪音沟启。
1.4 Curse of dimensionality
scRNA-seq數(shù)據(jù)分析中的關(guān)鍵步驟是降維忆家。scRNA-seq數(shù)據(jù)集通常包含大量基因的表達(dá)譜,其中一個(gè)基因?qū)?yīng)一維德迹,每個(gè)細(xì)胞的表達(dá)譜對(duì)應(yīng)于高維細(xì)胞狀態(tài)空間中的數(shù)據(jù)點(diǎn)芽卿。在某些數(shù)據(jù)分析步驟(例如:聚類)中,數(shù)據(jù)點(diǎn)之間的距離起著至關(guān)重要的作用浦辨。
然而蹬竖,在高維空間中,隨著數(shù)據(jù)點(diǎn)變得稀疏流酬,距離度量(例如:歐幾里得距離币厕、馬氏距離和曼哈頓距離)失去了有效性,使得最近鄰居的概念不清楚芽腾,并且數(shù)據(jù)分析問(wèn)題變得困難旦装,這被稱為維數(shù)詛咒(curse of dimensionality)。
此外摊滔,這可能會(huì)導(dǎo)致過(guò)度擬合的問(wèn)題阴绢,尤其是在數(shù)據(jù)點(diǎn)數(shù)量相對(duì)較少的情況下店乐。緩解高維問(wèn)題的一種方法是增加數(shù)據(jù),但是在大多數(shù)情況下這是不可行的呻袭,因?yàn)樗璧臄?shù)據(jù)量將隨維數(shù)成倍增加眨八。因此,另一種可行的解決方案是降維左电。
對(duì)于scRNA-seq數(shù)據(jù)廉侧,已采用或開(kāi)發(fā)了許多降維方法,例如PCA篓足、t-SNE段誊、diffusion map、GPLVM栈拖、SIMLR和UMAP等连舍。經(jīng)過(guò)對(duì)模擬和真實(shí)數(shù)據(jù)的測(cè)試,已證明這些方法可有效地從高維scRNA-seq數(shù)據(jù)集中提取顯著因素涩哟,并有助于提高各種下游分析的性能索赏,例如聚類、可視化染簇、細(xì)胞類型發(fā)現(xiàn)参滴、擬時(shí)間分析和基因調(diào)控網(wǎng)絡(luò)推斷等。
然而锻弓,現(xiàn)有的降維方法仍然存在一些局限性砾赔,例如缺乏對(duì)隨機(jī)采樣的魯棒性,無(wú)法在關(guān)注數(shù)據(jù)局部結(jié)構(gòu)的同時(shí)捕獲全局結(jié)構(gòu)青灼,對(duì)參數(shù)的敏感性以及較高的計(jì)算成本等暴心。
1.5 Scalability
降維主要處理scRNA-seq數(shù)據(jù)中大量的基因,但數(shù)據(jù)大小的另一個(gè)關(guān)鍵參數(shù)是細(xì)胞數(shù)杂拨。這兩個(gè)參數(shù)都帶來(lái)了可伸縮性的挑戰(zhàn)专普。
自從基于液滴的scRNA-seq技術(shù)(即Drop-seq)誕生以來(lái),每個(gè)實(shí)驗(yàn)中分析的細(xì)胞數(shù)量已達(dá)到數(shù)萬(wàn)甚至數(shù)百萬(wàn)弹沽,這時(shí)需要更有效和可擴(kuò)展的算法用于建模和數(shù)據(jù)分析檀夹。
在過(guò)去幾年中,研究者已經(jīng)發(fā)展了許多統(tǒng)計(jì)和機(jī)器學(xué)習(xí)方法來(lái)解決上述scRNA-seq數(shù)據(jù)分析問(wèn)題策橘。
然而炸渡,直到2017年,深度學(xué)習(xí)技術(shù)才開(kāi)始被用來(lái)解決這些問(wèn)題丽已,其中自動(dòng)編碼器是迄今為止最受歡迎的技術(shù)蚌堵。我們接著往下看~
2、自動(dòng)編碼器AutoEncoders
自動(dòng)編碼器是用于無(wú)監(jiān)督學(xué)習(xí)的人工神經(jīng)網(wǎng)絡(luò),有時(shí)也將其視為自我監(jiān)督學(xué)習(xí)吼畏,因?yàn)槟繕?biāo)輸出直接來(lái)自輸入數(shù)據(jù)督赤。
自動(dòng)編碼器的主要思想是通過(guò)強(qiáng)制神經(jīng)網(wǎng)絡(luò)在某些約束條件下盡可能準(zhǔn)確地重建輸入數(shù)據(jù)集本身,從而學(xué)習(xí)有效的數(shù)據(jù)表示泻蚊。在神經(jīng)網(wǎng)絡(luò)的內(nèi)部隱藏層上施加約束(例如:降低維度)躲舌,這會(huì)迫使模型忽略無(wú)關(guān)信息并捕獲數(shù)據(jù)中最基本的模式。
典型的自動(dòng)編碼器包括編碼器(將輸入數(shù)據(jù)轉(zhuǎn)換為內(nèi)部表示形式)和解碼器(從內(nèi)部表示形式產(chǎn)生輸出)性雄。損失函數(shù)通常是基于輸入和輸出數(shù)據(jù)之間距離的某種度量(例如:歐式距離或Kullback-Leiler散度)的重構(gòu)誤差孽糖。
自動(dòng)編碼器通常用于降維。實(shí)際上毅贮,當(dāng)損失函數(shù)為均方誤差并且僅使用線性激活函數(shù)時(shí),主成分分析(PCA)可以視為自動(dòng)編碼器的特殊情況尘奏。自動(dòng)編碼器的其他應(yīng)用包括用于有監(jiān)督學(xué)習(xí)的預(yù)訓(xùn)練滩褥、特征提取、信息檢索等炫加。
3瑰煎、用于scRNA-seq數(shù)據(jù)分析的深度學(xué)習(xí)方法
下表中是2017年以來(lái)針對(duì)上述scRNA-seq數(shù)據(jù)處理中遇到的問(wèn)題,研究者開(kāi)發(fā)的一部分方法俗孝。接下來(lái)簡(jiǎn)單介紹其中幾種:
為了解決dropout問(wèn)題酒甸,研究者開(kāi)發(fā)了幾種插補(bǔ)(imputation)方法,例如MAGIC赋铝、 scImpute和drImpute插勤。
Talwar等人提出了一種基于自動(dòng)編碼器的方法,稱為 “AutoImpute”革骨,用于處理scRNA-seq數(shù)據(jù)中的缺失农尖。他們使用了超完備的自動(dòng)編碼器,其目的是通過(guò)關(guān)注輸入稀疏矩陣中的非零條目來(lái)重新生成估算的表達(dá)矩陣良哲。
Eraslan等人則提出了一種稱為DCA(deep count autoencoder盛卡,深度計(jì)數(shù)自動(dòng)編碼器)的方法進(jìn)行去噪,同時(shí)解決dropout問(wèn)題筑凫。該方法的主要思想是根據(jù)噪聲模型定義損失函數(shù)滑沧,例如負(fù)二項(xiàng)式(NB)和零通脹負(fù)二項(xiàng)式(ZINB)。當(dāng)使用ZINB噪聲模型時(shí)巍实,損失函數(shù)就是ZINB分布的可能性滓技。DCA的輸出層包括每個(gè)基因的三個(gè)神經(jīng)元節(jié)點(diǎn),代表NB分布的均值(作為去噪數(shù)據(jù))和ZINB分布的兩個(gè)參數(shù)(即分散和丟失概率)蔫浆。
與其他插補(bǔ)和去噪方法相比殖属,DCA具有兩個(gè)優(yōu)點(diǎn):一個(gè)是捕獲基因間非線性依賴性的能力,一個(gè)是由于自動(dòng)編碼器的效率和對(duì)GPU使用的支持瓦盛,可擴(kuò)展計(jì)算數(shù)百萬(wàn)個(gè)細(xì)胞洗显。
研究者也開(kāi)發(fā)了幾種用于降低scRNA-seq數(shù)據(jù)維數(shù)的深度學(xué)習(xí)方法外潜。
Lin等人比較了4種神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)以學(xué)習(xí)scRNA-seq數(shù)據(jù)的表示,并使用降噪自動(dòng)編碼器(DAE)進(jìn)行了無(wú)監(jiān)督的預(yù)訓(xùn)練挠唆。他們的主要目標(biāo)是進(jìn)行監(jiān)督學(xué)習(xí)來(lái)確定細(xì)胞類型处窥,用數(shù)據(jù)庫(kù)查詢來(lái)推斷細(xì)胞類型或狀態(tài)。他們也發(fā)現(xiàn)玄组,在神經(jīng)網(wǎng)絡(luò)中加入蛋白質(zhì)-蛋白質(zhì)和蛋白質(zhì)-DNA相互作用的先驗(yàn)知識(shí)滔驾,可以讓網(wǎng)絡(luò)表現(xiàn)得更好。此外俄讹,對(duì)所學(xué)模型的分析可以產(chǎn)生生物學(xué)見(jiàn)解哆致,從而證明神經(jīng)網(wǎng)絡(luò)具有一定程度的可解釋性。
Ding等人運(yùn)用變分自編碼器方法(VAE)開(kāi)發(fā)了scvis患膛,用來(lái)推斷低維潛在變量的近似后驗(yàn)分布摊阀,從而學(xué)習(xí)從高維空間到低維嵌入的參數(shù)映射。與已有的通用方法(諸如t-SNE等)相比踪蹬,scvis方法可以捕獲數(shù)據(jù)中的全局結(jié)構(gòu)胞此,對(duì)噪聲的魯棒性更好,具有更好的可解釋性跃捣。然而不足的是漱牵,scvis的運(yùn)行時(shí)間成本非常高。
Wang和Gu提出了一種稱為“ VASC”的方法疚漆,該方法同樣使用變分自動(dòng)編碼器進(jìn)行降維酣胀,并對(duì)scRNA-seq數(shù)據(jù)進(jìn)行可視化。VASC的體系結(jié)構(gòu)包括編碼器網(wǎng)絡(luò)愿卸,解碼器網(wǎng)絡(luò)和模擬零丟失事件的零膨脹層灵临。與PCA,t-SNE和ZIFA等現(xiàn)有方法相比趴荸,VASC可以捕獲數(shù)據(jù)中的非線性模式儒溉,并具有更廣泛的數(shù)據(jù)兼容性。此外发钝,VASC可以基于降維來(lái)重現(xiàn)細(xì)胞發(fā)育過(guò)程顿涣。然而,它仍然不足以重現(xiàn)細(xì)胞分化軌跡酝豪。
除了上述專注于解決一個(gè)或兩個(gè)問(wèn)題的方法之外涛碑,研究者也致力于開(kāi)發(fā)出一個(gè)聯(lián)合框架,將不同的工具集成于其中孵淘。
Lopez等人開(kāi)發(fā)了一個(gè)稱為“ scVI”(單細(xì)胞變分推理)的集成軟件工具蒲障,該工具可以執(zhí)行以下任務(wù):批次校正,庫(kù)大小偏差校正,缺失校正揉阎,插補(bǔ)庄撮,降維,聚類毙籽,可視化洞斯。該方法中,不同的分析任務(wù)都可以使用scRNA-seq數(shù)據(jù)的低維表示坑赡,以提高一致性和靈活性烙如。scVI基于分層貝葉斯概率模型,使用變分自動(dòng)編碼器來(lái)進(jìn)行降維毅否,并使用神經(jīng)網(wǎng)絡(luò)來(lái)完成多個(gè)任務(wù)亚铁。scVI算法的體系結(jié)構(gòu)建立在高度模塊化的深度學(xué)習(xí)框架上,因此可以通過(guò)測(cè)試模塊的其他組合(例如螟加,非線性刀闷,正則化)來(lái)獲得更好的結(jié)果。
SAVER-X是另一種用于數(shù)據(jù)去噪的方法仰迁,它是一個(gè)結(jié)合深度自動(dòng)編碼器的分層貝葉斯模型。此外顽分,SAVER-X利用遷移學(xué)習(xí)來(lái)自動(dòng)完成跨研究信息共享和數(shù)據(jù)集成的過(guò)程徐许。因此,作者能夠從小鼠細(xì)胞的scRNA-seq數(shù)據(jù)跨物種分析人類細(xì)胞卒蘸,從而解決人類細(xì)胞數(shù)據(jù)短缺的問(wèn)題雌隅。
scScope方法則用循環(huán)神經(jīng)網(wǎng)絡(luò)方法來(lái)去除批次效應(yīng)、缺失事件和細(xì)胞亞群識(shí)別等缸沃。該方法的核心是自動(dòng)編碼器恰起,其中包含用于批次效應(yīng)校正的層和用于插補(bǔ)的層。插補(bǔ)層返回到編碼器的開(kāi)頭趾牧,形成循環(huán)網(wǎng)絡(luò)結(jié)構(gòu)检盼。如果只有一次迭代,則該框架是標(biāo)準(zhǔn)的自動(dòng)編碼器翘单。此外吨枉,像其他深度學(xué)習(xí)方法一樣,scScope為使用GPU的并行訓(xùn)練提供支持哄芜,從而有望為數(shù)百萬(wàn)個(gè)細(xì)胞提供可伸縮性的分析貌亭。
4、總結(jié)與展望
本文提到的方法最主要是使用了自動(dòng)編碼器方法认臊,一種無(wú)監(jiān)督機(jī)器學(xué)習(xí)方法圃庭,可能是因?yàn)閟cRNA-seq數(shù)據(jù)集通常無(wú)法使用標(biāo)記數(shù)據(jù)。盡管用于scRNA-seq數(shù)據(jù)分析的深度學(xué)習(xí)方法取得了令人興奮的發(fā)展,但仍然存在一些局限性剧腻,這些局限性可能會(huì)指出未來(lái)工作的方向拘央。
首先,深度學(xué)習(xí)主要用于數(shù)據(jù)預(yù)處理(例如:降維恕酸、去噪和插補(bǔ))堪滨,只能增強(qiáng)而非直接執(zhí)行下游分析任務(wù)(例如:細(xì)胞鑒定、基因調(diào)控網(wǎng)絡(luò)推論)蕊温。
第二袱箱,在大多數(shù)情況下,尚不清楚深度學(xué)習(xí)方法是否明顯優(yōu)于傳統(tǒng)統(tǒng)計(jì)或機(jī)器學(xué)習(xí)方法义矛。未來(lái)有待研究者將深度學(xué)習(xí)方法與其他方法用于特定任務(wù)進(jìn)行比較发笔,以了解何時(shí)以及為何深度學(xué)習(xí)會(huì)更好地發(fā)揮作用。
第三凉翻,所報(bào)道的深度學(xué)習(xí)方法的性能可能對(duì)超參數(shù)值敏感了讨。深度學(xué)習(xí)方法的魯棒性和通用性應(yīng)通過(guò)對(duì)一些第三方數(shù)據(jù)進(jìn)行測(cè)試來(lái)評(píng)估。
第四制轰,某些深度學(xué)習(xí)方法可以促進(jìn)scRNA-seq數(shù)據(jù)與其他類型的單細(xì)胞數(shù)據(jù)的整合前计,例如:?jiǎn)渭?xì)胞Hi-C數(shù)據(jù)、scATAC-seq數(shù)據(jù)垃杖、單細(xì)胞蛋白質(zhì)組學(xué)和細(xì)胞成像數(shù)據(jù)男杈。
最后,科學(xué)知識(shí)的發(fā)現(xiàn)需要更多的可解釋性调俘。盡管一部分研究者對(duì)自動(dòng)編碼器隱藏層進(jìn)行了生物學(xué)解釋伶棒,但仍有待開(kāi)發(fā)出方法,能自動(dòng)構(gòu)建出模擬單細(xì)胞轉(zhuǎn)錄動(dòng)力的模型彩库。生成對(duì)抗網(wǎng)絡(luò)(GAN)方法可能實(shí)現(xiàn)這一目標(biāo)肤无。
5、參考文獻(xiàn)
Zheng, J., Wang, K. Emerging deep learning methods for single-cell RNA-seq data analysis. Quant Biol 7, 247–254 (2019).