單細(xì)胞轉(zhuǎn)錄組測序數(shù)據(jù)分析之?dāng)M時序分析簡介 - 簡書 (jianshu.com)
定義
擬時序分析,即根據(jù)不同細(xì)胞亞群基因表達(dá)量隨時間的變化情況确镊,構(gòu)建細(xì)胞譜系發(fā)育扬跋,但這里的時間并不是真時間置蜀,而是一個虛擬的時間埃跷,是指的細(xì)胞與細(xì)胞之間的轉(zhuǎn)化和演替的順序和軌跡金度。
為什么要進(jìn)行擬時序分析
- 機體為響應(yīng)各種應(yīng)激本讥,其細(xì)胞會從一種功能“狀態(tài)”轉(zhuǎn)變?yōu)榱硪环N功能“狀態(tài)”
- 當(dāng)細(xì)胞在不同狀態(tài)之間轉(zhuǎn)變時珊泳,往往會經(jīng)歷轉(zhuǎn)錄重組,導(dǎo)致一些基因被沉默拷沸,一些基因被重新激活色查,但純化這些瞬態(tài)細(xì)胞進(jìn)行研究是很困難或不可能的
- ScRNA-seq擬時序分析可以讓我們在不需要純化的情況下查看這些細(xì)胞狀態(tài)
分析工具
Monocle是使用算法來學(xué)習(xí)細(xì)胞狀態(tài)轉(zhuǎn)變過程中每個細(xì)胞必須經(jīng)歷的基因表達(dá)變化序列,一旦了解了基因表達(dá)變化的整體“軌跡”撞芍,Monocle就可以將每個細(xì)胞放置在軌跡中的適當(dāng)位置秧了。
分析結(jié)果解讀
見原文
monocle2擬時序分析
- Monocle2是做單細(xì)胞擬時分析最有名的R包衡创。
相較還在持續(xù)開發(fā)中的Monocle3來說,Monocle2更穩(wěn)定且更傾向于半監(jiān)督的分析模式晶通,更適合針對感興趣的細(xì)胞亞群做個性化分析璃氢。 - 偽時間是一個抽象的分化單位:它只是一個cell到軌跡起點的距離,沿著最短路徑測量狮辽。軌跡的總長度是由細(xì)胞從起始狀態(tài)移動到結(jié)束狀態(tài)所經(jīng)歷的總轉(zhuǎn)錄變化量來定義的一也。
- Monocle引入了在偽時間(擬時間)內(nèi)對單個細(xì)胞排序的策略,利用單個細(xì)胞的非同步進(jìn)程隘竭,將它們置于與細(xì)胞分化等生物學(xué)過程相對應(yīng)的軌跡上塘秦。Monocle利用先進(jìn)的機器學(xué)習(xí)技術(shù)(反向圖嵌入)從單細(xì)胞數(shù)據(jù)中學(xué)習(xí)顯式的主圖(展現(xiàn)細(xì)胞轉(zhuǎn)錄特征相似性關(guān)系的圖,Monocle2使用DDTree降維圖动看,Monocle3使用UMAP降維圖)來對細(xì)胞進(jìn)行排序尊剔,Monocle的機器學(xué)習(xí)算法可以依據(jù)上述降維圖形,學(xué)習(xí)描述細(xì)胞如何從一種狀態(tài)過渡到另一種狀態(tài)的軌跡菱皆。Monocle假設(shè)軌跡是樹狀結(jié)構(gòu)须误,一端是“根”,另一端是“葉”仇轻。一個細(xì)胞在生物過程的開始京痢,從根開始沿著主干進(jìn)行,直到它到達(dá)第一個分支篷店。然后祭椰,該細(xì)胞必須選擇一條路徑,并沿著樹移動越來越遠(yuǎn)疲陕,直到它到達(dá)一片葉子方淤。一個細(xì)胞的假時間值是它返回根所需的距離。降維方面monocle與seurat的過程大同小異蹄殃,首先進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化携茂,其次選擇部分基因代表細(xì)胞轉(zhuǎn)錄特征 ,最后選用適當(dāng)?shù)乃惴ń稻S诅岩。這可以強大而準(zhǔn)確地解決復(fù)雜的生物過程讳苦。
單細(xì)胞之軌跡分析-2:monocle2 原理解讀+實操 - 簡書 (jianshu.com)
monocle3擬時序分析
Monocle3原理——降維算法
Monocle3的擬時序分析既可以基于UMAP圖譜也可以基于TSNE進(jìn)行,但是作者Cole Trapnell更加推薦UMAP的方法策严,因為這種降維方式除了考慮細(xì)胞高度相似性之外還會將距離信息納入考量穗慕。因此,Monocle3內(nèi)嵌的降維方法是UMAP算法——構(gòu)建一個近似結(jié)構(gòu)和簡單模糊修補的高維拓?fù)浣Y(jié)構(gòu)妻导,再最小化交叉熵逛绵,將高維轉(zhuǎn)化為低緯。首先倔韭,進(jìn)行基因的篩選术浪,表達(dá)不足10個細(xì)胞的基因會被篩除;其次寿酌,對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化胰苏,中心化處理;而后醇疼,Top5000的基因被選入后續(xù)分析硕并,使用偏奇值分解的算法提取矩陣重要特征,建立高維空間的中間結(jié)構(gòu)秧荆。最后使用隨機網(wǎng)格下降法將數(shù)據(jù)下嵌倔毙。對于已經(jīng)整合注釋的數(shù)據(jù),Monocle3可以直接基于整合注釋的降維圖譜(UMAP或TSNE)進(jìn)行分析乙濒。
基于圖譜的軌跡推斷擬時序分析工具——Monocle3 - 知乎 (zhihu.com)
monocle3與monocle2的主要區(qū)別
一篇通過monocle3完成擬時序分析的單細(xì)胞論文陕赃,題為Single-Nucleus RNA Sequencing Identifies New Classes of Proximal Tubular Epithelial Cells in Kidney Fibrosis
monocle3的缺點
目前monocle3已經(jīng)更新到β版本了,作者在官網(wǎng)也承認(rèn)了缺點[2]颁股,monocle3 α已經(jīng)是不推薦使用的么库,可能會存在bug,但是monocle3 β仍然處于搭建中的狀態(tài)豌蟋,也就是說monocle3仍然是可能存在bug的廊散,并且我們之前講緒論的時候說到monocle1、2都發(fā)表在了Nature系列之上梧疲,但是monocle3遲遲沒有發(fā)表允睹,并且目前發(fā)表的文章還是使用monocle2的比較多,monocle3的不穩(wěn)定性可能是重要原因幌氮。
monocle3相較于monocle2具有以下幾點優(yōu)勢:
- 最大的優(yōu)點就是計算量變大了缭受,可以處理百萬級別的單細(xì)胞數(shù)據(jù)集,也就是說整個器官该互、甚至整個胚胎的矩陣交給monocle3處理完全沒壓力米者。
- 代碼結(jié)構(gòu)性優(yōu)化:這點我要吐槽一下,monocle系列的語法我一直覺得很奇怪,默認(rèn)參數(shù)也很不人性化
- 支持UMAP算法的降維蔓搞,這個也非常Nice胰丁,速度比tSNE快的不是一星半點。
- 支持多譜系的拓?fù)浣Y(jié)構(gòu):換句話說擬時序的軌跡可以做的很復(fù)雜
- 相較于原來的RGE算法喂分,新的approximate graph abstraction能夠計算不連續(xù)的锦庸、平行的拓?fù)浣Y(jié)構(gòu)
- 新的基因表達(dá)量計算及差異分析方法被引入,也就是說原來的differentialGeneTest()和BEAM()可以被替代蒲祈。
- 可以像Seurat的多樣本整合一樣對擬時序?qū)ο筮M(jìn)行整合:這個功能可以說是剛需了甘萧,換句話說,如果你有合適的梆掸、已構(gòu)建好擬時序的參考數(shù)據(jù)集扬卷,可以直接把自己的數(shù)據(jù)跟參考數(shù)據(jù)集進(jìn)行投影、比對酸钦。
- 數(shù)據(jù)整合時也可同時加上注釋:這有點類似于Seurat中的TransferData怪得,可以利用已經(jīng)注釋好的參考數(shù)據(jù)給現(xiàn)行數(shù)據(jù)添加注釋。
- 對monocle對象的讀取钝鸽、加載汇恤、轉(zhuǎn)換做了一定的優(yōu)化,我們后面可以看看效果如何
- 優(yōu)化了負(fù)二項分布模型:也就是說對處理count的優(yōu)化
- 可視化提供了3D展示功能
終于讀到一篇用monocle3做擬時序的文章 - 知乎 (zhihu.com)
單細(xì)胞測序數(shù)據(jù)進(jìn)階分析—《擬時序分析》4.初識monocle3 - 簡書 (jianshu.com)