scRNA-seq數(shù)據(jù)分析想必大家都比較熟悉了,自2014年nature biotechnology提出單細(xì)胞擬時分析或稱為軌跡分析(Trajectory)已經(jīng)有五個年頭了谈截。除了經(jīng)典的Monocle(只不過是一個R包)之外出現(xiàn)了許多應(yīng)用方便的分析工具與算法筷屡,由我?guī)Т蠹艺J(rèn)識一款在Linux(命令行版)和Windows(界面版)都可以使用的分析工具——STREAM。
因為最近開始關(guān)注scRNA-seq的數(shù)據(jù)分析簸喂,就選擇了這個領(lǐng)域毙死,目前主要看的文章其實是關(guān)于Monocle的。一個偶然的機(jī)會在YouTube看到一個視頻介紹STREAM喻鳄,用示例數(shù)據(jù)在網(wǎng)頁版試了一下還挺好用的扼倘。這個視頻首先整體介紹了一下擬時分析的基本思想:降維排序。然后主要介紹了他們采用的基于圖結(jié)構(gòu)的算法實現(xiàn)诽表。
我的主要工作就是把演講的PPT一頁一頁地通過截屏的方式保存下來唉锌,以便回顧學(xué)習(xí)隅肥。截屏已經(jīng)成為我實現(xiàn)學(xué)習(xí)的基本方法竿奏。
軌跡分析通識
我們知道細(xì)胞的分化發(fā)育是一個有方向的不可逆的過程,這個過程經(jīng)常被比喻為昆侖山上的一湖水從山頂上奔涌下來腥放,通過不同的支流流到太平洋中去泛啸。你可以想象嗎?
時間已經(jīng)來到這個時代秃症,即人類已經(jīng)可以把生命過程的研究推進(jìn)到單細(xì)胞水平了候址。那么我們當(dāng)然想知道一個細(xì)胞(或者一個組織的不同細(xì)胞)是怎樣分化與發(fā)育的了。
軌跡分析本質(zhì)上是一種排序分析种柑。盡管軌跡( trajectories )分析也會被稱為擬時( pseudotime )分析岗仑,但是二者是有側(cè)重的【矍耄可以說擬時軌跡分析的一部分荠雕,也可以說軌跡是在擬時序空間中的排布稳其。
我們拿到的基因表達(dá)矩陣并沒有關(guān)于每個細(xì)胞在什么狀態(tài)的標(biāo)簽,只有表達(dá)量的不同炸卑。要構(gòu)建這種排序就要借助具體的算法來實現(xiàn)軌跡的推斷既鞠。
用到的技術(shù)路線圖:
關(guān)于本場講座有很多PPT會被放出來,但是值得記住的就那么幾張盖文,這就是其中一張嘱蛋。因為它講述了擬時分析的基本要素:
- 一個基因表達(dá)矩陣
- 特征選擇(關(guān)鍵基因:用來確定擬時序和軌跡分支)
- 降維(所謂的排序就是在低維空間排布高維數(shù)據(jù))
- 聚類(哪些細(xì)胞可以排布到同一個分支中呢?)
- 結(jié)構(gòu)擬合(軌跡基本形狀)
- 路徑確定以及細(xì)胞排序
- 可視化
如何確定一個模型的好壞五续?
在紅色字體的網(wǎng)址中我得到了如下建議(當(dāng)然是借助Google翻譯了):
- 用于此任務(wù)的數(shù)據(jù)集
- 評估方法的度量標(biāo)準(zhǔn)
- 最先進(jìn)的方法包括作為基線
-
用于存儲和比較不同方法的軌跡和偽時間的最小信息
STREAM
于是作者開始介紹他們開發(fā)的工具STREAM (Single-cell Trajectories Reconstruction, Exploration And Mapping) 了洒敏,單細(xì)胞數(shù)據(jù)分析的一大有點就是:圖很好看。
基本和Monocle的流程一樣疙驾。最關(guān)鍵的 是最后兩步:確定軌跡的形狀和在軌跡中對細(xì)胞排序桐玻。
下面作者逐步介紹了這些算法的細(xì)節(jié)。牽扯到流行學(xué)習(xí)的非線性降維荆萤,非監(jiān)督機(jī)器學(xué)習(xí)的聚類分析以及關(guān)于圖的模型镊靴。
降維
大家看到左下角那半個單詞了嗎?YouTube居然提供實時字幕(當(dāng)然還有對實時字幕的翻譯链韭,雖然翻譯還不如你猜的準(zhǔn)確)偏竟。
軌跡推斷
大家還記得 Monocle 的算法--Reversed graph embedding(RGE)嗎?而這款軟件用的是Elastic Principal Graph EPG敞峭∮荒保可見圖結(jié)構(gòu)在單細(xì)胞數(shù)據(jù)分析中的地位是十分的重啊。
關(guān)于這個算法旋讹,我只能把磚搬在這了殖蚕。關(guān)于圖大家要明白的就是它是由邊和節(jié)點組成的,而如何定義節(jié)點和邊沉迹,就是區(qū)分不同算法的基本要素睦疫。
初始結(jié)構(gòu)
因為Monocle 其實也是基于圖的,所以他們都用最小生成樹(Minimum spanning tree)來獲得初始軌跡結(jié)構(gòu)鞭呕。
可視化
界面分析工具
網(wǎng)址 : http://stream.pinellolab.org/ 打開之后蛤育,界面張這樣:
里面有一些應(yīng)用的示例數(shù)據(jù),你可以嘗試著點一點Run一下看看這些花里胡哨的結(jié)果葫松,然后再換成你自己的數(shù)據(jù)瓦糕。
當(dāng)然,他們也提供的命令行版的可供在linux上運行腋么,GitHub在這STREAM咕娄。
參考
Single-cell methods comparison platform
The dynamics and regulators of cell fate decisions are revealed by pseudotemporal ordering of single cells
STREAM
[MIA: Luca Pinello, Huidong Chen, Single-cell trajectories from omics; Jonathan Hsu, CRISPR tiling]