第八講:?jiǎn)渭?xì)胞軌跡推斷分析
視頻地址:https://www.youtube.com/watch?v=XmHDexCtjyw&list=PLjiXAZO27elC_xnk7gVNM85I2IQl5BEJN&index=10
軌跡推斷分析可以幫助我們理解細(xì)胞狀態(tài)的改變的過(guò)程跺株,尤其是在細(xì)胞分化方面呵扛。
上圖眼熟吧简珠?是單細(xì)胞分析的一個(gè)經(jīng)典的流程桃序。做完聚類(lèi)后恃逻,如果需要你可以做軌跡分析,通過(guò)軌跡分析你可以做差異基因的分析苍苞,從而得到細(xì)胞在分化過(guò)程中不同狀態(tài)下的基因表達(dá)差異贷洲。當(dāng)然中間的流程是經(jīng)典流程,你也可以根據(jù)你的需要從不同的步驟跳到軌跡分析围俘。
那么實(shí)驗(yàn)時(shí)間點(diǎn)的這個(gè)"time"砸讳,和發(fā)育的“time”有什么不一樣。前者就是我們平時(shí)說(shuō)的“時(shí)間”界牡,而后者說(shuō)的是一種“擬時(shí)間”(pseudotime)簿寂。細(xì)胞按照擬時(shí)間的順序來(lái)進(jìn)行分化。上圖中的坐標(biāo)舉的例子是宿亡,橫坐標(biāo)你用一種外界刺激使得細(xì)胞進(jìn)行分化常遂,那么縱坐標(biāo)就是細(xì)胞分化的進(jìn)程。需要注意的是挽荠,即便你在每一步都是homogenous的細(xì)胞群克胳,你的所有細(xì)胞的分化速度都是不一樣的。比如上圖的9h圈匆,盡管很多細(xì)胞已經(jīng)完全的分化了漠另,但是仍然有少數(shù)細(xì)胞處在中間態(tài),和完全沒(méi)有分化的狀態(tài)跃赚。這也就是“非同步化”笆搓。所以,在任何一個(gè)節(jié)點(diǎn)来累,你的所有的細(xì)胞個(gè)體都代表“這個(gè)瞬間”的分化狀態(tài)砚作。
那是每個(gè)人都需要進(jìn)行軌跡推斷分析嗎?當(dāng)然不是嘹锁。你需要確認(rèn)的是你的dataset里是否涉及分化過(guò)程葫录,或者你的細(xì)胞是否有“中間態(tài)”。比如:骨髓里的細(xì)胞领猾,里面有很多“progenitor cells”米同,你就需要進(jìn)行軌跡分析骇扇。再比如說(shuō)你的樣品來(lái)自血液,血液里都是已經(jīng)分化成熟的細(xì)胞了面粮,基本上不用進(jìn)行軌跡分析了少孝。需要注意的是:有時(shí)候軌跡分析的結(jié)果在生物學(xué)上并沒(méi)有意義!所以最好是你已知一部分的分化軌跡熬苍,或者知道細(xì)胞在某一狀態(tài)的時(shí)候會(huì)表達(dá)什么基因稍走。
現(xiàn)在有很多種方法可以進(jìn)行軌跡分析。請(qǐng)注意柴底,不同的軌跡分析軟件所對(duì)應(yīng)的降維方法是不一樣的婿脸。如上圖所示。上圖沒(méi)有列出所有的降維方法柄驻,只是舉一些例子狐树。
在講解軌跡分析方法之前,主講人想先介紹兩個(gè)之前沒(méi)提到過(guò)的降維方法:第一種鸿脓,ICA:
如果你用monocle v1的話抑钟,就是ICA的方法。這種方法與PCA非常相似野哭。區(qū)別是:ICA是分解你的data在塔,PCA則是把highest variation分配到highest component里。
現(xiàn)在來(lái)詳細(xì)的看一下ICA到底是干什么的拨黔。上圖所示心俗,在你的樣品里,包含有很多種生物signal蓉驹,可能有受體信號(hào)城榛、可能有細(xì)胞活化和增殖的信號(hào)、可能有細(xì)胞發(fā)育期間的Marker态兴。但是當(dāng)你把這些信號(hào)都combine的時(shí)候狠持,就像右圖。ICA做的事就是分解你的data瞻润,使得你可以看到原始的生物信號(hào)喘垂。
ICA是怎么工作的呢?上圖左邊是PCA的圖绍撞,PCA是把highest variation找出來(lái)正勒。作為第一主成分。而ICA是從你的data里找出最獨(dú)立的成分傻铣。但是ICA也有缺點(diǎn):ICA假設(shè)它所找出來(lái)的生物信號(hào)都是相互獨(dú)立的章贞。另一個(gè)就是每個(gè)信號(hào)的來(lái)源都是非高斯分布。這里不好理解非洲,舉個(gè)例子:在教室里放4個(gè)麥克風(fēng)鸭限,然后所有人在說(shuō)話的時(shí)候蜕径,我們需要區(qū)分出究竟誰(shuí)在說(shuō)話。ICA可以分解出每一個(gè)人的聲音败京。這些聲音就是非高斯分布的兜喻。而在生物信號(hào)里,大部分的情況下赡麦,信號(hào)來(lái)源都是高斯分布的朴皆。即便是對(duì)于單個(gè)細(xì)胞來(lái)說(shuō),你也很難說(shuō)是高斯分布泛粹,還是非高斯分布车荔。
ICA是一個(gè)線性降維方法∑莅猓可以分解你data里的不同生物信號(hào)來(lái)源,這種降維方法對(duì)后面的軌跡分析比較有利族吻,它可以分辨出哪個(gè)信號(hào)先出現(xiàn)帽借,哪個(gè)信號(hào)后出現(xiàn)。但是這種方法有時(shí)候在分析單細(xì)胞數(shù)據(jù)的時(shí)候得到的結(jié)果并不真實(shí)超歌。而且ICA默認(rèn)的是所有的信號(hào)來(lái)源是同等重要的砍艾,但事實(shí)并不是。
下一個(gè)主講人想講的是另一種之前沒(méi)提到的降維方法巍举,diffusion maps脆荷。
diffusion maps是一種非線性降維方法。它是基于計(jì)算“probability”進(jìn)行工作的懊悯。舉個(gè)例子:從點(diǎn)1到點(diǎn)6蜓谋,你可以選擇一條路徑1>2>6。這就是2步炭分。你也可以選擇3步桃焕,比如1>4>5>6和1>4>7>6。它計(jì)算的是“可能性”捧毛。
簡(jiǎn)單的來(lái)說(shuō):為了把可能性轉(zhuǎn)化成距離观堂,DM計(jì)算B到C的可能性,再計(jì)算A到C的可能性刊愚,根據(jù)公式事期,如果兩種可能性差不多大会通,那么它們的差值就趨近于0。說(shuō)明A到B的過(guò)程可以通過(guò)C來(lái)很好的連接起來(lái)胰坟。
在了解了兩種降維方式之后,我們可以來(lái)看如何建立細(xì)胞之間的關(guān)系泞辐。從而我們可以知道我們應(yīng)該從哪里開(kāi)始建立軌跡腕铸,又在哪里結(jié)束惜犀。一種方法叫做“MST”(翻譯過(guò)來(lái)叫:最小生成樹(shù))。
先來(lái)舉個(gè)簡(jiǎn)單的例子狠裹,上圖里有很多個(gè)點(diǎn)虽界,每一個(gè)點(diǎn)之間的距離你都可以量的出來(lái)√尾ぃ或者你用上面提到的diffusion map可以計(jì)算出每個(gè)點(diǎn)之間的“可能性”莉御。然后你可以把每一個(gè)點(diǎn)連線,黑色的粗線就是最小生成樹(shù)俗冻。怎么理解呢礁叔?為什么說(shuō)是最小生成樹(shù)呢?這個(gè)“最小”怎么理解迄薄?我們要找到一個(gè)“把所有的點(diǎn)連在一起時(shí)琅关,相加的數(shù)最小”的方式。(把這句加粗的句子多讀幾遍讥蔽,就理解了)另外加一句涣易,如果你分析前就知道你的發(fā)育起始點(diǎn),或者例如干細(xì)胞冶伞,那就會(huì)相對(duì)容易很多新症。
需要注意的是:MST沒(méi)有循環(huán)!所以如果你研究的生物過(guò)程是細(xì)胞增殖(周期)响禽,那你就不能用這個(gè)方法徒爹。
第二個(gè)方法建立細(xì)胞軌跡,這個(gè)方法就是現(xiàn)在monocle 2使用的方法芋类。叫做反向圖嵌入隆嗅。
為什么使用這個(gè)方法呢?上圖侯繁,A比如說(shuō)是一個(gè)最小生成樹(shù)得到的軌跡推斷榛瓮。如果你把其中一個(gè)點(diǎn)的位置稍稍挪一下,像B圖那樣巫击,你會(huì)發(fā)現(xiàn)細(xì)胞軌跡完全就改變了禀晓!因?yàn)樽钚∩蓤D非常依賴(lài)于每一個(gè)點(diǎn)。所以這個(gè)RGE的方法是像C圖一樣坝锰,先把你的細(xì)胞或者樣品做cluster粹懒,根據(jù)這些細(xì)胞的平均值來(lái)畫(huà)軌跡圖。
上圖顯示的是RGE的一個(gè)工作原理圖顷级。從左上角的紅點(diǎn)那個(gè)圖看起凫乖,你有很多個(gè)點(diǎn)在多維的空間里。然后你用各種方法做了降維(第一行中間圖)。之后根據(jù)一些clustering來(lái)假設(shè)一個(gè)軌跡帽芽。接下來(lái)(第二行右圖)RGE所做的事就是:由于有些點(diǎn)離這個(gè)假設(shè)的軌跡比較遠(yuǎn)删掀,它就把每一個(gè)點(diǎn)分配到離點(diǎn)最近的軌跡的部分上。然后更新中心點(diǎn)导街,將二維的軌跡投影到多維空間里披泪,比較是否和原始的數(shù)據(jù)相吻合,如果不是搬瑰,它會(huì)再回到降維后的那一步款票,循環(huán)這個(gè)過(guò)程。這個(gè)過(guò)程實(shí)際上很像前面講降維里的tSNE和UMAP的循環(huán)泽论。直到這個(gè)細(xì)胞軌跡與原始data非常符合艾少。這時(shí)你可以選擇這個(gè)軌跡的root,這樣你就可以定義你的“擬時(shí)間”或者是“發(fā)育軌跡”了翼悴。另外根據(jù)你的軌跡圖里的“分叉”缚够,你還可以定義你的cell fate。
根據(jù)RGE的idea鹦赎,這兩年又發(fā)展不少新的方法谍椅。你不需要掌握這么多方法,會(huì)一個(gè)钙姊,會(huì)用就行了。
這是Monocle v3的一個(gè)工作流程埂伦。首先拿到你的dataset> 標(biāo)準(zhǔn)化你的data > 降維> 聚類(lèi) > 建立你的tree(擬時(shí)間)> 差異基因分析煞额。
現(xiàn)在介紹一個(gè)新的模型:RNA velocity。有道翻譯:RNA速度沾谜。這個(gè)模型是基于生物學(xué)概念的一個(gè)模型膊毁。是一個(gè)基因表達(dá)的軌跡推斷模型。
學(xué)生物的都知道基跑,mRNA剛轉(zhuǎn)錄出來(lái)的時(shí)候婚温,是沒(méi)有經(jīng)過(guò)剪切的。里面有內(nèi)含子媳否。剪切后栅螟,你會(huì)得到spliced mRNA。這是編碼蛋白的篱竭。你同時(shí)還會(huì)有一些mRNA降解力图。這個(gè)模型可以看什么?上圖右邊的6張圖掺逼,每一個(gè)點(diǎn)是一個(gè)細(xì)胞吃媒,你可以比較在擬時(shí)間線上的一個(gè)瞬時(shí)的點(diǎn),“經(jīng)過(guò)剪切的mRNA”和“未經(jīng)剪切的mRNA”哪一個(gè)要更提前。
來(lái)看一個(gè)更為直接的例子:上圖紅色代表未剪切的mRNA赘那,藍(lán)色代表剪切的mRNA刑桑,兩個(gè)群分別代表你所有的細(xì)胞的兩個(gè)基因的表達(dá)情況。根據(jù)生物學(xué)概念來(lái)推斷募舟,你的這些細(xì)胞的狀態(tài)應(yīng)該是從左往右的祠斧。所以這樣一來(lái),你就知道你的軌跡應(yīng)該是從哪里開(kāi)始了胃珍。這個(gè)模型可以讓你定義你的軌跡的“起點(diǎn)”梁肿、“終點(diǎn)”和“分支”。
這個(gè)模型的好處還有一個(gè):它可以建立一個(gè)循環(huán)的軌跡觅彰。
下面總結(jié)一下:
在實(shí)際的實(shí)驗(yàn)中吩蔑,多維空間里的距離常常反映了細(xì)胞群之間的基因表達(dá)差異,而不是真正意義上的“時(shí)間”填抬。所以才把這一個(gè)概念稱(chēng)為“擬時(shí)間”烛芬。你的樣品里需要包含一個(gè)連續(xù)的細(xì)胞狀態(tài)。如果你的細(xì)胞群是完全獨(dú)立的飒责、完全不同的赘娄,有可能你會(huì)得到錯(cuò)誤的結(jié)果,或者得到一個(gè)不太好的軌跡圖宏蛉。第三遣臼,如果你是研究細(xì)胞分化過(guò)程,最好設(shè)計(jì)多個(gè)實(shí)驗(yàn)取材的時(shí)間點(diǎn)拾并。