Single cell RNA-seq data analysis with R視頻學(xué)習(xí)筆記(八)

第八講:?jiǎn)渭?xì)胞軌跡推斷分析

視頻地址:https://www.youtube.com/watch?v=XmHDexCtjyw&list=PLjiXAZO27elC_xnk7gVNM85I2IQl5BEJN&index=10

練習(xí)地址:https://github.com/NBISweden/excelerate-scRNAseq/blob/master/session-trajectories/session-trajectories.md

軌跡推斷分析可以幫助我們理解細(xì)胞狀態(tài)的改變的過(guò)程跺株,尤其是在細(xì)胞分化方面呵扛。

上圖眼熟吧简珠?是單細(xì)胞分析的一個(gè)經(jīng)典的流程桃序。做完聚類(lèi)后恃逻,如果需要你可以做軌跡分析,通過(guò)軌跡分析你可以做差異基因的分析苍苞,從而得到細(xì)胞在分化過(guò)程中不同狀態(tài)下的基因表達(dá)差異贷洲。當(dāng)然中間的流程是經(jīng)典流程,你也可以根據(jù)你的需要從不同的步驟跳到軌跡分析围俘。

那么實(shí)驗(yàn)時(shí)間點(diǎn)的這個(gè)"time"砸讳,和發(fā)育的“time”有什么不一樣。前者就是我們平時(shí)說(shuō)的“時(shí)間”界牡,而后者說(shuō)的是一種“擬時(shí)間”(pseudotime)簿寂。細(xì)胞按照擬時(shí)間的順序來(lái)進(jìn)行分化。上圖中的坐標(biāo)舉的例子是宿亡,橫坐標(biāo)你用一種外界刺激使得細(xì)胞進(jìn)行分化常遂,那么縱坐標(biāo)就是細(xì)胞分化的進(jìn)程。需要注意的是挽荠,即便你在每一步都是homogenous的細(xì)胞群克胳,你的所有細(xì)胞的分化速度都是不一樣的。比如上圖的9h圈匆,盡管很多細(xì)胞已經(jīng)完全的分化了漠另,但是仍然有少數(shù)細(xì)胞處在中間態(tài),和完全沒(méi)有分化的狀態(tài)跃赚。這也就是“非同步化”笆搓。所以,在任何一個(gè)節(jié)點(diǎn)来累,你的所有的細(xì)胞個(gè)體都代表“這個(gè)瞬間”的分化狀態(tài)砚作。

那是每個(gè)人都需要進(jìn)行軌跡推斷分析嗎?當(dāng)然不是嘹锁。你需要確認(rèn)的是你的dataset里是否涉及分化過(guò)程葫录,或者你的細(xì)胞是否有“中間態(tài)”。比如:骨髓里的細(xì)胞领猾,里面有很多“progenitor cells”米同,你就需要進(jìn)行軌跡分析骇扇。再比如說(shuō)你的樣品來(lái)自血液,血液里都是已經(jīng)分化成熟的細(xì)胞了面粮,基本上不用進(jìn)行軌跡分析了少孝。需要注意的是:有時(shí)候軌跡分析的結(jié)果在生物學(xué)上并沒(méi)有意義!所以最好是你已知一部分的分化軌跡熬苍,或者知道細(xì)胞在某一狀態(tài)的時(shí)候會(huì)表達(dá)什么基因稍走。

現(xiàn)在有很多種方法可以進(jìn)行軌跡分析。請(qǐng)注意柴底,不同的軌跡分析軟件所對(duì)應(yīng)的降維方法是不一樣的婿脸。如上圖所示。上圖沒(méi)有列出所有的降維方法柄驻,只是舉一些例子狐树。

在講解軌跡分析方法之前,主講人想先介紹兩個(gè)之前沒(méi)提到過(guò)的降維方法:第一種鸿脓,ICA:

如果你用monocle v1的話抑钟,就是ICA的方法。這種方法與PCA非常相似野哭。區(qū)別是:ICA是分解你的data在塔,PCA則是把highest variation分配到highest component里。

現(xiàn)在來(lái)詳細(xì)的看一下ICA到底是干什么的拨黔。上圖所示心俗,在你的樣品里,包含有很多種生物signal蓉驹,可能有受體信號(hào)城榛、可能有細(xì)胞活化和增殖的信號(hào)、可能有細(xì)胞發(fā)育期間的Marker态兴。但是當(dāng)你把這些信號(hào)都combine的時(shí)候狠持,就像右圖。ICA做的事就是分解你的data瞻润,使得你可以看到原始的生物信號(hào)喘垂。

ICA是怎么工作的呢?上圖左邊是PCA的圖绍撞,PCA是把highest variation找出來(lái)正勒。作為第一主成分。而ICA是從你的data里找出最獨(dú)立的成分傻铣。但是ICA也有缺點(diǎn):ICA假設(shè)它所找出來(lái)的生物信號(hào)都是相互獨(dú)立的章贞。另一個(gè)就是每個(gè)信號(hào)的來(lái)源都是非高斯分布。這里不好理解非洲,舉個(gè)例子:在教室里放4個(gè)麥克風(fēng)鸭限,然后所有人在說(shuō)話的時(shí)候蜕径,我們需要區(qū)分出究竟誰(shuí)在說(shuō)話。ICA可以分解出每一個(gè)人的聲音败京。這些聲音就是非高斯分布的兜喻。而在生物信號(hào)里,大部分的情況下赡麦,信號(hào)來(lái)源都是高斯分布的朴皆。即便是對(duì)于單個(gè)細(xì)胞來(lái)說(shuō),你也很難說(shuō)是高斯分布泛粹,還是非高斯分布车荔。

ICA是一個(gè)線性降維方法∑莅猓可以分解你data里的不同生物信號(hào)來(lái)源,這種降維方法對(duì)后面的軌跡分析比較有利族吻,它可以分辨出哪個(gè)信號(hào)先出現(xiàn)帽借,哪個(gè)信號(hào)后出現(xiàn)。但是這種方法有時(shí)候在分析單細(xì)胞數(shù)據(jù)的時(shí)候得到的結(jié)果并不真實(shí)超歌。而且ICA默認(rèn)的是所有的信號(hào)來(lái)源是同等重要的砍艾,但事實(shí)并不是。

下一個(gè)主講人想講的是另一種之前沒(méi)提到的降維方法巍举,diffusion maps脆荷。

diffusion maps是一種非線性降維方法。它是基于計(jì)算“probability”進(jìn)行工作的懊悯。舉個(gè)例子:從點(diǎn)1到點(diǎn)6蜓谋,你可以選擇一條路徑1>2>6。這就是2步炭分。你也可以選擇3步桃焕,比如1>4>5>6和1>4>7>6。它計(jì)算的是“可能性”捧毛。

簡(jiǎn)單的來(lái)說(shuō):為了把可能性轉(zhuǎn)化成距離观堂,DM計(jì)算B到C的可能性,再計(jì)算A到C的可能性刊愚,根據(jù)公式事期,如果兩種可能性差不多大会通,那么它們的差值就趨近于0。說(shuō)明A到B的過(guò)程可以通過(guò)C來(lái)很好的連接起來(lái)胰坟。

在了解了兩種降維方式之后,我們可以來(lái)看如何建立細(xì)胞之間的關(guān)系泞辐。從而我們可以知道我們應(yīng)該從哪里開(kāi)始建立軌跡腕铸,又在哪里結(jié)束惜犀。一種方法叫做“MST”(翻譯過(guò)來(lái)叫:最小生成樹(shù))。

先來(lái)舉個(gè)簡(jiǎn)單的例子狠裹,上圖里有很多個(gè)點(diǎn)虽界,每一個(gè)點(diǎn)之間的距離你都可以量的出來(lái)√尾ぃ或者你用上面提到的diffusion map可以計(jì)算出每個(gè)點(diǎn)之間的“可能性”莉御。然后你可以把每一個(gè)點(diǎn)連線,黑色的粗線就是最小生成樹(shù)俗冻。怎么理解呢礁叔?為什么說(shuō)是最小生成樹(shù)呢?這個(gè)“最小”怎么理解迄薄?我們要找到一個(gè)“把所有的點(diǎn)連在一起時(shí)琅关,相加的數(shù)最小”的方式。(把這句加粗的句子多讀幾遍讥蔽,就理解了)另外加一句涣易,如果你分析前就知道你的發(fā)育起始點(diǎn),或者例如干細(xì)胞冶伞,那就會(huì)相對(duì)容易很多新症。

需要注意的是:MST沒(méi)有循環(huán)!所以如果你研究的生物過(guò)程是細(xì)胞增殖(周期)响禽,那你就不能用這個(gè)方法徒爹。

第二個(gè)方法建立細(xì)胞軌跡,這個(gè)方法就是現(xiàn)在monocle 2使用的方法芋类。叫做反向圖嵌入隆嗅。

為什么使用這個(gè)方法呢?上圖侯繁,A比如說(shuō)是一個(gè)最小生成樹(shù)得到的軌跡推斷榛瓮。如果你把其中一個(gè)點(diǎn)的位置稍稍挪一下,像B圖那樣巫击,你會(huì)發(fā)現(xiàn)細(xì)胞軌跡完全就改變了禀晓!因?yàn)樽钚∩蓤D非常依賴(lài)于每一個(gè)點(diǎn)。所以這個(gè)RGE的方法是像C圖一樣坝锰,先把你的細(xì)胞或者樣品做cluster粹懒,根據(jù)這些細(xì)胞的平均值來(lái)畫(huà)軌跡圖。

上圖顯示的是RGE的一個(gè)工作原理圖顷级。從左上角的紅點(diǎn)那個(gè)圖看起凫乖,你有很多個(gè)點(diǎn)在多維的空間里。然后你用各種方法做了降維(第一行中間圖)。之后根據(jù)一些clustering來(lái)假設(shè)一個(gè)軌跡帽芽。接下來(lái)(第二行右圖)RGE所做的事就是:由于有些點(diǎn)離這個(gè)假設(shè)的軌跡比較遠(yuǎn)删掀,它就把每一個(gè)點(diǎn)分配到離點(diǎn)最近的軌跡的部分上。然后更新中心點(diǎn)导街,將二維的軌跡投影到多維空間里披泪,比較是否和原始的數(shù)據(jù)相吻合,如果不是搬瑰,它會(huì)再回到降維后的那一步款票,循環(huán)這個(gè)過(guò)程。這個(gè)過(guò)程實(shí)際上很像前面講降維里的tSNE和UMAP的循環(huán)泽论。直到這個(gè)細(xì)胞軌跡與原始data非常符合艾少。這時(shí)你可以選擇這個(gè)軌跡的root,這樣你就可以定義你的“擬時(shí)間”或者是“發(fā)育軌跡”了翼悴。另外根據(jù)你的軌跡圖里的“分叉”缚够,你還可以定義你的cell fate。

根據(jù)RGE的idea鹦赎,這兩年又發(fā)展不少新的方法谍椅。你不需要掌握這么多方法,會(huì)一個(gè)钙姊,會(huì)用就行了。

這是Monocle v3的一個(gè)工作流程埂伦。首先拿到你的dataset> 標(biāo)準(zhǔn)化你的data > 降維> 聚類(lèi) > 建立你的tree(擬時(shí)間)> 差異基因分析煞额。

現(xiàn)在介紹一個(gè)新的模型:RNA velocity。有道翻譯:RNA速度沾谜。這個(gè)模型是基于生物學(xué)概念的一個(gè)模型膊毁。是一個(gè)基因表達(dá)的軌跡推斷模型。

學(xué)生物的都知道基跑,mRNA剛轉(zhuǎn)錄出來(lái)的時(shí)候婚温,是沒(méi)有經(jīng)過(guò)剪切的。里面有內(nèi)含子媳否。剪切后栅螟,你會(huì)得到spliced mRNA。這是編碼蛋白的篱竭。你同時(shí)還會(huì)有一些mRNA降解力图。這個(gè)模型可以看什么?上圖右邊的6張圖掺逼,每一個(gè)點(diǎn)是一個(gè)細(xì)胞吃媒,你可以比較在擬時(shí)間線上的一個(gè)瞬時(shí)的點(diǎn),“經(jīng)過(guò)剪切的mRNA”和“未經(jīng)剪切的mRNA”哪一個(gè)要更提前。

來(lái)看一個(gè)更為直接的例子:上圖紅色代表未剪切的mRNA赘那,藍(lán)色代表剪切的mRNA刑桑,兩個(gè)群分別代表你所有的細(xì)胞的兩個(gè)基因的表達(dá)情況。根據(jù)生物學(xué)概念來(lái)推斷募舟,你的這些細(xì)胞的狀態(tài)應(yīng)該是從左往右的祠斧。所以這樣一來(lái),你就知道你的軌跡應(yīng)該是從哪里開(kāi)始了胃珍。這個(gè)模型可以讓你定義你的軌跡的“起點(diǎn)”梁肿、“終點(diǎn)”和“分支”。

這個(gè)模型的好處還有一個(gè):它可以建立一個(gè)循環(huán)的軌跡觅彰。

下面總結(jié)一下:

在實(shí)際的實(shí)驗(yàn)中吩蔑,多維空間里的距離常常反映了細(xì)胞群之間的基因表達(dá)差異,而不是真正意義上的“時(shí)間”填抬。所以才把這一個(gè)概念稱(chēng)為“擬時(shí)間”烛芬。你的樣品里需要包含一個(gè)連續(xù)的細(xì)胞狀態(tài)。如果你的細(xì)胞群是完全獨(dú)立的飒责、完全不同的赘娄,有可能你會(huì)得到錯(cuò)誤的結(jié)果,或者得到一個(gè)不太好的軌跡圖宏蛉。第三遣臼,如果你是研究細(xì)胞分化過(guò)程,最好設(shè)計(jì)多個(gè)實(shí)驗(yàn)取材的時(shí)間點(diǎn)拾并。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
禁止轉(zhuǎn)載揍堰,如需轉(zhuǎn)載請(qǐng)通過(guò)簡(jiǎn)信或評(píng)論聯(lián)系作者。
  • 序言:七十年代末嗅义,一起剝皮案震驚了整個(gè)濱河市屏歹,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌之碗,老刑警劉巖蝙眶,帶你破解...
    沈念sama閱讀 206,013評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異褪那,居然都是意外死亡幽纷,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,205評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門(mén)博敬,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)霹崎,“玉大人,你說(shuō)我怎么就攤上這事冶忱∥补剑” “怎么了境析?”我有些...
    開(kāi)封第一講書(shū)人閱讀 152,370評(píng)論 0 342
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)派诬。 經(jīng)常有香客問(wèn)我劳淆,道長(zhǎng),這世上最難降的妖魔是什么默赂? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 55,168評(píng)論 1 278
  • 正文 為了忘掉前任沛鸵,我火速辦了婚禮,結(jié)果婚禮上缆八,老公的妹妹穿的比我還像新娘曲掰。我一直安慰自己,他們只是感情好奈辰,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,153評(píng)論 5 371
  • 文/花漫 我一把揭開(kāi)白布栏妖。 她就那樣靜靜地躺著,像睡著了一般奖恰。 火紅的嫁衣襯著肌膚如雪吊趾。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 48,954評(píng)論 1 283
  • 那天瑟啃,我揣著相機(jī)與錄音论泛,去河邊找鬼。 笑死蛹屿,一個(gè)胖子當(dāng)著我的面吹牛屁奏,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播错负,決...
    沈念sama閱讀 38,271評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼坟瓢,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了湿颅?” 一聲冷哼從身側(cè)響起载绿,我...
    開(kāi)封第一講書(shū)人閱讀 36,916評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤粥诫,失蹤者是張志新(化名)和其女友劉穎油航,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體怀浆,經(jīng)...
    沈念sama閱讀 43,382評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡谊囚,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,877評(píng)論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了执赡。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片镰踏。...
    茶點(diǎn)故事閱讀 37,989評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖沙合,靈堂內(nèi)的尸體忽然破棺而出奠伪,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 33,624評(píng)論 4 322
  • 正文 年R本政府宣布绊率,位于F島的核電站谨敛,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏滤否。R本人自食惡果不足惜脸狸,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,209評(píng)論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望藐俺。 院中可真熱鬧炊甲,春花似錦、人聲如沸欲芹。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,199評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)耀石。三九已至牵囤,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間滞伟,已是汗流浹背揭鳞。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,418評(píng)論 1 260
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留梆奈,地道東北人野崇。 一個(gè)月前我還...
    沈念sama閱讀 45,401評(píng)論 2 352
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像亩钟,于是被迫代替她去往敵國(guó)和親乓梨。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,700評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容