Single cell RNA-seq data analysis with R視頻學(xué)習(xí)筆記（八）

第八講：?jiǎn)渭?xì)胞軌跡推斷分析

視頻地址：https://www.youtube.com/watch?v=XmHDexCtjyw&list=PLjiXAZO27elC_xnk7gVNM85I2IQl5BEJN&index=10

練習(xí)地址：https://github.com/NBISweden/excelerate-scRNAseq/blob/master/session-trajectories/session-trajectories.md

軌跡推斷分析可以幫助我們理解細(xì)胞狀態(tài)的改變的過(guò)程跺株，尤其是在細(xì)胞分化方面呵扛。

上圖眼熟吧简珠？是單細(xì)胞分析的一個(gè)經(jīng)典的流程桃序。做完聚類(lèi)后恃逻，如果需要你可以做軌跡分析，通過(guò)軌跡分析你可以做差異基因的分析苍苞，從而得到細(xì)胞在分化過(guò)程中不同狀態(tài)下的基因表達(dá)差異贷洲。當(dāng)然中間的流程是經(jīng)典流程，你也可以根據(jù)你的需要從不同的步驟跳到軌跡分析围俘。

那么實(shí)驗(yàn)時(shí)間點(diǎn)的這個(gè)"time"砸讳，和發(fā)育的“time”有什么不一樣。前者就是我們平時(shí)說(shuō)的“時(shí)間”界牡，而后者說(shuō)的是一種“擬時(shí)間”（pseudotime）簿寂。細(xì)胞按照擬時(shí)間的順序來(lái)進(jìn)行分化。上圖中的坐標(biāo)舉的例子是宿亡，橫坐標(biāo)你用一種外界刺激使得細(xì)胞進(jìn)行分化常遂，那么縱坐標(biāo)就是細(xì)胞分化的進(jìn)程。需要注意的是挽荠，即便你在每一步都是homogenous的細(xì)胞群克胳，你的所有細(xì)胞的分化速度都是不一樣的。比如上圖的9h圈匆，盡管很多細(xì)胞已經(jīng)完全的分化了漠另，但是仍然有少數(shù)細(xì)胞處在中間態(tài)，和完全沒(méi)有分化的狀態(tài)跃赚。這也就是“非同步化”笆搓。所以，在任何一個(gè)節(jié)點(diǎn)来累，你的所有的細(xì)胞個(gè)體都代表“這個(gè)瞬間”的分化狀態(tài)砚作。

那是每個(gè)人都需要進(jìn)行軌跡推斷分析嗎？當(dāng)然不是嘹锁。你需要確認(rèn)的是你的dataset里是否涉及分化過(guò)程葫录，或者你的細(xì)胞是否有“中間態(tài)”。比如：骨髓里的細(xì)胞领猾，里面有很多“progenitor cells”米同，你就需要進(jìn)行軌跡分析骇扇。再比如說(shuō)你的樣品來(lái)自血液，血液里都是已經(jīng)分化成熟的細(xì)胞了面粮，基本上不用進(jìn)行軌跡分析了少孝。需要注意的是：有時(shí)候軌跡分析的結(jié)果在生物學(xué)上并沒(méi)有意義！所以最好是你已知一部分的分化軌跡熬苍，或者知道細(xì)胞在某一狀態(tài)的時(shí)候會(huì)表達(dá)什么基因稍走。

現(xiàn)在有很多種方法可以進(jìn)行軌跡分析。請(qǐng)注意柴底，不同的軌跡分析軟件所對(duì)應(yīng)的降維方法是不一樣的婿脸。如上圖所示。上圖沒(méi)有列出所有的降維方法柄驻，只是舉一些例子狐树。

在講解軌跡分析方法之前，主講人想先介紹兩個(gè)之前沒(méi)提到過(guò)的降維方法：第一種鸿脓，ICA：

如果你用monocle v1的話抑钟，就是ICA的方法。這種方法與PCA非常相似野哭。區(qū)別是：ICA是分解你的data在塔，PCA則是把highest variation分配到highest component里。

現(xiàn)在來(lái)詳細(xì)的看一下ICA到底是干什么的拨黔。上圖所示心俗，在你的樣品里，包含有很多種生物signal蓉驹，可能有受體信號(hào)城榛、可能有細(xì)胞活化和增殖的信號(hào)、可能有細(xì)胞發(fā)育期間的Marker态兴。但是當(dāng)你把這些信號(hào)都combine的時(shí)候狠持，就像右圖。ICA做的事就是分解你的data瞻润，使得你可以看到原始的生物信號(hào)喘垂。

ICA是怎么工作的呢？上圖左邊是PCA的圖绍撞，PCA是把highest variation找出來(lái)正勒。作為第一主成分。而ICA是從你的data里找出最獨(dú)立的成分傻铣。但是ICA也有缺點(diǎn)：ICA假設(shè)它所找出來(lái)的生物信號(hào)都是相互獨(dú)立的章贞。另一個(gè)就是每個(gè)信號(hào)的來(lái)源都是非高斯分布。這里不好理解非洲，舉個(gè)例子：在教室里放4個(gè)麥克風(fēng)鸭限，然后所有人在說(shuō)話的時(shí)候蜕径，我們需要區(qū)分出究竟誰(shuí)在說(shuō)話。ICA可以分解出每一個(gè)人的聲音败京。這些聲音就是非高斯分布的兜喻。而在生物信號(hào)里，大部分的情況下赡麦，信號(hào)來(lái)源都是高斯分布的朴皆。即便是對(duì)于單個(gè)細(xì)胞來(lái)說(shuō)，你也很難說(shuō)是高斯分布泛粹，還是非高斯分布车荔。

ICA是一個(gè)線性降維方法∑莅猓可以分解你data里的不同生物信號(hào)來(lái)源，這種降維方法對(duì)后面的軌跡分析比較有利族吻，它可以分辨出哪個(gè)信號(hào)先出現(xiàn)帽借，哪個(gè)信號(hào)后出現(xiàn)。但是這種方法有時(shí)候在分析單細(xì)胞數(shù)據(jù)的時(shí)候得到的結(jié)果并不真實(shí)超歌。而且ICA默認(rèn)的是所有的信號(hào)來(lái)源是同等重要的砍艾，但事實(shí)并不是。

下一個(gè)主講人想講的是另一種之前沒(méi)提到的降維方法巍举，diffusion maps脆荷。

diffusion maps是一種非線性降維方法。它是基于計(jì)算“probability”進(jìn)行工作的懊悯。舉個(gè)例子：從點(diǎn)1到點(diǎn)6蜓谋，你可以選擇一條路徑1>2>6。這就是2步炭分。你也可以選擇3步桃焕，比如1>4>5>6和1>4>7>6。它計(jì)算的是“可能性”捧毛。

簡(jiǎn)單的來(lái)說(shuō)：為了把可能性轉(zhuǎn)化成距離观堂，DM計(jì)算B到C的可能性，再計(jì)算A到C的可能性刊愚，根據(jù)公式事期，如果兩種可能性差不多大会通，那么它們的差值就趨近于0。說(shuō)明A到B的過(guò)程可以通過(guò)C來(lái)很好的連接起來(lái)胰坟。

在了解了兩種降維方式之后，我們可以來(lái)看如何建立細(xì)胞之間的關(guān)系泞辐。從而我們可以知道我們應(yīng)該從哪里開(kāi)始建立軌跡腕铸，又在哪里結(jié)束惜犀。一種方法叫做“MST”（翻譯過(guò)來(lái)叫：最小生成樹(shù)）。

先來(lái)舉個(gè)簡(jiǎn)單的例子狠裹，上圖里有很多個(gè)點(diǎn)虽界，每一個(gè)點(diǎn)之間的距離你都可以量的出來(lái)√尾ぃ或者你用上面提到的diffusion map可以計(jì)算出每個(gè)點(diǎn)之間的“可能性”莉御。然后你可以把每一個(gè)點(diǎn)連線，黑色的粗線就是最小生成樹(shù)俗冻。怎么理解呢礁叔？為什么說(shuō)是最小生成樹(shù)呢？這個(gè)“最小”怎么理解迄薄？我們要找到一個(gè)“把所有的點(diǎn)連在一起時(shí)琅关，相加的數(shù)最小”的方式。（把這句加粗的句子多讀幾遍讥蔽，就理解了）另外加一句涣易，如果你分析前就知道你的發(fā)育起始點(diǎn)，或者例如干細(xì)胞冶伞，那就會(huì)相對(duì)容易很多新症。

需要注意的是：MST沒(méi)有循環(huán)！所以如果你研究的生物過(guò)程是細(xì)胞增殖（周期）响禽，那你就不能用這個(gè)方法徒爹。

第二個(gè)方法建立細(xì)胞軌跡，這個(gè)方法就是現(xiàn)在monocle 2使用的方法芋类。叫做反向圖嵌入隆嗅。

為什么使用這個(gè)方法呢？上圖侯繁，A比如說(shuō)是一個(gè)最小生成樹(shù)得到的軌跡推斷榛瓮。如果你把其中一個(gè)點(diǎn)的位置稍稍挪一下，像B圖那樣巫击，你會(huì)發(fā)現(xiàn)細(xì)胞軌跡完全就改變了禀晓！因?yàn)樽钚∩蓤D非常依賴(lài)于每一個(gè)點(diǎn)。所以這個(gè)RGE的方法是像C圖一樣坝锰，先把你的細(xì)胞或者樣品做cluster粹懒，根據(jù)這些細(xì)胞的平均值來(lái)畫(huà)軌跡圖。

上圖顯示的是RGE的一個(gè)工作原理圖顷级。從左上角的紅點(diǎn)那個(gè)圖看起凫乖，你有很多個(gè)點(diǎn)在多維的空間里。然后你用各種方法做了降維（第一行中間圖）。之后根據(jù)一些clustering來(lái)假設(shè)一個(gè)軌跡帽芽。接下來(lái)（第二行右圖）RGE所做的事就是：由于有些點(diǎn)離這個(gè)假設(shè)的軌跡比較遠(yuǎn)删掀，它就把每一個(gè)點(diǎn)分配到離點(diǎn)最近的軌跡的部分上。然后更新中心點(diǎn)导街，將二維的軌跡投影到多維空間里披泪，比較是否和原始的數(shù)據(jù)相吻合，如果不是搬瑰，它會(huì)再回到降維后的那一步款票，循環(huán)這個(gè)過(guò)程。這個(gè)過(guò)程實(shí)際上很像前面講降維里的tSNE和UMAP的循環(huán)泽论。直到這個(gè)細(xì)胞軌跡與原始data非常符合艾少。這時(shí)你可以選擇這個(gè)軌跡的root，這樣你就可以定義你的“擬時(shí)間”或者是“發(fā)育軌跡”了翼悴。另外根據(jù)你的軌跡圖里的“分叉”缚够，你還可以定義你的cell fate。

根據(jù)RGE的idea鹦赎，這兩年又發(fā)展不少新的方法谍椅。你不需要掌握這么多方法，會(huì)一個(gè)钙姊，會(huì)用就行了。

這是Monocle v3的一個(gè)工作流程埂伦。首先拿到你的dataset> 標(biāo)準(zhǔn)化你的data > 降維> 聚類(lèi) > 建立你的tree（擬時(shí)間）> 差異基因分析煞额。

現(xiàn)在介紹一個(gè)新的模型：RNA velocity。有道翻譯：RNA速度沾谜。這個(gè)模型是基于生物學(xué)概念的一個(gè)模型膊毁。是一個(gè)基因表達(dá)的軌跡推斷模型。

學(xué)生物的都知道基跑，mRNA剛轉(zhuǎn)錄出來(lái)的時(shí)候婚温，是沒(méi)有經(jīng)過(guò)剪切的。里面有內(nèi)含子媳否。剪切后栅螟，你會(huì)得到spliced mRNA。這是編碼蛋白的篱竭。你同時(shí)還會(huì)有一些mRNA降解力图。這個(gè)模型可以看什么？上圖右邊的6張圖掺逼，每一個(gè)點(diǎn)是一個(gè)細(xì)胞吃媒，你可以比較在擬時(shí)間線上的一個(gè)瞬時(shí)的點(diǎn)，“經(jīng)過(guò)剪切的mRNA”和“未經(jīng)剪切的mRNA”哪一個(gè)要更提前。

來(lái)看一個(gè)更為直接的例子：上圖紅色代表未剪切的mRNA赘那，藍(lán)色代表剪切的mRNA刑桑，兩個(gè)群分別代表你所有的細(xì)胞的兩個(gè)基因的表達(dá)情況。根據(jù)生物學(xué)概念來(lái)推斷募舟，你的這些細(xì)胞的狀態(tài)應(yīng)該是從左往右的祠斧。所以這樣一來(lái)，你就知道你的軌跡應(yīng)該是從哪里開(kāi)始了胃珍。這個(gè)模型可以讓你定義你的軌跡的“起點(diǎn)”梁肿、“終點(diǎn)”和“分支”。

這個(gè)模型的好處還有一個(gè)：它可以建立一個(gè)循環(huán)的軌跡觅彰。

下面總結(jié)一下：

在實(shí)際的實(shí)驗(yàn)中吩蔑，多維空間里的距離常常反映了細(xì)胞群之間的基因表達(dá)差異，而不是真正意義上的“時(shí)間”填抬。所以才把這一個(gè)概念稱(chēng)為“擬時(shí)間”烛芬。你的樣品里需要包含一個(gè)連續(xù)的細(xì)胞狀態(tài)。如果你的細(xì)胞群是完全獨(dú)立的飒责、完全不同的赘娄，有可能你會(huì)得到錯(cuò)誤的結(jié)果，或者得到一個(gè)不太好的軌跡圖宏蛉。第三遣臼，如果你是研究細(xì)胞分化過(guò)程，最好設(shè)計(jì)多個(gè)實(shí)驗(yàn)取材的時(shí)間點(diǎn)拾并。

最后編輯于：2020.08.09 04:43:59

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

禁止轉(zhuǎn)載揍堰，如需轉(zhuǎn)載請(qǐng)通過(guò)簡(jiǎn)信或評(píng)論聯(lián)系作者。

人面猴
序言：七十年代末嗅义，一起剝皮案震驚了整個(gè)濱河市屏歹，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌之碗，老刑警劉巖蝙眶，帶你破解...
沈念sama閱讀 206,013評(píng)論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異褪那，居然都是意外死亡幽纷，警方通過(guò)查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,205評(píng)論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)博敬，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)霹崎，“玉大人，你說(shuō)我怎么就攤上這事冶忱∥补剑” “怎么了境析？”我有些...
開(kāi)封第一講書(shū)人閱讀 152,370評(píng)論 0贊 342
道士緝兇錄：失蹤的賣(mài)姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)派诬。經(jīng)常有香客問(wèn)我劳淆，道長(zhǎng)，這世上最難降的妖魔是什么默赂？我笑而不...
開(kāi)封第一講書(shū)人閱讀 55,168評(píng)論 1贊 278
?港島之戀（遺憾婚禮）
正文為了忘掉前任沛鸵，我火速辦了婚禮，結(jié)果婚禮上缆八，老公的妹妹穿的比我還像新娘曲掰。我一直安慰自己，他們只是感情好奈辰，可當(dāng)我...
茶點(diǎn)故事閱讀 64,153評(píng)論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布栏妖。她就那樣靜靜地躺著，像睡著了一般奖恰。火紅的嫁衣襯著肌膚如雪吊趾。梳的紋絲不亂的頭發(fā)上，一...
開(kāi)封第一講書(shū)人閱讀 48,954評(píng)論 1贊 283
城市分裂傳說(shuō)
那天瑟啃，我揣著相機(jī)與錄音论泛，去河邊找鬼。笑死蛹屿，一個(gè)胖子當(dāng)著我的面吹牛屁奏，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播错负，決...
沈念sama閱讀 38,271評(píng)論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼坟瓢，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來(lái)了湿颅？” 一聲冷哼從身側(cè)響起载绿，我...
開(kāi)封第一講書(shū)人閱讀 36,916評(píng)論 0贊 259
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤粥诫，失蹤者是張志新（化名）和其女友劉穎油航，沒(méi)想到半個(gè)月后，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體怀浆，經(jīng)...
沈念sama閱讀 43,382評(píng)論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡谊囚，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 35,877評(píng)論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了执赡。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片镰踏。...
茶點(diǎn)故事閱讀 37,989評(píng)論 1贊 333
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖沙合，靈堂內(nèi)的尸體忽然破棺而出奠伪，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 33,624評(píng)論 4贊 322
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布绊率，位于F島的核電站谨敛，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏滤否。R本人自食惡果不足惜脸狸，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,209評(píng)論 3贊 307
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望藐俺。院中可真熱鬧炊甲，春花似錦、人聲如沸欲芹。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 30,199評(píng)論 0贊 19
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)耀石。三九已至牵囤，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間滞伟，已是汗流浹背揭鳞。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 31,418評(píng)論 1贊 260
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留梆奈，地道東北人野崇。一個(gè)月前我還...
沈念sama閱讀 45,401評(píng)論 2贊 352
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像亩钟，于是被迫代替她去往敵國(guó)和親乓梨。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,700評(píng)論 2贊 345

Single cell RNA-seq data analysis with R視頻學(xué)習(xí)筆記（八）

推薦閱讀更多精彩內(nèi)容