單細(xì)胞RNA-seq生信分析全流程——第十一篇：擬時(shí)序分析

11.1 前言

單細(xì)胞測(cè)序分析提供生物組織的高分辨率測(cè)量棚赔。因此患民，此類(lèi)技術(shù)可以幫助破譯和理解細(xì)胞異質(zhì)性和生物過(guò)程的動(dòng)態(tài)寸认。相應(yīng)的研究包括量化細(xì)胞命運(yùn)以及識(shí)別驅(qū)動(dòng)該過(guò)程的基因洁奈。然而，由于在經(jīng)典單細(xì)胞 RNA 測(cè)序(scRNA-seq)方案中進(jìn)行測(cè)序時(shí)細(xì)胞會(huì)被破壞栋盹，因此無(wú)法跟蹤它們的發(fā)育情況施逾，例如隨時(shí)間變化的基因表達(dá)譜。因此例获，需要根據(jù)測(cè)量的快照snapshot數(shù)據(jù)來(lái)估計(jì)底層動(dòng)態(tài)過(guò)程汉额。

盡管傳統(tǒng)上樣品是從單個(gè)實(shí)驗(yàn)時(shí)間點(diǎn)采集的，但仍可以觀察到多種細(xì)胞類(lèi)型榨汤。這種多樣性源于生物過(guò)程的異步性質(zhì)蠕搜。因此，可以觀察到一系列的發(fā)育過(guò)程件余。重建發(fā)展過(guò)程是該領(lǐng)域的軌跡推斷（trajectory inference讥脐，TI）的目標(biāo)遭居。這項(xiàng)任務(wù)是通過(guò)根據(jù)發(fā)育過(guò)程對(duì)觀察到的細(xì)胞狀態(tài)進(jìn)行排序來(lái)實(shí)現(xiàn)的。通過(guò)將離散注釋映射到連續(xù)域（即所謂的偽時(shí)間）旬渠，狀態(tài)沿著發(fā)展方向?qū)R俱萍。

偽時(shí)間根據(jù)細(xì)胞在發(fā)育過(guò)程中各自的階段對(duì)細(xì)胞進(jìn)行相對(duì)排列。不太成熟的細(xì)胞分配較小的值告丢，成熟的細(xì)胞分配較大的值枪蘑。例如，在研究骨髓樣本時(shí)岖免，造血干細(xì)胞被指定為低偽時(shí)間岳颇，而紅細(xì)胞被指定為高偽時(shí)間。對(duì)于單細(xì)胞RNA測(cè)序數(shù)據(jù)颅湘，分配是基于細(xì)胞的轉(zhuǎn)錄組圖譜话侧。此外，構(gòu)建通常需要指定整個(gè)過(guò)程開(kāi)始的初始或等效的根細(xì)胞闯参。

11.2 擬時(shí)序的建立

偽時(shí)間構(gòu)建通常遵循一個(gè)常見(jiàn)的工作流程：第一步瞻鹏，將超高維單細(xì)胞數(shù)據(jù)投影到較低維的表示上。這一過(guò)程通過(guò)觀察動(dòng)態(tài)過(guò)程在低維流形上進(jìn)展而得到證實(shí)鹿寨。在實(shí)踐中新博，偽時(shí)間方法可能依賴于主成分或擴(kuò)散成分（例如擴(kuò)散偽時(shí)間 (DPT) 。接下來(lái)脚草，偽時(shí)間是根據(jù)以下原則之一構(gòu)建的赫悄。

首先對(duì)觀察結(jié)果進(jìn)行聚類(lèi)，然后確定這些聚類(lèi)之間的連接馏慨」』矗可以對(duì)簇進(jìn)行排序，從而構(gòu)建偽時(shí)間写隶。今后同诫，我們將這種方法稱為集群方法。經(jīng)典的聚類(lèi)算法包括k-means樟澜，Leiden或?qū)哟尉垲?lèi)。簇可以基于相似性或通過(guò)構(gòu)建最小生成樹(shù)（MST）來(lái)連接叮盘。
圖方法graph approach首先找到觀測(cè)值的低維表示之間的聯(lián)系秩贰。此過(guò)程定義了一個(gè)圖表，基于該圖表定義了集群柔吼，從而定義了排序毒费。例如，PAGA將圖劃分為L(zhǎng)eiden簇并估計(jì)它們之間的連接愈魏。直觀上觅玻，這種方法保留了數(shù)據(jù)的全局拓?fù)湎爰剩瑫r(shí)以較低的分辨率進(jìn)行分析。因此溪厘，提高了計(jì)算效率胡本。
基于流形學(xué)習(xí)的方法Manifold-learning based approaches與集群方法類(lèi)似。然而畸悬，簇之間的連接是通過(guò)使用主曲線或圖形來(lái)估計(jì)基礎(chǔ)軌跡來(lái)定義的侧甫。主曲線找到一條連接高維空間中的細(xì)胞觀察結(jié)果的一維曲線。這種方法的一個(gè)著名代表是Slingshot蹋宦。
概率框架將轉(zhuǎn)移概率分配給有序的細(xì)胞對(duì)披粟。每個(gè)轉(zhuǎn)移概率都量化參考細(xì)胞是另一個(gè)細(xì)胞的祖先的可能性。這些概率定義了用于定義偽時(shí)間的隨機(jī)過(guò)程冷冗。例如守屉，DPT被定義為隨機(jī)游走的連續(xù)狀態(tài)之間的差異。相比之下蒿辙，Palantir將軌跡本身建模為馬爾可夫鏈拇泛。雖然這兩種方法都依賴于概率框架，但它們需要指定根細(xì)胞须板。偽時(shí)間本身是相對(duì)于該細(xì)胞計(jì)算的碰镜。

TI是一個(gè)經(jīng)過(guò)深入研究的領(lǐng)域，提供了豐富的方法习瑰。要應(yīng)用適當(dāng)?shù)姆椒▉?lái)分析單細(xì)胞數(shù)據(jù)集绪颖，首先需要了解生物過(guò)程本身。這種理解尤其包括該過(guò)程的性質(zhì)甜奄，即柠横，例如，它是否是線性的课兄、環(huán)狀的或支化的牍氛。類(lèi)似地，同一數(shù)據(jù)集中的正交過(guò)程限制了適用的TI方法烟阐。為了幫助識(shí)別合適的工具搬俊，dynguidelines[Deconinck et al., 2021]提供了算法及其特征的詳盡概述。

11.3 下游任務(wù)及展望

盡管TI和偽時(shí)間已經(jīng)可以提供有價(jià)值的見(jiàn)解蜒茄，但它們通常充當(dāng)更細(xì)粒度分析的墊腳石唉擂。例如，識(shí)別終態(tài)是一個(gè)可以研究的經(jīng)典生物學(xué)問(wèn)題檀葛。同樣玩祟，可以根據(jù)TI和偽時(shí)間來(lái)識(shí)別譜系分歧和驅(qū)動(dòng)命運(yùn)決定的基因∮炝可以回答哪個(gè)問(wèn)題以及如何找到答案通常是特定于方法的空扎。例如藏鹊，Palantir將終端狀態(tài)識(shí)別為其構(gòu)建的馬爾可夫鏈的吸收狀態(tài)。

軌跡推斷的成功有據(jù)可查转锈，因此盘寡，人們提出了許多方法。然而黑忱，隨著測(cè)序技術(shù)的進(jìn)步宴抚，新的信息來(lái)源變得可用。例如甫煞，ATAC-seq菇曲、CITE-seq和 DOGMA-seq可測(cè)量轉(zhuǎn)錄組以外的其他模式。譜系追蹤和代謝標(biāo)記甚至提供給定細(xì)胞的（可能的）未來(lái)狀態(tài)抚吠。因此常潮，未來(lái)的TI工具將能夠包含更多信息來(lái)更準(zhǔn)確、更穩(wěn)健地估計(jì)軌跡和偽時(shí)間楷力，并允許回答新問(wèn)題喊式。例如，RNA velocity是一種使用未剪接和剪接mRNA來(lái)推斷超越經(jīng)典靜態(tài)信息的定向動(dòng)態(tài)信息的技術(shù)萧朝。

11.4 推斷成人骨髓的偽時(shí)間

為了展示如何構(gòu)建偽時(shí)間并比較不同的偽時(shí)間岔留，我們研究了成人骨髓的數(shù)據(jù)集[Setty et al., 2019]。

11.4.1 環(huán)境設(shè)置

from pathlib import Path

import scanpy as sc

11.4.2 常規(guī)設(shè)置

DATA_DIR = Path("../../data/")
DATA_DIR.mkdir(parents=True, exist_ok=True)

FILE_NAME = DATA_DIR / "bone_marrow.h5ad"

11.4.3 數(shù)據(jù)加載

adata = sc.read(
    filename=FILE_NAME,
    backup_url="https://figshare.com/ndownloader/files/35826944",
)
adata

AnnData object with n_obs × n_vars = 5780 × 27876
    obs: 'clusters', 'palantir_pseudotime', 'palantir_diff_potential'
    var: 'palantir'
    uns: 'clusters_colors', 'palantir_branch_probs_cell_types'
    obsm: 'MAGIC_imputed_data', 'X_tsne', 'palantir_branch_probs'
    layers: 'spliced', 'unspliced'

要構(gòu)建偽時(shí)間检柬，必須對(duì)數(shù)據(jù)進(jìn)行預(yù)處理献联。在這里，我們過(guò)濾掉僅在少數(shù)細(xì)胞（此處至少20個(gè)）中表達(dá)的基因何址。值得注意的是里逆，稍后的偽時(shí)間的構(gòu)造對(duì)于閾值的精確選擇是穩(wěn)健的。在第一次基因過(guò)濾之后用爪，細(xì)胞大小被歸一化原押，并計(jì)數(shù)log1p轉(zhuǎn)換以減少異常值的影響。像往常一樣偎血，我們還識(shí)別和注釋高度可變的基因诸衔。最后，構(gòu)建一個(gè)最近鄰圖颇玷，我們將在此基礎(chǔ)上定義偽時(shí)間署隘。主成分的數(shù)量是根據(jù)解釋的方差來(lái)選擇的。

sc.pp.filter_genes(adata, min_counts=20)
sc.pp.normalize_total(adata)
sc.pp.log1p(adata)
sc.pp.highly_variable_genes(adata)

sc.tl.pca(adata)
sc.pp.neighbors(adata, n_pcs=10)

由細(xì)胞類(lèi)型注釋著色的二維t-SNE表示表明細(xì)胞類(lèi)型很好地聚集在一起亚隙。此外，分化層次是可見(jiàn)的违崇。

sc.pl.scatter(adata, basis="tsne", color="clusters")

11.4.4 擬時(shí)序構(gòu)建

為了計(jì)算擴(kuò)散擬時(shí)間(diffusion pseudotime阿弃，DPT)诊霹，首先需要計(jì)算相應(yīng)的擴(kuò)散圖。

sc.tl.diffmap(adata)

骨髓中的分化層次是眾所周知的渣淳。然而脾还，我們只知道發(fā)育過(guò)程以造血干細(xì)胞的形式開(kāi)始，但不知道我們數(shù)據(jù)集中相應(yīng)簇中的具體細(xì)胞是哪個(gè)細(xì)胞入愧。為了識(shí)別假定的初始細(xì)胞鄙漏，我們研究了各個(gè)擴(kuò)散成分。我們識(shí)別出在一維（在我們的例子中為 3 維）中具有最極端擴(kuò)散成分的干細(xì)胞棺蛛。

# Setting root cell as described above
root_ixs = adata.obsm["X_diffmap"][:, 3].argmin()
sc.pl.scatter(
    adata,
    basis="diffmap",
    color=["clusters"],
    components=[2, 3],
)

adata.uns["iroot"] = root_ixs

sc.tl.dpt(adata)

不同的偽時(shí)間方法給出不同的結(jié)果怔蚌。有時(shí)，一個(gè)偽時(shí)間可以更準(zhǔn)確地捕捉潛在的發(fā)展過(guò)程旁赊。在這里桦踊，我們將剛剛計(jì)算的DPT與預(yù)先計(jì)算的Palantir偽時(shí)間進(jìn)行比較。比較不同偽時(shí)間的一種選擇是對(duì)數(shù)據(jù)的低維嵌入（此處為 t-SNE）進(jìn)行著色终畅。在這里籍胯，與所有其他細(xì)胞類(lèi)型相比，CLP簇中的DPT極高离福。相比之下杖狼，Palantir假時(shí)間隨著發(fā)育成熟而不斷增加。

sc.pl.scatter(
    adata,
    basis="tsne",
    color=["dpt_pseudotime", "palantir_pseudotime"],
    color_map="gnuplot2",
)

我們可以研究分配給每個(gè)細(xì)胞類(lèi)型簇的偽時(shí)間值的分布妖爷，而不是對(duì)數(shù)據(jù)的低維表示進(jìn)行著色蝶涩。該表示再次表明CLP簇在DPT情況下形成異常值。此外赠涮，HSC_1和HSC_2等簇包含多個(gè)偽時(shí)間增加的細(xì)胞子寓。這些夸大的值與我們先前的生物學(xué)知識(shí)形成鮮明對(duì)比，即這些簇構(gòu)成了發(fā)育過(guò)程的開(kāi)始笋除。

sc.pl.violin(
    adata,
    keys=["dpt_pseudotime", "palantir_pseudotime"],
    groupby="clusters",
    rotation=45,
    order=[
        "HSC_1",
        "HSC_2",
        "Precursors",
        "Ery_1",
        "Ery_2",
        "Mono_1",
        "Mono_2",
        "CLP",
        "DCs",
        "Mega",
    ],
)

考慮到這些觀察和關(guān)于骨髓發(fā)育的先驗(yàn)知識(shí)斜友，我們認(rèn)為可以繼續(xù)使用Palantir擬時(shí)間。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末垃它，一起剝皮案震驚了整個(gè)濱河市鲜屏，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌国拇，老刑警劉巖洛史，帶你破解...
沈念sama閱讀 206,013評(píng)論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異酱吝，居然都是意外死亡也殖，警方通過(guò)查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,205評(píng)論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)忆嗜，“玉大人己儒，你說(shuō)我怎么就攤上這事±粒” “怎么了闪湾？”我有些...
開(kāi)封第一講書(shū)人閱讀 152,370評(píng)論 0贊 342
道士緝兇錄：失蹤的賣(mài)姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)绩卤。經(jīng)常有香客問(wèn)我途样，道長(zhǎng)，這世上最難降的妖魔是什么濒憋？我笑而不...
開(kāi)封第一講書(shū)人閱讀 55,168評(píng)論 1贊 278
?港島之戀（遺憾婚禮）
正文為了忘掉前任何暇，我火速辦了婚禮，結(jié)果婚禮上跋炕，老公的妹妹穿的比我還像新娘赖晶。我一直安慰自己，他們只是感情好辐烂，可當(dāng)我...
茶點(diǎn)故事閱讀 64,153評(píng)論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布遏插。她就那樣靜靜地躺著，像睡著了一般纠修。火紅的嫁衣襯著肌膚如雪胳嘲。梳的紋絲不亂的頭發(fā)上，一...
開(kāi)封第一講書(shū)人閱讀 48,954評(píng)論 1贊 283
城市分裂傳說(shuō)
那天扣草，我揣著相機(jī)與錄音了牛，去河邊找鬼。笑死辰妙，一個(gè)胖子當(dāng)著我的面吹牛鹰祸，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播密浑，決...
沈念sama閱讀 38,271評(píng)論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼蛙婴，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來(lái)了尔破？” 一聲冷哼從身側(cè)響起街图，我...
開(kāi)封第一講書(shū)人閱讀 36,916評(píng)論 0贊 259
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎懒构，沒(méi)想到半個(gè)月后餐济，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 43,382評(píng)論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡胆剧，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 35,877評(píng)論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年絮姆，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 37,989評(píng)論 1贊 333
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡滚朵，死狀恐怖冤灾，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情辕近，我是刑警寧澤，帶...
沈念sama閱讀 33,624評(píng)論 4贊 322
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布匿垄，位于F島的核電站移宅，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏椿疗。R本人自食惡果不足惜漏峰，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,209評(píng)論 3贊 307
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望届榄。院中可真熱鬧浅乔，春花似錦、人聲如沸铝条。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 30,199評(píng)論 0贊 19
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)班缰。三九已至贤壁，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間埠忘，已是汗流浹背脾拆。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 31,418評(píng)論 1贊 260
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留莹妒，地道東北人名船。一個(gè)月前我還...
沈念sama閱讀 45,401評(píng)論 2贊 352
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像旨怠，于是被迫代替她去往敵國(guó)和親渠驼。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,700評(píng)論 2贊 345