這篇文獻(xiàn)是今年12月份發(fā)的柠掂,也就是一個(gè)星期前,是劉小樂(lè)教授推薦閱讀的
推特地址:https://twitter.com/XShirleyLiu/status/1336882218044624896
本篇文章講解了單細(xì)胞RNA-seq的一般分析流程费韭,當(dāng)然文中還推薦了分析的課程:單細(xì)胞課程茧球,這個(gè)課程講的還是比較基礎(chǔ)的,比較適合初學(xué)者入坑
《Tutorial: guidelines for the computational analysis of single-cell RNA sequencing data》
Introduction
目前基于單細(xì)胞測(cè)序主要有兩種建庫(kù)技術(shù)星持,一種是主打細(xì)胞數(shù)量的10X platform抢埋,該技術(shù)的特點(diǎn)是提出了unique molecular identifiers(UMI),即每一個(gè)細(xì)胞對(duì)應(yīng)唯一的barcode作為區(qū)分于其他細(xì)胞的標(biāo)識(shí)符督暂;簡(jiǎn)而言之就是測(cè)到的每一條reads上都帶有唯一的barcode揪垄,一個(gè)barcode對(duì)應(yīng)一個(gè)細(xì)胞,這樣我們就可以知道測(cè)到的reads分別來(lái)自于哪一個(gè)細(xì)胞逻翁,而UMI即代表mapping到某一個(gè)barcode(細(xì)胞)上的reads數(shù)
另外一個(gè)是主打基因的smart-seq饥努,該方法測(cè)的是5'到3'端的mRNA,即容易測(cè)到全長(zhǎng)的mRNA八回,但是采用該技術(shù)建庫(kù)分離的細(xì)胞數(shù)目較少
scRNA-seq分析的主要組成部分是表達(dá)矩陣酷愧,它表示每個(gè)細(xì)胞中每個(gè)基因的轉(zhuǎn)錄本數(shù)量;因此scRNA分析流程可以分為兩類:1.產(chǎn)生表達(dá)矩陣缠诅;2.分析表達(dá)矩陣
在特定的情況下溶浴,研究人員必須首先組合來(lái)自多個(gè)實(shí)驗(yàn)所產(chǎn)生的表達(dá)矩陣以獲得組合的表達(dá)矩陣,并針對(duì)測(cè)序深度管引,細(xì)胞周期階段和其他混雜因素進(jìn)行校正士败。 接下來(lái),將數(shù)據(jù)可視化褥伴,并通過(guò)聚類谅将,偽時(shí)間和差異表達(dá)分析確定生物學(xué)上有意義的模式漾狼。 最后,將結(jié)果與文獻(xiàn)和現(xiàn)有數(shù)據(jù)集進(jìn)行比較戏自。
Quality control
那么質(zhì)控的第一步就是去除一些不太可能代表單個(gè)細(xì)胞的barcode邦投,最簡(jiǎn)單的方法就是對(duì)于每一個(gè)barcode,設(shè)置UMI的最小閾值擅笔,小于該閾值的將其舍去
其次要考慮的是檢測(cè)到的基因數(shù)量,線粒體基因組轉(zhuǎn)錄出來(lái)的mRNA如果比例過(guò)高屯援,那么意味著同樣測(cè)序深度猛们,其他基因分?jǐn)偟降膔eads比例將會(huì)減少;一般針對(duì)這種情況狞洋,我們需要根據(jù)不同器官弯淘,不同技術(shù)路線來(lái)確定線粒體mRNA比例的閾值
最后還應(yīng)該考慮或有一些barcode會(huì)對(duì)應(yīng)于多個(gè)細(xì)胞,這種情況我們稱之為doublets吉懊,我們可以通過(guò)一些軟件進(jìn)行檢測(cè)庐橙,例如scrublet和DoubletFinder。這些軟件對(duì)你的數(shù)據(jù)模擬可能出現(xiàn)的雙峰借嗽,從而判斷哪一些barcode對(duì)應(yīng)于多個(gè)細(xì)胞
歸一化
所謂歸一化就是計(jì)算與樣品的測(cè)序深度相關(guān)的量(通常稱為“size factor”)态鳖,我們可以利用scran包對(duì)每一個(gè)細(xì)胞來(lái)估計(jì)(size factor),還有就是利用spike-in RNA或者管家基因來(lái)估算size factor
還有一個(gè)問(wèn)題就是在單細(xì)胞表達(dá)矩陣中會(huì)出現(xiàn)很多零表達(dá)或者低表達(dá)的基因恶导,這種情況的歸一化方式與高表達(dá)基因的不一樣浆竭。例如:SCnorm 常常用于低通量,高深度的數(shù)據(jù)惨寿,而sctransform 常常用于高通量邦泄,低深度的數(shù)據(jù)。最近在2019年又推出了基于貝葉斯方法進(jìn)行標(biāo)準(zhǔn)化和推斷單細(xì)胞數(shù)據(jù)的count裂垦,稱之為bayNorm顺囊,目的是通過(guò)mRNA捕獲的影響來(lái)推算潛在的基于表達(dá)譜
批次效應(yīng)矯正
批次效應(yīng)是由非生物因素(例如實(shí)驗(yàn)時(shí)間,進(jìn)行實(shí)驗(yàn)的人或試劑的差異)的差異引起的蕉拢。
在bulk-seq中特碳,去除批次效應(yīng)可以用ComBat進(jìn)行矯正,其原理是利用線性模型分開(kāi)生物學(xué)效應(yīng)項(xiàng)和批次效應(yīng)項(xiàng)企量,可閱讀關(guān)于批次效應(yīng)的若干問(wèn)題
但是這種方式并不適合與單細(xì)胞數(shù)據(jù)测萎,因?yàn)樵嫉膯渭?xì)胞表達(dá)矩陣中,我們無(wú)法得知確切的細(xì)胞類型届巩,不像bulk-seq硅瞧,我們可以提前得知每個(gè)樣品的處理方式(在單細(xì)胞中,不同的處理方式可以理解為不同的細(xì)胞類型)恕汇。
去除單細(xì)胞批次效應(yīng)影響的軟件有mnnCorrect腕唧,該軟件利用不同批次中的細(xì)胞之間的相互最鄰近鄰居來(lái)確定事后批次之間的共同生物學(xué)現(xiàn)象或辖,這種方法經(jīng)過(guò)改進(jìn)可以為Seurat的 canonical correlation analysis (CCA)找到“錨點(diǎn)”。mnnCorrect使用PCA從基因表達(dá)矩陣中刪除了批處理效應(yīng)枣接,而CCA則是將細(xì)胞投射到一個(gè)公共的基因相關(guān)空間中并對(duì)該空間進(jìn)行校正颂暇。
Imputation and smoothing
許多歸一化策略不會(huì)更改零表達(dá)的值,因此很容易假設(shè)它們代表丟失的值但惶,原則上耳鸯,刪除零可以降低噪音并使其更容易識(shí)別數(shù)據(jù)的基礎(chǔ)結(jié)構(gòu)(例如,基因與基因的相關(guān)性膀曾,細(xì)胞簇县爬,標(biāo)記基因或發(fā)育軌跡)。已經(jīng)開(kāi)發(fā)了一些工具來(lái)“估算” scRNA-seq數(shù)據(jù)中的零值添谊,包括scImpute财喳,DrImpute和SAVER,這些工具都依賴于在數(shù)據(jù)中尋找可用于預(yù)測(cè)缺失值表達(dá)水平的結(jié)構(gòu)
細(xì)胞周期分析
如果樣品中包含細(xì)胞周期循環(huán)的細(xì)胞斩狱,則可能會(huì)導(dǎo)致生物學(xué)中混雜因素耳高,可能需要將其去除以進(jìn)行下游分析。有兩種廣泛使用的用于識(shí)別細(xì)胞周期階段的工具:Cyclone和Seurat
Cyclone軟件根據(jù)基因在不同細(xì)胞的表達(dá)情況進(jìn)行細(xì)胞時(shí)期的分配(G1 / S和G2 / M時(shí)期)
這兩種工具都將使用通用線性模型來(lái)回歸差異所踊。此外泌枪,Seurat提供了一個(gè)選項(xiàng),可以只去除G1 / S和G2 / M中細(xì)胞之間的差異污筷,同時(shí)保留周期和非周期細(xì)胞之間的差異工闺。
特征選擇
在scRNA-seq實(shí)驗(yàn)中,每個(gè)基因代表一個(gè)維度瓣蛀,但是陆蟆,許多基因不會(huì)在給定的細(xì)胞或細(xì)胞類型中表達(dá),并且測(cè)到的細(xì)胞基因總數(shù)有時(shí)<1,000個(gè)基因惋增。
特征選擇可識(shí)別出相對(duì)于技術(shù)噪聲而言具有最強(qiáng)生物信號(hào)的基因叠殷,采用特征選取,并選取信息最豐富的基因诈皿,可以減少維數(shù)的影響林束,降低噪音并簡(jiǎn)化分析。scRNA-seq數(shù)據(jù)中的特征選擇有兩個(gè)復(fù)雜因素:(i)影響每個(gè)基因的技術(shù)噪聲取決于該基因的平均表達(dá)量稽亏,并且(ii)對(duì)于小樣本量很難估計(jì)方差壶冒。用于特征選擇的最廣泛使用的策略是考慮高度可變的基因(即方差比預(yù)期高的基因)。比方說(shuō)Seurat之類的工具使用非參數(shù)方法截歉,通過(guò)經(jīng)驗(yàn)擬合方差和均值表達(dá)之間的關(guān)系來(lái)識(shí)別高度可變的基因
降維和可視化
大多數(shù)scRNA-seq數(shù)據(jù)集都很復(fù)雜胖腾,其結(jié)構(gòu)無(wú)法被兩個(gè)或三個(gè)主要成分捕獲,當(dāng)前的最佳的降維方法是均勻流形逼近和降維投影(UMAP),該算法使用一個(gè)單元間最近鄰網(wǎng)絡(luò)來(lái)近似數(shù)據(jù)的拓?fù)湎套鳎缓蠊烙?jì)最能保留該結(jié)構(gòu)的低維數(shù)據(jù)結(jié)構(gòu)锨阿,然后嵌入, UMAP能夠更好地保存數(shù)據(jù)高維空間結(jié)構(gòu)记罚,因此可以在很大程度上取代t分布隨機(jī)鄰近嵌入(t-SNE)
無(wú)監(jiān)督聚類
scRNA-seq數(shù)據(jù)的無(wú)監(jiān)督聚類至關(guān)重要墅诡,因?yàn)樗梢宰R(shí)別具有相似表達(dá)譜的細(xì)胞群。這些組中的某些可以代表不同的細(xì)胞類型桐智,而其他組則可以被視為中間細(xì)胞狀態(tài)末早,因此可以采用 k-means algorithm, Louvain algorithm進(jìn)行無(wú)監(jiān)督聚類
偽時(shí)間分析
什么是偽時(shí)間分析酵使,我們知道荐吉,一個(gè)組織或者一個(gè)和器官內(nèi)有許多種細(xì)胞類型,誘導(dǎo)蔡剛發(fā)育口渔,有的已經(jīng)發(fā)育成熟,并且存在著一種細(xì)胞類型向另外一種細(xì)胞類型發(fā)育的過(guò)程穿撮。
那么基于單細(xì)胞表達(dá)譜缺脉,推斷出哪一些細(xì)胞類型向另外哪一些細(xì)胞類型發(fā)育的軌跡我們稱之為偽時(shí)間,有別于真時(shí)間的是偽時(shí)間是由于同一時(shí)空下細(xì)胞發(fā)育進(jìn)度的不同而導(dǎo)致的悦穿,并不是真正的有時(shí)間差攻礼。
大多數(shù)工具采用以下兩種方法之一。第一種方法是使用降維技術(shù)來(lái)識(shí)別細(xì)胞所處的低維“流形”栗柒,并且利用細(xì)胞與細(xì)胞間的連接圖來(lái)表示發(fā)育軌跡礁扮。使用此算法的軟件包括Monocle和DPT
第二種方法是利用無(wú)監(jiān)督的聚類方法先將不同的細(xì)胞類型聚類,然后連接每一個(gè)cell cluster瞬沦,再把這些cell cluster投影到每一個(gè)分支上
還有一種是利用RNA降解速率來(lái)推斷細(xì)胞發(fā)育軌跡太伊,RNAvelocity就是利用這個(gè)原理,其原理大致為傳送門(mén)
差異表達(dá)
在單細(xì)胞差異表達(dá)顯著性檢驗(yàn)中逛钻,往往利用非參數(shù)non-parametric Wilcoxon test做檢驗(yàn)僚焦。對(duì)于每一個(gè)差異表達(dá)比較,當(dāng)前的選擇是計(jì)算每個(gè)細(xì)胞類型某基因的平均表達(dá)量曙痘,類似于bulk-seq芳悲,將不同的細(xì)胞類型看作是bulk-seq的不同樣本,比較不同細(xì)胞類型之間的差異表達(dá)
比較與合并數(shù)據(jù)集
隨著scRNA-seq數(shù)據(jù)量的不斷增長(zhǎng)边坤,一項(xiàng)重要的挑戰(zhàn)是確定如何最佳地組合數(shù)據(jù)集名扛。批處理效應(yīng)是組合來(lái)自不同實(shí)驗(yàn)室的分析時(shí)的主要挑戰(zhàn)
當(dāng)給定一個(gè)或多個(gè)具有已知細(xì)胞類型的數(shù)據(jù)集時(shí),scmap會(huì)建立一個(gè)小的索引茧痒。給定新的數(shù)據(jù)集后肮韧,scmap可以基于單細(xì)胞轉(zhuǎn)錄表達(dá)譜快速識(shí)別在參考數(shù)據(jù)中哪一個(gè)細(xì)胞類型最接近的給定的新細(xì)胞。此外,scmap可以預(yù)測(cè)在參考數(shù)據(jù)中相鄰最近的細(xì)胞惹苗,這意味著在做偽時(shí)間分析時(shí)可以分配偽時(shí)間的值殿较,而不是用離散的cell cluster標(biāo)簽來(lái)推算
另一種方法是MetaNeighbor,目的是測(cè)試多個(gè)scRNA-seq數(shù)據(jù)集之間的細(xì)胞類型是否一致桩蓉。 通過(guò)計(jì)算整個(gè)數(shù)據(jù)集之間的細(xì)胞間Spearman相關(guān)性淋纲,MetaNeighbor可以驗(yàn)證細(xì)胞標(biāo)記在多個(gè)實(shí)驗(yàn)中的可重復(fù)性。