這篇文章的目的是為了幫助理解Seurat在單細胞轉(zhuǎn)錄組分析中可以做哪些事,并且對整體的數(shù)據(jù)分析流程有一個整體的認識。并不包含代碼洪己。
轉(zhuǎn)載請注明出處
1.單細胞測序分析的整體流程是怎樣的
以10x genomics為例
單細胞轉(zhuǎn)錄組分析流程
barcodes.tsv.gz : 包含barcodes信息
features.tsv.gz : 包含的是基因的信息
matrix.mtx.gz : 對于每一個barcodes而言务冕,對每一個細胞表達的信息
但是Cell Ranger的質(zhì)控并不嚴格,所以仍需要一步數(shù)據(jù)質(zhì)控鉴未,去過濾低質(zhì)量細胞和低豐度基因。
2.Seurat能做什么
首先鸠姨,在這個流程圖中Seurat能進行分析的部分有“數(shù)據(jù)質(zhì)控→基因表達標準化→降維聚類→marker基因鑒定/細胞類型鑒定/細胞亞群分析”
(擬時序分析需要用到另一個R包铜秆,Monocle)
其次,Seurat自帶繪圖函數(shù)Dimplot讶迁,可以對結(jié)果進行可視化连茧。如果對Dimplot的效果不滿意,也可以將降維信息提取出來之后使用ggplot2作圖巍糯,這里有一個使用示例 利用 ggplot2 繪制 Seurat 對象中的 tSNE 或 UMAP 圖
3.Seurat之數(shù)據(jù)質(zhì)控
需要數(shù)據(jù)質(zhì)控的原因:在10x捕獲細胞的原理中啸驯,理論上一個油包水微滴中只有一個細胞,但在實際測序中祟峦,一個微滴中可能沒有細胞罚斗,也可能有2個甚至多個細胞。這就導(dǎo)致了某些微滴中測序基本為空宅楞,或者基因檢測數(shù)量非常高针姿,因此需要通過數(shù)據(jù)質(zhì)控將這部分異常的數(shù)據(jù)過濾掉。
另外還有一種情況厌衙,對于凋亡狀態(tài)細胞或受到損傷的細胞而言距淫,其細胞內(nèi)的線粒體基因比例會非常高,所以對于線粒體基因比例非常高的細胞也是低質(zhì)量的細胞婶希,對于這部分細胞也是要過濾掉的榕暇。
一般過濾標準:
每個細胞的基因數(shù)限制一般選用200個基因為下限值;2000-2500個基因為上限值喻杈;
線粒體基因的比例則可根據(jù)具體數(shù)據(jù)彤枢,看線粒體基因比例主要集中的范圍而定,越低越好筒饰,如5%缴啡。
4.Seurat之降維聚類分析
線性降維:PCA
非線性降維:tSNE、UMAP
PCA側(cè)重于從大量基因表達信息提取出對整個基因表達量影響最大的效應(yīng)(即主成分)龄砰,所以PCA分析就是將數(shù)據(jù)中大量基因表達信息濃縮到少數(shù)幾個代表樣本中主要效應(yīng)的變量中盟猖,側(cè)重于抓取數(shù)據(jù)中隱藏的主要效應(yīng)讨衣,從而在這個主要效應(yīng)的維度中去直觀的展現(xiàn)出樣本之間的差異(距離越遠换棚,差異越大)式镐。更適合于常規(guī)轉(zhuǎn)錄組中,展示樣本之間的表達情況固蚤。
而對于單細胞測序分析娘汞,目的是區(qū)分出不同細胞亞群,而能夠區(qū)分細胞亞群的效應(yīng)往往不是大量基因的差異夕玩,而是一些微小效應(yīng)你弦,也就是少量的標記基因的差異,這時PCA就不再適用燎孟,而tSNE則是將原本在原始數(shù)據(jù)集中比較相似的細胞禽作,在降維之后的數(shù)據(jù)集中仍能保持相似性,并且能夠聚集在一起揩页。
PCA是想辦法把不相似的數(shù)據(jù)區(qū)分開旷偿,在二維坐標圖上展示的時候,不相似的點之間間隔比較遠爆侣;
tSNE則是除了把不相似的點盡量分開的同時萍程,盡量讓相似性質(zhì)的點距離近一些。
圖中的每一個點都是一個細胞
單細胞測序數(shù)據(jù)一般處理流程:
先使用線性降維做一個預(yù)處理兔仰,然后再進行非線性聚類分析茫负。
5.Seurat之Marker基因鑒定
Marker基因的篩選標準:該基因在指定細胞群的絕大多數(shù)細胞中有較高的表達,而在其余細胞類群中只有少部分表達乎赴,且該基因在此細胞群相對于其他細胞群中顯著上調(diào)表達忍法。
Seurat可以進行兩個細胞群或者多個細胞群之間的差異基因的分析。
6.Seurat之細胞類型鑒定
鑒定出每一個細胞群的marker基因之后榕吼,就可以選定每個細胞群的代表性marker基因來繪制熱圖缔赠。
這里左側(cè)的基因就是選定的marker基因,最上方的彩條代表著細胞的分群友题,
熱圖的主體部分是每一個細胞表達對應(yīng)的marker基因的表達量嗤堰。
通過熱圖可以直觀展示和判定每個分群的細胞類型。
在判定了每個分群對應(yīng)的細胞類型之后度宦,可以把細胞類型的信息加入到tSNE圖中的展示中踢匣。
7.Seurat之某個基因的表達的展示
A.featureplot圖
B.小提琴圖
C.山脈圖
峰高代表細胞數(shù),不同顏色表示不同類群戈抄,橫軸代表表達水平(其實與小提琴圖類似离唬,就是豎過來的小提琴圖)。