一文學會單細胞轉錄組的CellRanger(二)

前面說了cellranger安裝和一些簡單的使用,我們繼續(xù)看一下cellranger的結果。
一文學會單細胞轉錄組的CellRanger(一) - 簡書 (jianshu.com)

一、HTML報告解讀

cellranger count 輸出一個名為web_summary.html 的交互式 HTML 文件,其中包含一些匯總的指標和二次分析結果疏咐。如果在運行期間檢測到問題,則此頁面上會顯示warning或error脐供。Cell Ranger 故障排除文檔中提供了有關警報的詳細信息浑塞,可在文檔中進行查詢。
注:如設置了--nosecondary參數(shù)則沒有二次分析的結果

1政己、基本功能

圖是HTML的部分截圖
image.png

(1)可以通過單擊 HTML 文件中的“Sequencing”酌壕、“Mapping”和“Cells”旁邊的?圖標歇由,來查看指標的含義卵牍,點擊后出現(xiàn)如下圖的信息:
image.png

(2)可以通過單擊 HTML 文件左上角選項卡中的Summary來查看一些匯總指標。匯總指標描述了測序質(zhì)量和檢測到的細胞的各種特征沦泌。點擊Analysis查看二次分析結果糊昙。
image.png

2、重要指標含義

(1)谢谦、下圖顯示的是檢測到的估計細胞數(shù)释牺、每個細胞的平均reads數(shù)和每個細胞檢測到的基因中位數(shù)萝衩。
image.png

(2)、“Cells"部分的barcode-rank-plot的分布圖没咙。y 軸是映射到每個barcode的 UMI 計數(shù)值猩谊,x 軸是低于該值的barcode數(shù)。急劇下降表示與cell關聯(lián)的barcode與背景區(qū)關聯(lián)的barcode之間具有良好的分離祭刚。由于barcode可以根據(jù)其UMI計數(shù)或RNA譜與細胞相關聯(lián)牌捷,因此圖形的某些區(qū)域可以同時包含細胞相關和背景相關barcode。圖形的顏色表示與cell關聯(lián)的barcode的局部密度袁梗。

image.png

(3)宜鸯、測序飽和度Sequencing Saturation: 每個樣本過濾后細胞的reads數(shù)占總reads數(shù)(含背景)的百分比,反應測序數(shù)據(jù)利用率遮怜,當值達到80%以上淋袖,代表測序reads覆蓋了所有mRNA。
(4)锯梁、若Reads Mapped Confidently to Intronic Regions的值高于40%即碗,是因為包含pre-mRNA。
(5)陌凳、Fraction Reads in Cells :理想情況高于70%剥懒,數(shù)據(jù)質(zhì)量則比較好。若值較低合敦,可能是以下兩種情況導致初橘。第一,細胞裂解或死亡充岛,cell ranger將其判斷為背景RNA保檐,導致樣品中背景RNA含量過高;第二崔梗,大量具有低 RNA 含量的細胞夜只,算法并未將其判斷為cell導致的。 后一種情況可以通過檢查數(shù)據(jù)來確定適當?shù)募毎嫈?shù)并使用 --force-cells 來解決蒜魄。

二扔亥、filtered_feature_bc_matrix和raw_feature_bc_matrix文件夾

兩個文件夾下的內(nèi)容是一樣的,是稀疏矩陣谈为,包含三個文件旅挤。文件的區(qū)別是數(shù)量上的,顧名思義峦阁,一個是原始的數(shù)據(jù)谦铃,一個是過濾后的結果。后面的分析一般使用filtered_feature_bc_matrix文件夾下的矩陣榔昔。

filtered_feature_bc_matrix
├── barcodes.tsv.gz
├── features.tsv.gz
└── matrix.mtx.gz

1驹闰、 barcodes.tsv.gz文件存放的細胞的barcodes標簽瘪菌,可以理解為每個barcode標簽代表一個cell。

 $ less barcodes.tsv.gz|head
AAACCCAAGACGCATG-1
AAACCCACACAAGCCC-1
AAACCCACACTTACAG-1
AAACCCAGTAACTTCG-1
AAACCCAGTCTGTTAG-1
AAACCCAGTGAGATAT-1
AAACCCAGTTCGTACA-1
AAACCCATCCGAGATT-1
AAACGAAAGACTTGTC-1
AAACGAAAGCTCACTA-1

2嘹朗、 features.tsv.gz文件存放的gene id和對應的gene name师妙。

 $ less features.tsv.gz|head
ENSG00000243485 MIR1302-2HG     Gene Expression
ENSG00000237613 FAM138A Gene Expression
ENSG00000186092 OR4F5   Gene Expression
ENSG00000238009 AL627309.1      Gene Expression
ENSG00000239945 AL627309.3      Gene Expression
ENSG00000239906 AL627309.2      Gene Expression
ENSG00000241860 AL627309.5      Gene Expression
ENSG00000241599 AL627309.4      Gene Expression
ENSG00000286448 AP006222.2      Gene Expression
ENSG00000236601 AL732372.1      Gene Expression

3、matrix.mtx.gz文件存放的對應barcode和features的對應count值屹培。前兩行是一些版本信息等默穴。第三行依次是features數(shù)量總和,barcode數(shù)量總和褪秀,count值總和蓄诽,第四行開始是對應的結果。比如 31 1 4 對應的是在features文件第31行的基因媒吗,1對應的barcode文件中的第1行信息仑氛,4對應檢測到的count值。

 $ less matrix.mtx.gz|head
%%MatrixMarket matrix coordinate integer general
%metadata_json: {"software_version": "cellranger-4.0.0", "format_version": 2}
36601 9620 11561775
31 1 4
74 1 2
81 1 1
84 1 1
87 1 1
114 1 1
171 1 3

三闸英、analysis文件夾

軟件默認會進行二次分析锯岖,結果中會出現(xiàn)analysis文件。如果后續(xù)用其他軟件代替這部分內(nèi)容(比如Seurat甫何、Scanpy等)出吹,可以設置了--nosecondary參數(shù),省略二次分析辙喂。以下是analysis文件夾的結構:

clustering
├── graphclust
├── kmeans_10_clusters
├── kmeans_2_clusters
├── kmeans_3_clusters
├── kmeans_4_clusters
├── kmeans_5_clusters
├── kmeans_6_clusters
├── kmeans_7_clusters
├── kmeans_8_clusters
└── kmeans_9_clusters
diffexp
├── graphclust
├── kmeans_10_clusters
├── kmeans_2_clusters
├── kmeans_3_clusters
├── kmeans_4_clusters
├── kmeans_5_clusters
├── kmeans_6_clusters
├── kmeans_7_clusters
├── kmeans_8_clusters
└── kmeans_9_clusters
pca
└── 10_components
tsne
└── 2_components
umap
└── 2_components

1捶牢、pca 降維

在對細胞進行聚類之前,在歸一化過濾的矩陣上運行主成分分析 (PCA)巍耗,以減少features(基因)維度的數(shù)量叫确。僅將基因表達特征用作 PCA 特征。PCA 分析生成五個輸出文件芍锦。第一個是每個cell對前 N 個主分量的投影。默認情況下 N=10飞盆。

$ head -2 analysis/pca/gene_expression_10_components/projection.csv
Barcode,PC-1,PC-2,PC-3,PC-4,PC-5,PC-6,PC-7,PC-8,PC-9,PC-10
AAACAAGCACCATACT-1,18.55496347631502,-8.428877305709332,3.7717969735420835,-0.61215157678172,-1.0987614379684771,2.194733668965279,-2.6595895212967386,-2.8703699622639114,1.867229094193604,0.2658532968798859

第二個文件是一個分量矩陣娄琉,它指示每個特征對每個主分量的貢獻(荷載)。未包含在 PCA 分析中的要素的所有載荷值都設置為零吓歇。

$ head -2 analysis/pca/gene_expression_10_components/components.csv
PC,ENSG00000228327,ENSG00000237491,ENSG00000177757,ENSG00000225880,...,ENSG00000160310
1,-0.0044,0.0039,-0.0024,-0.0016,...,-0.0104

第三個文件包含選擇用于主成分計算的具有最高離散的要素的gene id孽水。

$ head -5 analysis/pca/gene_expression_10_components/features_selected.csv
Feature
1,ENSG00000167723
2,ENSG00000179029
3,ENSG00000196544
4,ENSG00000141499

第四個文件記錄每個主成分解釋的總方差比例。 在選擇重要的主成分數(shù)量時城看,查看很有用女气,當數(shù)字變化平緩時, 后續(xù) PC 在數(shù)據(jù)中的意義不大测柠。

$ head -5 analysis/pca/gene_expression_10_components/variance.csv
PC,Proportion.Variance.Explained
1,0.0056404970744118104
2,0.0038897311237809061
3,0.0028803714818085419
4,0.0020830581822081206

最后一個文件列出了每個要素炼鞠,按平均表達式對要素進行分箱后的歸一化離散程度缘滥,用于度量每個特征的可變性。

$ head -5 analysis/pca/gene_expression_10_components/dispersion.csv
Feature,Normalized.Dispersion
ENSG00000228327,2.0138970131886671
ENSG00000237491,1.3773662040549017
ENSG00000177757,-0.28102027567224191
ENSG00000225880,1.9887312950109921

2谒主、t-SNE

運行 PCA 后朝扼,運行 t-distributed Stochastic Neighbor Embedding(t-SNE) 將數(shù)據(jù)在一個2D的維度進行可視化。

$ head -5 analysis/tsne/gene_expression_2_components/projection.csv
Barcode,TSNE-1,TSNE-2
AAACATACAACGAA-1,-13.5494,1.4674
AAACATACTACGCA-1,-2.7325,-10.6347
AAACCGTGTCTCGC-1,12.9590,-1.6369
AAACGCACAACCAC-1,-9.3585,-6.7300

3霎肯、UMAP

運行 PCA 后擎颖,運行Uniform Manifold Approximation and Projection(UMAP)將數(shù)據(jù)在一個2D的維度進行可視化。

$ head -5 analysis/umap/gene_expression_2_components/projection.csv
Barcode,UMAP-1,UMAP-2
AAACCTGAGAATAGGG-1,0.5974335,1.320372
AAACCTGAGAGCTGGT-1,2.2277818,-0.52756095
AAACCTGAGCGTTGCC-1,2.675832,1.1010709
AAACCTGCACGGACAA-1,2.7049212,-3.1494563

4观游、clustering 聚類

運行聚類分析搂捧,根據(jù)具有相似表達譜的細胞在 PCA 空間中的投影,將它們分組在一起懂缕。cellranger使用了兩中方法:

  • Graph-based
    ??圖聚類算法包括兩步:首先用PCA降維的數(shù)據(jù)構建一個細胞間的k近鄰稀疏矩陣允跑,即將一個細胞與其歐式距離上最近的k個細胞聚為一類,然后在此基礎上用Louvain算法進行模塊優(yōu)化提佣,旨在找到圖中高度連接的模塊吮蛹。最后通過層次聚類將位于同一區(qū)域內(nèi)沒有差異表達基因(B-H adjusted p-value 低于0.05)的cluster進一步融合,重復該過程直到?jīng)]有clusters可以合并拌屏。因為它不需要預先指定數(shù)量的聚類潮针,只需要運行一次。
  • K-Means
    ??k-means算法隨機在PCA降維的空間中適當選取k個聚類質(zhì)心點倚喂,對于每一個細胞計算其應該屬于的cluster每篷,然后對于每一個cluster重新計算該cluster的質(zhì)心,重復該過程直到收斂端圈。注意這里K-means針對 K=2,...,N 的許多值運行焦读,其中 K 對應于聚類數(shù)。默認情況下 N=10(與圖聚類算法的k意義不同)舱权,質(zhì)心代表對屬于同一個cluster的細胞中心點的猜測矗晃。k-means可說是最簡單、最經(jīng)典的聚類算法宴倍。
$ ls analysis/clustering
gene_expression_graphclust
gene_expression_kmeans_10_clusters
gene_expression_kmeans_2_clusters
gene_expression_kmeans_3_clusters
gene_expression_kmeans_4_clusters
gene_expression_kmeans_5_clusters
gene_expression_kmeans_6_clusters
gene_expression_kmeans_7_clusters
gene_expression_kmeans_8_clusters
gene_expression_kmeans_9_clusters

5张症、diffexp差異表達

cellranger還會生成一個表,指示每個聚類中相對于所有其他聚類中哪些要素以差異方式表示鸵贬。對于每個特征和每個聚類 i俗他,我們計算三個值:

  • The mean expression of this feature in cluster i (i.e., across cells assigned to cluster i)
  • The log2 fold-change of this feature's mean expression in cluster i relative to all other cells
  • A p-value denoting significance of this feature's expression in cluster i relative to cells in other clusters. P-values within each cluster are adjusted for false discovery rate to account for the number of hypotheses (i.e., number of features) being tested.
$ head -5 analysis/diffexp/gene_expression_kmeans_3_clusters/differential_expression.csv
Feature ID,Feature Name,Cluster 1 Mean UMI Counts,Cluster 1 Log2 fold change,Cluster 1 Adjusted p value,Cluster 2 Mean UMI Counts,Cluster 2 Log2 fold change,Cluster 2 Adjusted p value,Cluster 3 Mean UMI Counts,Cluster 3 Log2 fold change,Cluster 3 Adjusted p value
ENSG00000228327,RP11-206L10.2,0.0056858989363338264,2.6207666981569986,0.00052155805898912184,0.0,-0.75299726644507814,0.64066099091888962,0.00071455453829430329,-2.3725403666493312,0.0043023680184636837
ENSG00000237491,RP11-206L10.9,0.00012635330969630726,-0.31783275717885928,0.40959138980118809,0.0,3.8319652342760779,0.11986963938734894,0.0,0.56605908868652577,0.39910771338768203
ENSG00000177757,FAM87B,0.0,-2.9027952579000154,0.0,0.0,3.2470027335549219,0.19129034227967889,0.00071455453829430329,3.1510215894076818,0.0
ENSG00000225880,LINC00115,0.0003790599290889218,-5.71015017995762,8.4751637615375386e-28,0.20790015775229512,7.965820981010868,1.3374521290889345e-46,0.0017863863457357582,-2.2065304152104019,0.00059189960914085744
最后編輯于
?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市阔逼,隨后出現(xiàn)的幾起案子兆衅,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,539評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件羡亩,死亡現(xiàn)場離奇詭異摩疑,居然都是意外死亡,警方通過查閱死者的電腦和手機夕春,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,594評論 3 396
  • 文/潘曉璐 我一進店門未荒,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人及志,你說我怎么就攤上這事片排。” “怎么了速侈?”我有些...
    開封第一講書人閱讀 165,871評論 0 356
  • 文/不壞的土叔 我叫張陵率寡,是天一觀的道長。 經(jīng)常有香客問我倚搬,道長冶共,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,963評論 1 295
  • 正文 為了忘掉前任每界,我火速辦了婚禮捅僵,結果婚禮上,老公的妹妹穿的比我還像新娘眨层。我一直安慰自己庙楚,他們只是感情好,可當我...
    茶點故事閱讀 67,984評論 6 393
  • 文/花漫 我一把揭開白布趴樱。 她就那樣靜靜地躺著馒闷,像睡著了一般。 火紅的嫁衣襯著肌膚如雪叁征。 梳的紋絲不亂的頭發(fā)上纳账,一...
    開封第一講書人閱讀 51,763評論 1 307
  • 那天,我揣著相機與錄音捺疼,去河邊找鬼疏虫。 笑死,一個胖子當著我的面吹牛啤呼,可吹牛的內(nèi)容都是我干的议薪。 我是一名探鬼主播,決...
    沈念sama閱讀 40,468評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼媳友,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了产捞?” 一聲冷哼從身側響起醇锚,我...
    開封第一講書人閱讀 39,357評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后焊唬,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體恋昼,經(jīng)...
    沈念sama閱讀 45,850評論 1 317
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,002評論 3 338
  • 正文 我和宋清朗相戀三年赶促,在試婚紗的時候發(fā)現(xiàn)自己被綠了液肌。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,144評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡鸥滨,死狀恐怖嗦哆,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情婿滓,我是刑警寧澤老速,帶...
    沈念sama閱讀 35,823評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站凸主,受9級特大地震影響橘券,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜卿吐,卻給世界環(huán)境...
    茶點故事閱讀 41,483評論 3 331
  • 文/蒙蒙 一旁舰、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧嗡官,春花似錦箭窜、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,026評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至紧阔,卻和暖如春坊罢,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背擅耽。 一陣腳步聲響...
    開封第一講書人閱讀 33,150評論 1 272
  • 我被黑心中介騙來泰國打工活孩, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人乖仇。 一個月前我還...
    沈念sama閱讀 48,415評論 3 373
  • 正文 我出身青樓憾儒,卻偏偏與公主長得像,于是被迫代替她去往敵國和親乃沙。 傳聞我的和親對象是個殘疾皇子起趾,可洞房花燭夜當晚...
    茶點故事閱讀 45,092評論 2 355

推薦閱讀更多精彩內(nèi)容