往期系列
Hemberg-lab單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)分析(一)
Hemberg-lab單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)分析(二)
Hemberg-lab單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)分析(三)
Hemberg-lab單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)分析(四)
Hemberg-lab單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)分析(五)
Hemberg-lab單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)分析(六)
Hemberg-lab單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)分析(七)-導(dǎo)入10X和SmartSeq2數(shù)據(jù)Tabula Muris
Hemberg-lab單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)分析(八)- Scater包輸入導(dǎo)入和存儲(chǔ)
收藏|北大生信平臺(tái)"單細(xì)胞分析捉邢、染色質(zhì)分析"視頻和PPT分享
收藏|你想要的生信學(xué)習(xí)系列教程-寶典在手,生信無(wú)憂
細(xì)胞質(zhì)控
文庫(kù)大小
查看每個(gè)樣品(細(xì)胞)檢測(cè)到的總分子數(shù) (UMI count
)或總reads數(shù) (reads count
)栖博,擁有很少的reads或分子數(shù)的樣品可能是細(xì)胞破損或捕獲失敗馒闷,應(yīng)該移除喧伞。
hist(
umi$total_counts,
breaks = 100
)
abline(v = 25000, col = "red")
練習(xí):
我們的過(guò)濾移除了多少細(xì)胞窟她?
每個(gè)細(xì)胞中檢測(cè)到的分子數(shù)的分布預(yù)期是怎樣的?
答案
filter_by_total_counts <- (umi$total_counts > 25000)
table(filter_by_total_counts)
## filter_by_total_counts
## FALSE TRUE
## 46 818
檢測(cè)到的基因數(shù)
除了確保每個(gè)樣品的測(cè)序深度漂问,也需要保證測(cè)序reads在轉(zhuǎn)錄本中分布均衡赖瞒,而不是集中在少數(shù)高表達(dá)的基因上。每個(gè)樣品檢測(cè)到的基因數(shù)也是衡量樣品質(zhì)量好壞的一個(gè)標(biāo)準(zhǔn)蚤假。
# 原文這個(gè)地方有誤栏饮,可能是版本問(wèn)題
hist(
umi$total_features_by_counts,
breaks = 100
)
abline(v = 7000, col = "red")
從圖中可以看出,大部分細(xì)胞能檢測(cè)到7,000-10,000
基因磷仰,這對(duì)高深度scRNA-seq
是正常的袍嬉。當(dāng)然這個(gè)受測(cè)序深度和實(shí)驗(yàn)方法的影響。比如居于droplet
的方法或樣品測(cè)序深度低時(shí)每個(gè)細(xì)胞檢測(cè)到的基因數(shù)要少一些,表現(xiàn)在圖上是伺通,左側(cè)拖尾嚴(yán)重箍土。如果細(xì)胞之間的基因檢出率相當(dāng),應(yīng)該符合正態(tài)分布罐监。因此選擇移除分布尾部的細(xì)胞 (本例中是檢測(cè)出的基因數(shù)少于7000的細(xì)胞)吴藻。
練習(xí)2: 移除了多少細(xì)胞?
答案
## filter_by_expr_features
## FALSE TRUE
## 116 748
ERCCs和MTs
另外一個(gè)測(cè)量細(xì)胞質(zhì)量的方式是比較ERCC spike-in
測(cè)到的reads數(shù)與內(nèi)源轉(zhuǎn)錄本測(cè)到的reads數(shù)的比例弓柱,可以衡量捕獲到的內(nèi)源性RNA的總量沟堡。如果spike in
的reads數(shù)很高,則表示起始內(nèi)源性RNA總量低吆你,可能是由于細(xì)胞死亡或脅迫誘導(dǎo)的RNA降解導(dǎo)致的弦叶,也有可能是細(xì)胞體積小。
plotColData( umi, x = "total_features_by_counts", y = "pct_counts_MT", colour = "batch")
plotColData(
umi,
x = "total_features_by_counts",
y = "pct_counts_MT",
colour = "batch"
)
上圖顯示來(lái)源于NA19098.r2
批次的細(xì)胞有較高的ERCC/內(nèi)源RNA
比例妇多。作者在文章中證實(shí)這一點(diǎn)伤哺,說(shuō)這個(gè)批次的細(xì)胞體積小。
練習(xí) 3:移除NA19098.r2批次的細(xì)胞和線粒體基因表達(dá)量超過(guò)10%的細(xì)胞者祖。
答案
filter_by_ERCC <- umi$batch != "NA19098.r2"
table(filter_by_ERCC)
## filter_by_ERCC
## FALSE TRUE
## 96 768
filter_by_MT <- umi$pct_counts_MT < 10
table(filter_by_MT)
## filter_by_MT
## FALSE TRUE
## 31 833
練習(xí) 4: 如果研究的數(shù)據(jù)集細(xì)胞大小不同(正常細(xì)胞立莉、衰老細(xì)胞),那么ERCC與內(nèi)源基因被測(cè)到的比例會(huì)是怎么的分布七问?
答案:小的細(xì)胞 (normal)比大的細(xì)胞(senescent,衰老)有更高比例的ERCC reads蜓耻。
細(xì)胞過(guò)濾
手動(dòng)過(guò)濾
基于前面的分析定義一個(gè)過(guò)濾器,不滿足任何一個(gè)條件的細(xì)胞都過(guò)濾掉:
umi$use <- (
# sufficient features (genes)
filter_by_expr_features &
# sufficient molecules counted
filter_by_total_counts &
# sufficient endogenous RNA
filter_by_ERCC &
# remove cells with unusual number of reads in MT genes
filter_by_MT
)
table(umi$use)
##
## FALSE TRUE
## 207 657
自動(dòng)過(guò)濾
scater
提供了一個(gè)根據(jù)質(zhì)控?cái)?shù)據(jù)進(jìn)行PCA分析進(jìn)而自動(dòng)挑出異常細(xì)胞的方法械巡。默認(rèn)刹淌,下面這些統(tǒng)計(jì)量將用于PCA異常細(xì)胞檢測(cè)的分析:
pct_counts_top_100_features
total_features_by_counts
pct_counts_feature_controls
n_detected_feature_controls
log10_counts_endogenous_features
log10_counts_feature_controls
scater
首先生成一個(gè)行是細(xì)胞,列是細(xì)胞中對(duì)應(yīng)的上述質(zhì)控?cái)?shù)據(jù)的值讥耗,然后使用mvoutlier
包篩選質(zhì)控?cái)?shù)據(jù)與大部分細(xì)胞不同的樣品定義為低質(zhì)量細(xì)胞有勾。 package on the QC metrics for all cells. This will identify cells that have substantially different QC metrics from the others, possibly corresponding to low-quality cells. We can visualize any outliers using a principal components plot as shown below:
umi <- runPCA(umi, use_coldata = TRUE,
detect_outliers = TRUE)
reducedDimNames(umi)
## [1] "PCA_coldata"
鑒定結(jié)果存儲(chǔ)于umi
變量的$outlier
部分,指示細(xì)胞是否被判斷未異常細(xì)胞古程。自動(dòng)異常細(xì)胞檢測(cè)是很有意義的蔼卡,可以作為工廠化大批量模式使用,但特異性的手動(dòng)檢測(cè)數(shù)據(jù)集和根據(jù)結(jié)果挣磨、實(shí)驗(yàn)調(diào)整過(guò)濾是推薦的方式雇逞。
table(umi$outlier)
## ## FALSE TRUE
## 791 73
繪制PCA結(jié)果展示異常細(xì)胞分布:
plotReducedDim(umi, use_dimred = "PCA_coldata",
size_by = "total_features_by_counts", shape_by = "use",
colour_by="outlier")
手動(dòng)過(guò)濾和自動(dòng)過(guò)濾比較
練習(xí) 5: 繪制Venn圖比較自動(dòng)和手動(dòng)兩個(gè)方式檢測(cè)出的異常細(xì)胞
提示: 使用limma包里的vennCounts
和vennDiagram
函數(shù)繪制。生信寶典說(shuō)茁裙,使用高顏值在線繪圖工具http://www.ehbio.com/ImageGP更方便塘砸。
答案
還有一種方式是使用中位數(shù)絕對(duì)偏差作為判斷樣品異常的標(biāo)準(zhǔn)。以測(cè)序文庫(kù)大小為例呜达,假設(shè)樣品中的Total read count是谣蠢,所有樣品中Total read count的中位數(shù)是,那么樣品 Total read count的絕對(duì)偏差就是查近。 的樣品會(huì)被移除 (移除測(cè)序深度低的樣品)眉踱。為了增強(qiáng)過(guò)濾的魯棒性,依據(jù)樣品測(cè)序的文庫(kù)大小
和檢測(cè)到的基因數(shù)目
過(guò)濾時(shí)會(huì)先對(duì)相應(yīng)對(duì)數(shù)值進(jìn)行對(duì)數(shù)轉(zhuǎn)換霜威。依據(jù)ERCC spike-in基因的比例
和線粒體基因的比例
過(guò)濾時(shí)谈喳,的樣品會(huì)被移除 (移除檢測(cè)到的內(nèi)源基因少的樣品)。