Hemberg-lab單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)分析(九)- Scater包單細(xì)胞過(guò)濾

往期系列

Hemberg-lab單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)分析(一)

Hemberg-lab單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)分析(二)

Hemberg-lab單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)分析(三)

Hemberg-lab單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)分析(四)

Hemberg-lab單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)分析(五)

Hemberg-lab單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)分析(六)

Hemberg-lab單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)分析(七)-導(dǎo)入10X和SmartSeq2數(shù)據(jù)Tabula Muris

Hemberg-lab單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)分析(八)- Scater包輸入導(dǎo)入和存儲(chǔ)

收藏|北大生信平臺(tái)"單細(xì)胞分析捉邢、染色質(zhì)分析"視頻和PPT分享

該如何自學(xué)入門生物信息學(xué)

生物信息之程序?qū)W習(xí)

收藏|你想要的生信學(xué)習(xí)系列教程-寶典在手,生信無(wú)憂

細(xì)胞質(zhì)控

文庫(kù)大小

查看每個(gè)樣品(細(xì)胞)檢測(cè)到的總分子數(shù) (UMI count)或總reads數(shù) (reads count)栖博,擁有很少的reads或分子數(shù)的樣品可能是細(xì)胞破損或捕獲失敗馒闷,應(yīng)該移除喧伞。

hist(
    umi$total_counts,
    breaks = 100
)
abline(v = 25000, col = "red")
image

練習(xí)

  1. 我們的過(guò)濾移除了多少細(xì)胞窟她?

  2. 每個(gè)細(xì)胞中檢測(cè)到的分子數(shù)的分布預(yù)期是怎樣的?

答案

filter_by_total_counts <- (umi$total_counts > 25000)
table(filter_by_total_counts)
## filter_by_total_counts
## FALSE  TRUE 
##    46   818

檢測(cè)到的基因數(shù)

除了確保每個(gè)樣品的測(cè)序深度漂问,也需要保證測(cè)序reads在轉(zhuǎn)錄本中分布均衡赖瞒,而不是集中在少數(shù)高表達(dá)的基因上。每個(gè)樣品檢測(cè)到的基因數(shù)也是衡量樣品質(zhì)量好壞的一個(gè)標(biāo)準(zhǔn)蚤假。

# 原文這個(gè)地方有誤栏饮,可能是版本問(wèn)題
hist(
    umi$total_features_by_counts,
    breaks = 100
)
abline(v = 7000, col = "red")
image

從圖中可以看出,大部分細(xì)胞能檢測(cè)到7,000-10,000基因磷仰,這對(duì)高深度scRNA-seq是正常的袍嬉。當(dāng)然這個(gè)受測(cè)序深度和實(shí)驗(yàn)方法的影響。比如居于droplet的方法或樣品測(cè)序深度低時(shí)每個(gè)細(xì)胞檢測(cè)到的基因數(shù)要少一些,表現(xiàn)在圖上是伺通,左側(cè)拖尾嚴(yán)重箍土。如果細(xì)胞之間的基因檢出率相當(dāng),應(yīng)該符合正態(tài)分布罐监。因此選擇移除分布尾部的細(xì)胞 (本例中是檢測(cè)出的基因數(shù)少于7000的細(xì)胞)吴藻。

練習(xí)2: 移除了多少細(xì)胞?

答案

## filter_by_expr_features
## FALSE  TRUE 
##   116   748

ERCCs和MTs

另外一個(gè)測(cè)量細(xì)胞質(zhì)量的方式是比較ERCC spike-in測(cè)到的reads數(shù)與內(nèi)源轉(zhuǎn)錄本測(cè)到的reads數(shù)的比例弓柱,可以衡量捕獲到的內(nèi)源性RNA的總量沟堡。如果spike in的reads數(shù)很高,則表示起始內(nèi)源性RNA總量低吆你,可能是由于細(xì)胞死亡或脅迫誘導(dǎo)的RNA降解導(dǎo)致的弦叶,也有可能是細(xì)胞體積小。

plotColData(    umi,    x = "total_features_by_counts",    y = "pct_counts_MT",    colour = "batch")
image
plotColData(
    umi,
    x = "total_features_by_counts",
    y = "pct_counts_MT",
    colour = "batch"
)
image

上圖顯示來(lái)源于NA19098.r2批次的細(xì)胞有較高的ERCC/內(nèi)源RNA比例妇多。作者在文章中證實(shí)這一點(diǎn)伤哺,說(shuō)這個(gè)批次的細(xì)胞體積小。

練習(xí) 3:移除NA19098.r2批次的細(xì)胞和線粒體基因表達(dá)量超過(guò)10%的細(xì)胞者祖。

答案

filter_by_ERCC <- umi$batch != "NA19098.r2"
table(filter_by_ERCC)
## filter_by_ERCC
## FALSE  TRUE 
##    96   768
filter_by_MT <- umi$pct_counts_MT < 10
table(filter_by_MT)
## filter_by_MT
## FALSE  TRUE 
##    31   833

練習(xí) 4: 如果研究的數(shù)據(jù)集細(xì)胞大小不同(正常細(xì)胞立莉、衰老細(xì)胞),那么ERCC與內(nèi)源基因被測(cè)到的比例會(huì)是怎么的分布七问?

答案:小的細(xì)胞 (normal)比大的細(xì)胞(senescent,衰老)有更高比例的ERCC reads蜓耻。

細(xì)胞過(guò)濾

手動(dòng)過(guò)濾

基于前面的分析定義一個(gè)過(guò)濾器,不滿足任何一個(gè)條件的細(xì)胞都過(guò)濾掉:

umi$use <- (
    # sufficient features (genes)
    filter_by_expr_features &
    # sufficient molecules counted
    filter_by_total_counts &
    # sufficient endogenous RNA
    filter_by_ERCC &
    # remove cells with unusual number of reads in MT genes
    filter_by_MT
)
table(umi$use)
## 
## FALSE  TRUE 
##   207   657

自動(dòng)過(guò)濾

scater提供了一個(gè)根據(jù)質(zhì)控?cái)?shù)據(jù)進(jìn)行PCA分析進(jìn)而自動(dòng)挑出異常細(xì)胞的方法械巡。默認(rèn)刹淌,下面這些統(tǒng)計(jì)量將用于PCA異常細(xì)胞檢測(cè)的分析:

  • pct_counts_top_100_features

  • total_features_by_counts

  • pct_counts_feature_controls

  • n_detected_feature_controls

  • log10_counts_endogenous_features

  • log10_counts_feature_controls

scater首先生成一個(gè)行是細(xì)胞,列是細(xì)胞中對(duì)應(yīng)的上述質(zhì)控?cái)?shù)據(jù)的值讥耗,然后使用mvoutlier包篩選質(zhì)控?cái)?shù)據(jù)與大部分細(xì)胞不同的樣品定義為低質(zhì)量細(xì)胞有勾。 package on the QC metrics for all cells. This will identify cells that have substantially different QC metrics from the others, possibly corresponding to low-quality cells. We can visualize any outliers using a principal components plot as shown below:

umi <- runPCA(umi, use_coldata = TRUE, 
              detect_outliers = TRUE)
reducedDimNames(umi)
## [1] "PCA_coldata"

鑒定結(jié)果存儲(chǔ)于umi變量的$outlier部分,指示細(xì)胞是否被判斷未異常細(xì)胞古程。自動(dòng)異常細(xì)胞檢測(cè)是很有意義的蔼卡,可以作為工廠化大批量模式使用,但特異性的手動(dòng)檢測(cè)數(shù)據(jù)集和根據(jù)結(jié)果挣磨、實(shí)驗(yàn)調(diào)整過(guò)濾是推薦的方式雇逞。

table(umi$outlier)

## ## FALSE  TRUE 
##   791    73

繪制PCA結(jié)果展示異常細(xì)胞分布:

plotReducedDim(umi, use_dimred = "PCA_coldata",
               size_by = "total_features_by_counts", shape_by = "use", 
               colour_by="outlier")
image

手動(dòng)過(guò)濾和自動(dòng)過(guò)濾比較

練習(xí) 5: 繪制Venn圖比較自動(dòng)和手動(dòng)兩個(gè)方式檢測(cè)出的異常細(xì)胞

提示: 使用limma包里的vennCountsvennDiagram函數(shù)繪制。生信寶典說(shuō)茁裙,使用高顏值在線繪圖工具http://www.ehbio.com/ImageGP更方便塘砸。

答案

image

還有一種方式是使用中位數(shù)絕對(duì)偏差作為判斷樣品異常的標(biāo)準(zhǔn)。以測(cè)序文庫(kù)大小為例呜达,假設(shè)樣品中的Total read count是谣蠢,所有樣品中Total read count的中位數(shù)是,那么樣品 Total read count的絕對(duì)偏差就是查近。 的樣品會(huì)被移除 (移除測(cè)序深度低的樣品)眉踱。為了增強(qiáng)過(guò)濾的魯棒性,依據(jù)樣品測(cè)序的文庫(kù)大小檢測(cè)到的基因數(shù)目過(guò)濾時(shí)會(huì)先對(duì)相應(yīng)對(duì)數(shù)值進(jìn)行對(duì)數(shù)轉(zhuǎn)換霜威。依據(jù)ERCC spike-in基因的比例線粒體基因的比例過(guò)濾時(shí)谈喳,的樣品會(huì)被移除 (移除檢測(cè)到的內(nèi)源基因少的樣品)。

image
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末戈泼,一起剝皮案震驚了整個(gè)濱河市婿禽,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌大猛,老刑警劉巖扭倾,帶你破解...
    沈念sama閱讀 219,427評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異挽绩,居然都是意外死亡膛壹,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,551評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門唉堪,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)模聋,“玉大人,你說(shuō)我怎么就攤上這事唠亚×捶剑” “怎么了?”我有些...
    開(kāi)封第一講書人閱讀 165,747評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵灶搜,是天一觀的道長(zhǎng)祟蚀。 經(jīng)常有香客問(wèn)我,道長(zhǎng)割卖,這世上最難降的妖魔是什么前酿? 我笑而不...
    開(kāi)封第一講書人閱讀 58,939評(píng)論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮究珊,結(jié)果婚禮上薪者,老公的妹妹穿的比我還像新娘。我一直安慰自己剿涮,他們只是感情好言津,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,955評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著取试,像睡著了一般悬槽。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上瞬浓,一...
    開(kāi)封第一講書人閱讀 51,737評(píng)論 1 305
  • 那天初婆,我揣著相機(jī)與錄音,去河邊找鬼。 笑死磅叛,一個(gè)胖子當(dāng)著我的面吹牛屑咳,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播弊琴,決...
    沈念sama閱讀 40,448評(píng)論 3 420
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼兆龙,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了敲董?” 一聲冷哼從身側(cè)響起紫皇,我...
    開(kāi)封第一講書人閱讀 39,352評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎腋寨,沒(méi)想到半個(gè)月后聪铺,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,834評(píng)論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡萄窜,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,992評(píng)論 3 338
  • 正文 我和宋清朗相戀三年铃剔,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片脂倦。...
    茶點(diǎn)故事閱讀 40,133評(píng)論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡番宁,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出赖阻,到底是詐尸還是另有隱情蝶押,我是刑警寧澤,帶...
    沈念sama閱讀 35,815評(píng)論 5 346
  • 正文 年R本政府宣布火欧,位于F島的核電站棋电,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏苇侵。R本人自食惡果不足惜赶盔,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,477評(píng)論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望榆浓。 院中可真熱鬧于未,春花似錦、人聲如沸陡鹃。這莊子的主人今日做“春日...
    開(kāi)封第一講書人閱讀 32,022評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)萍鲸。三九已至闷叉,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間脊阴,已是汗流浹背握侧。 一陣腳步聲響...
    開(kāi)封第一講書人閱讀 33,147評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工蚯瞧, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人品擎。 一個(gè)月前我還...
    沈念sama閱讀 48,398評(píng)論 3 373
  • 正文 我出身青樓埋合,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親孽查。 傳聞我的和親對(duì)象是個(gè)殘疾皇子饥悴,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,077評(píng)論 2 355