重生之我在劍橋大學(xué)學(xué)習(xí)單細(xì)胞RNA-seq分析——5. scRNA-seq數(shù)據(jù)的基本質(zhì)量控制 (QC) 和探索(2)

5.2 數(shù)據(jù)可視化與降維
5.2.1 簡介
在本章中谣蠢,我們將繼續(xù)使用上一章生成的過濾后的Tung數(shù)據(jù)集唉锌。我們將探索可視化數(shù)據(jù)的不同方式试读,以便評(píng)估質(zhì)控步驟后表達(dá)矩陣發(fā)生的變化。scater包提供了幾個(gè)非常有用的函數(shù)來簡化可視化。
單細(xì)胞RNA測序的一個(gè)重要方面是消除批次效應(yīng)洽腺。批次效應(yīng)是在處理過程中添加到樣本中的技術(shù)噪音脚粟。例如,如果兩組樣品是在不同的實(shí)驗(yàn)室中準(zhǔn)備的蘸朋、甚至在同一實(shí)驗(yàn)室的不同日期準(zhǔn)備的核无,那么我們可能會(huì)觀察到同時(shí)處理的樣品之間有更大的相似性。在最壞的情況下藕坯,批次效應(yīng)可能會(huì)被誤認(rèn)為是真正的生物變異团南。Tung的數(shù)據(jù)使我們能夠以可控的方式探索這些問題,因?yàn)闃颖咎幚矸绞降囊恍┩怀龅姆矫嬉驯挥涗浵聛砹侗搿@硐肭闆r下吐根,我們希望看到來自同一個(gè)體的批次聚集在一起,并且每個(gè)個(gè)體對(duì)應(yīng)不同的組辐马。<
讓我們創(chuàng)建另一個(gè)SingleCellExperiment對(duì)象umi.qc拷橘,刪除不必要的低表達(dá)基因和低質(zhì)量的細(xì)胞。

> umi.qc <- umi[! rowData(umi)$discard,! colData(umi)$discard]

5.2.2 PCA作圖
全覽數(shù)據(jù)的最簡單方法是使用主成分分析對(duì)其進(jìn)行轉(zhuǎn)換喜爷,然后可視化前兩個(gè)主成分冗疮。
主成分分析(PCA)是一種統(tǒng)計(jì)過程,它將一組觀測值轉(zhuǎn)換為一組線性不相關(guān)(正交)的變量檩帐,稱為主成分(PC)术幔。主成分的數(shù)量小于或等于原始變量的數(shù)量。
從數(shù)學(xué)上來說湃密,PC對(duì)應(yīng)于協(xié)方差矩陣的特征向量诅挑。特征向量按特征值排序,以便第一個(gè)主成分盡可能多地解釋數(shù)據(jù)中的變異性泛源,并且每個(gè)后續(xù)PC在與前一個(gè)PC正交的前提下依次具有最高的方差拔妥。<

PCA降維示意圖

5.2.2.1 QC前
如果沒有進(jìn)行對(duì)數(shù)變換或標(biāo)準(zhǔn)化,PCA圖就無法按重復(fù)或個(gè)體分離數(shù)據(jù)集达箍。測序深度具有重要影響——具有大量高表達(dá)基因的樣本(細(xì)胞)主導(dǎo)著PC:

> umi <- runPCA(umi, exprs_values = "counts")
> dim(reducedDim(umi, "PCA"))
[1] 864  50
> plotPCA(umi, colour_by = "batch", size_by = "detected", shape_by = "individual")
Tung數(shù)據(jù)的PCA圖(原始counts)

通過對(duì)數(shù)變換没龙,我們均衡了高表達(dá)和低表達(dá)基因之間的巨大差異,并看到細(xì)胞按重復(fù)幻梯、個(gè)體和測序深度分組。當(dāng)重新運(yùn)行PCA時(shí)努释,umi中的reducedDim對(duì)象將被覆蓋。

> umi <- runPCA(umi, exprs_values = "logcounts_raw")
> dim(reducedDim(umi, "PCA"))
[1] 864  50
> plotPCA(umi, colour_by = "batch", size_by = "detected", shape_by = "individual")
Tung數(shù)據(jù)的PCA圖(非標(biāo)準(zhǔn)化logcounts)

顯然,對(duì)數(shù)變換對(duì)我們的數(shù)據(jù)是有益的——它減少了第一個(gè)主成分的方差并且分離了一些生物學(xué)效應(yīng)辙诞。此外拆吆,它使表達(dá)值的分布更加正常。在以下分析和章節(jié)中,將默認(rèn)使用logcounts_raw恩沛。
但是在扰,僅進(jìn)行對(duì)數(shù)轉(zhuǎn)換不足以解釋細(xì)胞之間的技術(shù)誤差(例如測序深度)。因此雷客,請(qǐng)不要使用logcounts_raw進(jìn)行下游分析芒珠,而是使用SingleCellExperiment對(duì)象的logcounts,它不僅進(jìn)行了對(duì)數(shù)轉(zhuǎn)換搅裙,還按文庫大小進(jìn)行了歸一化(例如CPM歸一化)皱卓。在課程中,我們僅將logcounts_raw用于演示目的部逮。
5.2.2.2 QC后
使用umi.qc數(shù)據(jù)而不是umi進(jìn)行與上述相同的分析:

> umi.qc <- runPCA(umi.qc, exprs_values = "logcounts_raw")
> dim(reducedDim(umi.qc, "PCA"))
[1] 670  50
> plotPCA(umi.qc, colour_by = "batch", size_by = "detected", shape_by = "individual")
Tung數(shù)據(jù)的PCA圖(非標(biāo)準(zhǔn)化logcounts娜汁,QC過濾后)

與上圖相比,經(jīng)過QC后兄朋,NA19098.r2(橙色圓)細(xì)胞不再形成異常值組掐禁。
默認(rèn)情況下,scater僅使用變異最大的前500個(gè)基因來計(jì)算PCA颅和,可以通過ntop參數(shù)來調(diào)整傅事。
5.2.3 tSNE圖
用于可視化scRNA-seq數(shù)據(jù)的替代方法是tSNE圖。tSNE(t-Distributed Stochastic Neighbor Embedding)將降維結(jié)果(例如PCA)與最近鄰網(wǎng)絡(luò)上的隨機(jī)游走相結(jié)合來將高維數(shù)據(jù)(即示例的14,154維表達(dá)矩陣)映射到二維空間融虽,同時(shí)保留細(xì)胞之間的局部距離享完。與PCA相比,tSNE是一種隨機(jī)算法有额,這意味著在同一數(shù)據(jù)集上多次運(yùn)行該方法將產(chǎn)生不同的結(jié)果般又。由于算法的非線性和隨機(jī)性,tSNE難以直觀地解釋巍佑。為了確避钋ǎ可重復(fù)性,我們?cè)谝韵麓a中指定了隨機(jī)數(shù)生成器的“種子”萤衰,以便我們始終獲得相同的結(jié)果堕义。
5.2.3.1 QC前

> set.seed(123456)
> umi <- runTSNE(umi, exprs_values = "logcounts_raw", perplexity = 130)
> plotTSNE(umi, colour_by = "batch", size_by = "detected", shape_by = "individual")
Tung數(shù)據(jù)的tSNE圖

5.2.3.2 QC后

> set.seed(123456)
> umi.qc <- runTSNE(umi.qc, exprs_values = "logcounts_raw", perplexity = 130)
> plotTSNE(umi.qc, colour_by = "batch", size_by = "detected", shape_by = "individual")
Tung數(shù)據(jù)的tSNE圖

解釋PCA和tSNE圖通常具有挑戰(zhàn)性,并且由于隨機(jī)性和非線性性質(zhì)脆栋,它們不太直觀倦卖。在這個(gè)例子中,很明顯它們產(chǎn)生了類似的圖像椿争。對(duì)比上面的PCA圖怕膛,再次清楚地表明,經(jīng)過QC過濾后NA19098.r2樣本不再是異常值秦踪。
此外褐捻,tSNE要求提供一個(gè)困惑度(perplexity)參數(shù)掸茅,該參數(shù)反映了用于構(gòu)建最近鄰網(wǎng)絡(luò)的最近鄰數(shù)量,高困惑度會(huì)創(chuàng)建一個(gè)密集的網(wǎng)絡(luò)柠逞,使細(xì)胞聚集在一起昧狮,而低困惑度會(huì)使網(wǎng)絡(luò)變得更加稀疏,從而使細(xì)胞群彼此分離板壮。scater使用默認(rèn)的困惑度逗鸣,即總細(xì)胞數(shù)除以五(向下取整)。
可以在http://distill.pub/2016/misread-tsne/閱讀有關(guān)使用tSNE的更多信息个束。最近的一篇題為《The art of using t-SNE for single-cell transcriptomics》的文章討論了tSNE和UMAP之間的異同慕购,文章發(fā)現(xiàn)大多數(shù)觀察到的差異是由于初始化造成的,并在可視化不同大小的scRNA-seq數(shù)據(jù)集時(shí)給出了參數(shù)調(diào)整的建議茬底。

往期內(nèi)容:
重生之我在劍橋大學(xué)學(xué)習(xí)單細(xì)胞RNA-seq分析——4. 使用Bioconductor進(jìn)行scRNA-seq分析(1)
重生之我在劍橋大學(xué)學(xué)習(xí)單細(xì)胞RNA-seq分析——4. 使用Bioconductor進(jìn)行scRNA-seq分析(2)
重生之我在劍橋大學(xué)學(xué)習(xí)單細(xì)胞RNA-seq分析——5. scRNA-seq數(shù)據(jù)的基本質(zhì)量控制 (QC) 和探索(1)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末沪悲,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子阱表,更是在濱河造成了極大的恐慌殿如,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,386評(píng)論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件最爬,死亡現(xiàn)場離奇詭異涉馁,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)爱致,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,142評(píng)論 3 394
  • 文/潘曉璐 我一進(jìn)店門烤送,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人糠悯,你說我怎么就攤上這事帮坚。” “怎么了互艾?”我有些...
    開封第一講書人閱讀 164,704評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵试和,是天一觀的道長。 經(jīng)常有香客問我纫普,道長阅悍,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,702評(píng)論 1 294
  • 正文 為了忘掉前任昨稼,我火速辦了婚禮节视,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘假栓。我一直安慰自己寻行,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,716評(píng)論 6 392
  • 文/花漫 我一把揭開白布但指。 她就那樣靜靜地躺著寡痰,像睡著了一般。 火紅的嫁衣襯著肌膚如雪棋凳。 梳的紋絲不亂的頭發(fā)上拦坠,一...
    開封第一講書人閱讀 51,573評(píng)論 1 305
  • 那天,我揣著相機(jī)與錄音剩岳,去河邊找鬼贞滨。 笑死,一個(gè)胖子當(dāng)著我的面吹牛拍棕,可吹牛的內(nèi)容都是我干的晓铆。 我是一名探鬼主播,決...
    沈念sama閱讀 40,314評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼绰播,長吁一口氣:“原來是場噩夢啊……” “哼骄噪!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起蠢箩,我...
    開封第一講書人閱讀 39,230評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤链蕊,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后谬泌,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體滔韵,經(jīng)...
    沈念sama閱讀 45,680評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,873評(píng)論 3 336
  • 正文 我和宋清朗相戀三年掌实,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了陪蜻。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,991評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡贱鼻,死狀恐怖宴卖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情忱嘹,我是刑警寧澤嘱腥,帶...
    沈念sama閱讀 35,706評(píng)論 5 346
  • 正文 年R本政府宣布,位于F島的核電站拘悦,受9級(jí)特大地震影響齿兔,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜础米,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,329評(píng)論 3 330
  • 文/蒙蒙 一分苇、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧屁桑,春花似錦医寿、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,910評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽须眷。三九已至,卻和暖如春沟突,著一層夾襖步出監(jiān)牢的瞬間花颗,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,038評(píng)論 1 270
  • 我被黑心中介騙來泰國打工惠拭, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留扩劝,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,158評(píng)論 3 370
  • 正文 我出身青樓职辅,卻偏偏與公主長得像棒呛,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子域携,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,941評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容