單細(xì)胞分析流程之Cell Ranger結(jié)果解讀
各位小伙伴大家好啊奄!
上期我們說(shuō)到了Cell Ranger的下載、安裝以及常規(guī)的使用方法掀潮,這期我們就來(lái)了解讀一下這些結(jié)果吧~
01
首先我們了解一下運(yùn)行完Cell Ranger之后菇夸,在哪里可以看到生成的結(jié)果。
還記得我們?cè)谶\(yùn)行Cell Ranger的時(shí)候有個(gè)參數(shù)--id嗎仪吧?--id=XXX庄新,這里的XXX就是最終生成的目錄,該目錄中保存了運(yùn)行過(guò)程中所有的中間文件、日記文件以及最終的結(jié)果择诈。如下圖:
其中outs目錄中即保存的最終結(jié)果械蹋,也是我們最后需要的。當(dāng)然如果中間出現(xiàn)了報(bào)錯(cuò)吭从,我們也可以通過(guò)查看日志文件朝蜘,例如:_log,查看具體的報(bào)錯(cuò)原因涩金,隨后進(jìn)行修改即可谱醇。
02
結(jié)果目錄"outs"
首先我們看一下outs目錄下的文件結(jié)構(gòu),如下圖:
這些結(jié)果中主要分成了兩部分:1. 集群中可以使用的結(jié)果(具體的內(nèi)容可以參考上期文章“單細(xì)胞分析流程之Cell Ranger”)步做;2. 網(wǎng)頁(yè)版報(bào)告副渴。
本期的重點(diǎn)是解讀網(wǎng)頁(yè)報(bào)告中的內(nèi)容。
03
網(wǎng)頁(yè)報(bào)告"web_summary.html"**
為了快速了解和方便的了解Cell Ranger定量之后的結(jié)果全度,我們首先會(huì)查看html文件煮剧,即web_summary.html,了解初步情況将鸵。如下圖:
可以看到該網(wǎng)頁(yè)中主要分成了兩部分:Summary和Analysis.
04
"Summary"**
1. 異常結(jié)果警告
如果數(shù)據(jù)中存在異常情況勉盅,網(wǎng)頁(yè)的上面會(huì)出現(xiàn)黃色的警告信息。小編這次跑的結(jié)果完全正常顶掉,所以找了一下之前遇到警告信息草娜,如下圖:
當(dāng)遇到這種報(bào)錯(cuò)情況的時(shí)候我們不要慌,首先看一下是哪些值異常痒筒,對(duì)數(shù)據(jù)有無(wú)影響以及解決辦法宰闰。在Detail部分會(huì)詳細(xì)解釋這個(gè)參數(shù)是什么,以及解決辦法簿透。例如上圖中說(shuō)到在運(yùn)行Cell Ranger的時(shí)候可以調(diào)用--force-cells參數(shù)移袍,小編之前也試過(guò),這個(gè)參數(shù)的修改需要不斷的嘗試老充,所以也沒(méi)有固定的值??
當(dāng)然如果這些報(bào)錯(cuò)信息并不影響結(jié)果葡盗,我們是可以用這個(gè)結(jié)果繼續(xù)往后分析的~
2. 細(xì)胞和基因數(shù)的統(tǒng)計(jì)
隨后就是查看這次分析中捕獲到的細(xì)胞數(shù)以及基因數(shù)的情況,從這里就能大概知道數(shù)據(jù)的情況蚂维。
小編也做過(guò)好多10X的數(shù)據(jù)戳粒,一般捕獲的細(xì)胞數(shù)都是5,000-10,000,平均的基因數(shù)大概是1,200-15,00虫啥,大家可以看看自己的數(shù)據(jù)是否也在這些范圍內(nèi)蔚约。如果這些值都是在可接受的范圍,那么就可以進(jìn)入下一步的分析啦~
3. 細(xì)胞的選取
隨后就是細(xì)胞的選取了(也是一個(gè)相當(dāng)重要的圖)涂籽,幫助我們更加直觀的篩選細(xì)胞(如下圖)
先我們先來(lái)看一下上方的折線圖怎么看:
Y軸是每個(gè)細(xì)胞中UMI的值苹祟,X軸是單個(gè)細(xì)胞的按照UMI大小的排序(降序),所以這個(gè)圖中的曲線是下降的趨勢(shì)。藍(lán)色的線是選取的細(xì)胞(和**2\. 細(xì)胞和基因數(shù)的統(tǒng)計(jì)**中的細(xì)胞數(shù)是一致的)树枫,灰色的線是背景直焙。
正常的數(shù)據(jù)來(lái)說(shuō)會(huì)有兩個(gè)下降的趨勢(shì)(如下圖),第1個(gè)下降的趨勢(shì):區(qū)分完整細(xì)胞和背景物質(zhì)(因?yàn)榧?xì)胞和其他物質(zhì)相比砂轻,真正細(xì)胞中會(huì)有更多的UMI奔誓,而其他物質(zhì)可能沒(méi)有或者由于一些污染能捕獲到少量的轉(zhuǎn)錄本,所以會(huì)出現(xiàn)第一個(gè)下降的趨勢(shì))搔涝;第2個(gè)下降的趨勢(shì):區(qū)分細(xì)胞的質(zhì)量厨喂,捕獲率低或細(xì)胞破碎(這類細(xì)胞中基因數(shù)會(huì)很少,導(dǎo)致UMI數(shù)也少)庄呈,而正常的細(xì)胞中UMI多且分布比較接近蜕煌,所以質(zhì)量好和不好的細(xì)胞在UMI上也會(huì)存在很大的差異,隨后就出現(xiàn)了第2個(gè)下降趨勢(shì)诬留。
當(dāng)數(shù)據(jù)出現(xiàn)了這兩個(gè)下降趨勢(shì)斜纪,且在藍(lán)色區(qū)域的線條比較平穩(wěn)時(shí),也能說(shuō)明我們的數(shù)據(jù)質(zhì)量好~
4. 測(cè)序結(jié)果統(tǒng)計(jì)
繼續(xù)往下走文兑,下一部分是測(cè)序的信息盒刚,包括總的reads數(shù)目以及一些質(zhì)控的指標(biāo),一般情況下Q30>90%表明質(zhì)量是相當(dāng)不錯(cuò)的绿贞。
當(dāng)我們看數(shù)據(jù)的時(shí)候伪冰,如果遇到一些指標(biāo)不太明白是什么意思,大家可以點(diǎn)擊左上角的樟蠕?,隨后會(huì)列出下列指標(biāo)的解釋靠柑。
5. 比對(duì)結(jié)果統(tǒng)計(jì)
報(bào)告中除了會(huì)給出測(cè)序信息以外寨辩,也會(huì)給出與基因組的比對(duì)信息,主要包括Genome歼冰、Intergenic靡狞、Intronic、 Exonic隔嫡、Transcriptome甸怕、Antisense to Gene(見下圖)。
雖然測(cè)序和比對(duì)結(jié)果都是一些常規(guī)的質(zhì)控信息腮恩,當(dāng)我們數(shù)據(jù)一切正常的時(shí)候梢杭,看這些指標(biāo)可能沒(méi)有那么重要,但是一旦我們的數(shù)據(jù)比較奇怪的時(shí)候秸滴,例如發(fā)現(xiàn)檢測(cè)到的細(xì)胞數(shù)還行武契,但是基因數(shù)特別少,這個(gè)時(shí)候測(cè)序和比對(duì)結(jié)果就相當(dāng)重要了!小編之前遇到一個(gè)數(shù)據(jù)就是檢測(cè)到的基因數(shù)特別少咒唆,然后聚類的時(shí)候就結(jié)果很差届垫,后來(lái)就返回去看這些質(zhì)控信息,驚奇的發(fā)現(xiàn)很多reads都是比對(duì)到了基因間區(qū)全释!
所以測(cè)序的reads根本就沒(méi)有落在基因上装处,導(dǎo)致了最終每個(gè)細(xì)胞檢測(cè)到的基因非常少,然后再去繼續(xù)往下找原因浸船。
妄迁。所以呀,還是得多看數(shù)據(jù)糟袁,從那以后判族,數(shù)據(jù)下來(lái)小編都會(huì)先看看這些質(zhì)控信息是否正常,才會(huì)繼續(xù)往后做(質(zhì)控也是做科研非常重要的一步呀~)
6. 樣本信息
最后一部分就是樣本信息啦(如下圖)~
這一部分就是在運(yùn)行Cell Ranger時(shí)候的參數(shù)信息项戴,例如樣本名形帮、Chemistry(運(yùn)行Cell Ranger時(shí)候我們沒(méi)有設(shè)置這個(gè)參數(shù),那么就默認(rèn)選擇auto:自動(dòng)配置周叮,在報(bào)告中會(huì)給出具體的類型辩撑,這個(gè)就是3' V3版本)、Reference以及Reference路徑等等仿耽。這些信息的給出方便后面查找信息合冀。
05
"Analysis"**
****介紹完Summary之后,下面就是Analysis.
1. 分群結(jié)果
左圖:在TNSE中映射每個(gè)細(xì)胞UMI的值项贺;右圖:TSNE中分群的情況君躺。
Cell Ranger做完定量之后呢,會(huì)默認(rèn)拿已有的結(jié)果跑一下基本的分群开缎,所以在看報(bào)告的時(shí)候我們也可以看一下這里的分群結(jié)果棕叫,心里大概有個(gè)數(shù)~
2. 基因差異表達(dá)分析
Cell Ranger除了做了分群以外,還找了每個(gè)群差異表達(dá)的基因奕删,類似于Seurat中的 "FindAllMarkers"俺泣。
這里比較好的是,上面Graph-based如果選擇K=2完残,那么這里差異基因列表也會(huì)隨之變動(dòng)伏钠。所以如果覺得Cell Ranger的分群結(jié)果已經(jīng)很符合自己的預(yù)期了,完全可以就用這個(gè)結(jié)果了谨设,而且還可以自己選擇分群的個(gè)數(shù)(直接網(wǎng)頁(yè)挑選熟掂,人性化呀)
3. 飽和度評(píng)估
對(duì) reads 抽樣,計(jì)算不同抽樣條件下檢測(cè)到的轉(zhuǎn)錄本數(shù)量占檢測(cè)到的所有轉(zhuǎn)錄本的比例(測(cè)序飽和度)铝宵,如下圖:
曲線末端接近平滑狀態(tài)說(shuō)明測(cè)序達(dá)到飽和打掘,因?yàn)槔^續(xù)增加測(cè)序量华畏,檢測(cè)到的轉(zhuǎn)錄本也不會(huì)有特別大的變化
對(duì) reads 抽樣,計(jì)算不同抽樣條件下檢測(cè)基因數(shù)目的分布尊蚁,如下圖:
同樣地亡笑,曲線末端接近平滑狀態(tài)說(shuō)明測(cè)序達(dá)到飽和,因?yàn)槔^續(xù)增加測(cè)序量横朋,每個(gè)細(xì)胞檢測(cè)到的基因數(shù)也不會(huì)有特別大的變化
好啦仑乌,這期就先講到這里,我們下期再見~