part1: 釋義
在單細(xì)胞RNA測序(single-cell RNA sequencing)分析中,幾個與細(xì)胞質(zhì)量評估相關(guān)的關(guān)鍵指標(biāo)嚼酝,以及如何解讀條形碼(barcode)排名圖浮还。這些指標(biāo)幫助我們了解測序數(shù)據(jù)的質(zhì)量、細(xì)胞的捕獲情況闽巩、UMI(Unique Molecular Identifier)計數(shù)和基因的表達(dá)情況钧舌。下面我會詳細(xì)解釋每個術(shù)語及其含義。
-
Cells(細(xì)胞)
? 這是指在實驗中檢測到的實際細(xì)胞數(shù)量又官。這個值是通過分析與細(xì)胞相關(guān)聯(lián)的條形碼(barcodes)來估算的。條形碼是單細(xì)胞測序中用于標(biāo)記和區(qū)分不同細(xì)胞的序列漫试。
-
Estimated Number of Cells(估計細(xì)胞數(shù)量)
? 估計的細(xì)胞數(shù)量是指至少與一個細(xì)胞相關(guān)聯(lián)的條形碼的數(shù)量六敬。每個條形碼對應(yīng)一個單細(xì)胞,因此通過統(tǒng)計這些條形碼的數(shù)量可以估算實驗中捕獲的細(xì)胞總數(shù)驾荣。這個指標(biāo)幫助你了解實驗捕獲了多少細(xì)胞外构。
-
Fraction Reads in Cells(細(xì)胞內(nèi)的讀段比例)
? 這是指那些擁有有效條形碼并且被精確地映射到基因組的序列讀段(reads)中,有多少比例是與細(xì)胞條形碼相關(guān)聯(lián)的播掷。這個值的高低可以反映測序數(shù)據(jù)的質(zhì)量审编。如果比例較高,意味著大部分讀段確實來源于細(xì)胞歧匈,而非背景噪音垒酬。
-
Mean Reads per Cell(每個細(xì)胞的平均讀段數(shù))
? 這是指測序讀段的總數(shù)除以細(xì)胞條形碼的數(shù)量,計算出每個細(xì)胞平均分配到的讀段數(shù)量件炉。這個指標(biāo)幫助你了解每個細(xì)胞捕獲了多少測序數(shù)據(jù)勘究,通常反映實驗中的數(shù)據(jù)深度。
-
Median UMI Counts per Cell(每個細(xì)胞的中位UMI計數(shù))
? UMI是指測序時為了去除PCR擴增偏差而使用的唯一分子標(biāo)簽斟冕。這個指標(biāo)表示每個細(xì)胞條形碼關(guān)聯(lián)的UMI計數(shù)的中位數(shù)口糕,幫助你了解在不同細(xì)胞之間,UMI的分布情況磕蛇。UMI數(shù)的多少可以反映出每個細(xì)胞中檢測到的轉(zhuǎn)錄本數(shù)量景描。
-
Median Genes per Cell(每個細(xì)胞的中位基因數(shù))
? 這個指標(biāo)表示每個細(xì)胞條形碼檢測到的基因數(shù)的中位數(shù)十办。基因檢測是基于至少有1個UMI計數(shù)的基因超棺。這幫助你了解每個細(xì)胞中平均表達(dá)了多少個基因向族,通常用于評估測序數(shù)據(jù)的復(fù)雜性。
-
Total Genes Detected(檢測到的總基因數(shù))
? 這是指在所有細(xì)胞中说搅,至少有一個UMI計數(shù)的基因總數(shù)炸枣。這表明整個數(shù)據(jù)集里,有多少基因在至少一個細(xì)胞中表達(dá)弄唧。這可以反映出實驗中基因表達(dá)的廣度适肠。
-
Barcode Rank Plot(條形碼排名圖)
? 該圖顯示了每個條形碼的UMI計數(shù)(即與每個條形碼關(guān)聯(lián)的UMI數(shù)量)。條形碼的排名是根據(jù)UMI計數(shù)的降序排列候引,排名靠前的條形碼往往對應(yīng)著含有更多UMI計數(shù)的細(xì)胞侯养。需要注意的是,條形碼是否與細(xì)胞相關(guān)聯(lián)不僅僅取決于UMI計數(shù)澄干,還可能根據(jù)表達(dá)特征進行判定逛揩。圖中還可能顯示通過蛋白聚集檢測和過濾(Protein Aggregate Detection and Filtering)或高占用GEM(Gel Bead in Emulsion)過濾(High Occupancy GEM Filtering)去除的背景條形碼。
? 在條形碼排名圖中麸俘,不同顏色表示不同區(qū)域的條形碼密度辩稽,幫助你區(qū)分哪些條形碼與細(xì)胞有關(guān),哪些與背景噪音有關(guān)从媚。當(dāng)你懸停在圖上的某個區(qū)域時逞泄,會顯示該區(qū)域中條形碼被判定為細(xì)胞的數(shù)量及百分比,同時顯示該區(qū)域的條形碼的UMI計數(shù)和條形碼排名拜效。
part2: 范圍
在單細(xì)胞RNA測序分析中喷众,不同實驗的條件、測序平臺紧憾、細(xì)胞類型等因素都會影響這些質(zhì)量控制(QC)指標(biāo)的合理范圍到千。因此,具體數(shù)值的“合理性”需要結(jié)合實驗背景來評估赴穗。以下是一般情況下憔四,每個指標(biāo)的參考范圍和判斷標(biāo)準(zhǔn):
-
Estimated Number of Cells(估計細(xì)胞數(shù)量)
? 參考范圍:根據(jù)實驗的設(shè)計,捕獲的細(xì)胞數(shù)量通常在幾千到幾十萬之間不等般眉。如果使用10X Genomics平臺加矛,通常單次實驗可以捕獲大約3000到10萬的細(xì)胞。
? 判斷標(biāo)準(zhǔn):估計細(xì)胞數(shù)量應(yīng)符合實驗設(shè)計煤篙。如果捕獲的細(xì)胞數(shù)明顯低于預(yù)期斟览,可能意味著細(xì)胞捕獲效率較低,或者部分細(xì)胞丟失辑奈。如果過高苛茂,可能表明有噪音或污染存在已烤。 -
Fraction Reads in Cells(細(xì)胞內(nèi)的讀段比例)
? 參考范圍:一般來說,該值應(yīng)高于60%-80%妓羊,意味著大部分測序讀段來自真實的細(xì)胞條形碼胯究。如果這個比例過低,說明很多讀段可能是噪音或背景躁绸。
? 判斷標(biāo)準(zhǔn):如果比例低于60%裕循,則表明實驗中的條形碼分配存在問題,或者細(xì)胞捕獲效率較低净刮。理想情況下剥哑,該值應(yīng)越高越好。 -
Mean Reads per Cell(每個細(xì)胞的平均讀段數(shù))
? 參考范圍:對于10X Genomics平臺淹父,每個細(xì)胞通常至少有2萬-5萬讀段株婴,達(dá)到高覆蓋度的實驗可以達(dá)到10萬讀段或更多。
? 判斷標(biāo)準(zhǔn):如果每個細(xì)胞的平均讀段數(shù)低于1萬暑认,可能表明測序深度不夠困介,導(dǎo)致數(shù)據(jù)質(zhì)量不高。如果數(shù)值過高蘸际,可能存在數(shù)據(jù)冗余座哩,表明測序深度超過了所需。 -
Median UMI Counts per Cell(每個細(xì)胞的中位UMI計數(shù))
? 參考范圍:該值通常在數(shù)千至數(shù)萬之間粮彤,具體取決于實驗設(shè)計和細(xì)胞類型根穷。常見范圍為1000到5000左右的UMI計數(shù)。
? 判斷標(biāo)準(zhǔn):UMI計數(shù)越高驾诈,意味著在每個細(xì)胞中檢測到的轉(zhuǎn)錄本越多缠诅。如果中位UMI計數(shù)低于500溶浴,可能表明捕獲效率低或測序深度不足乍迄。 -
Median Genes per Cell(每個細(xì)胞的中位基因數(shù))
? 參考范圍:對于哺乳動物細(xì)胞,通常每個細(xì)胞會檢測到1000-3000個基因士败。如果是某些高度活躍的細(xì)胞(如免疫細(xì)胞)闯两,這個值可能更高。
? 判斷標(biāo)準(zhǔn):每個細(xì)胞的中位基因數(shù)應(yīng)至少在800-1000個以上谅将。如果遠(yuǎn)低于這個數(shù)值漾狼,可能表示實驗數(shù)據(jù)的覆蓋率或細(xì)胞活性較差。如果檢測到的基因數(shù)過多饥臂,也可能提示捕獲了一些雙細(xì)胞(doublet)或存在噪音逊躁。 -
Total Genes Detected(檢測到的總基因數(shù))
? 參考范圍:檢測到的基因總數(shù)通常取決于實驗的深度和細(xì)胞類型。一般情況下隅熙,可以檢測到20000-30000個基因稽煤。
? 判斷標(biāo)準(zhǔn):這個指標(biāo)反映了整個數(shù)據(jù)集的基因表達(dá)廣度核芽。如果檢測到的基因數(shù)過少,可能是測序深度不夠或細(xì)胞活性較差酵熙。反之轧简,如果總基因數(shù)過高,可能意味著有噪音或雙細(xì)胞污染匾二。 -
Barcode Rank Plot(條形碼排名圖)
? 參考解讀:條形碼排名圖的目的是幫助你區(qū)分細(xì)胞條形碼和背景噪音條形碼哮独。通常情況下,在條形碼排名圖的高UMI部分會看到一個“膝蓋”形狀的拐點察藐,拐點之前的條形碼被認(rèn)為是真正與細(xì)胞關(guān)聯(lián)的皮璧,之后的條形碼則是背景噪音或低質(zhì)量條形碼。
? 判斷標(biāo)準(zhǔn):拐點清晰转培,且前半部分條形碼的UMI計數(shù)較高(通常每個條形碼UMI計數(shù)大于100)恶导,表示細(xì)胞與背景條形碼區(qū)分明確。如果沒有明顯的拐點浸须,或者很多條形碼的UMI計數(shù)較低惨寿,可能表明實驗數(shù)據(jù)中存在較多背景噪音或低質(zhì)量條形碼。
歡迎一起討論交流删窒,來合作呀裂垦!