測序深度(Sequencing Depth)
- 相當于測了幾遍;
- 指測序得到的總堿基數(shù)(bp)與所測物種基因組大小的比值惦蚊,其是評價測序量的重要指標之一器虾;
- 如:測序產生了1000條讀段(read)讯嫂,每條讀段的長度為50bp,所測物種的基因組大小為10000bp兆沙,那么測序深度為1000*50/10000=5X欧芽。
- 一般來說,測序深度越深越好葛圃,當然還需考慮一個成本的問題千扔。
- 全基因組測序,一般測序深度為30X以上對檢測基因組變異的可靠性會有很大幫助库正。
- 測序產生的錯誤率或假陽性結果會隨著測序深度的提升而下降曲楚。
此外還有測序覆蓋度(Sequencing Coverage):是指測序數(shù)據(jù)匹配到參考基因組上后,能夠覆蓋基因組的區(qū)域比率褥符。因為基因組有些區(qū)域重復序列較復雜或測序難以捕獲到龙誊,那么這些區(qū)域可能就不會被測序讀段所覆蓋。
如測序產生了1000條讀段(read)喷楣,每條讀段的長度為50bp趟大,所測物種的基因組大小為10000bp,測序讀段匹配到參考基因組后能夠覆蓋9000bp的參考基因組铣焊,那么測序覆蓋度就為9000/10000=90%逊朽。
RPKM、FKPM粗截、TPM惋耙、CPM
- 統(tǒng)計比對到基因上的reads即為的counts即為測序原始表達矩陣,rawdata熊昌。
- 但由于兩大原因(不同樣本的測序深度绽榛,不同基因的長度)直接用counts比較將沒有意義,因此需要進行標準化婿屹。
(1)不同樣本的測序深度:例如sample1測序深度為5X灭美,sample2測序深度為15,自然sample2的基因counts都比sample1的高很多昂利。如若消除届腐,計算比例即可。即針對每一樣本蜂奸,計算每一個基因counts相對于整體測序深度的比例犁苏。
(2)不同基因的長度:例如geneA長度為1KB,geneB長度為10KB扩所;那么geneB的counts數(shù)總體都大于geneA围详。若相除,則計算基因平均每KB的表達量即可。
- RPKM助赞、FKPM买羞、TPM是實現(xiàn)消除上述二者影響的方法,三者差異如下雹食。
RPKM
- Reads Per Kilobase of exon model per Million mapped reads
- 公式大致就是某一基因的counts先除以測序深度(總reads數(shù))畜普,再除以基因長度。
(1)由于總reads太大了群叶,直接除以這個數(shù)字就會使得標準化出來的Read數(shù)出現(xiàn)太多的小數(shù)吃挑,所以為了美觀,一般都是除以以百萬為單位的總Read數(shù)盖呼;假定一次RNA-seq的總Read數(shù)為2*10^7儒鹿, 那么在進行Read標準化的時候化撕,并不是直接除以這個數(shù)值几晤,而是除以20,因為2*10^7 = 20*10^6 = 20M
(2)第二次除以的基因長度值植阴,按KB為單位蟹瘾,即1000。
注意順序:是先除以總reads數(shù)掠手;再除以基因長度憾朴。
參考筆記“手動”計算FPKM,可以更好的理解這個公式喷鸽。
FPKM
- FPKM同RPKM是一樣的众雷,只是RPKM用于單末端測序,而FPKM用于雙末端測序做祝。
TPM
- TPM的計算方法其實也同RPKM很類似砾省,同樣的對基因長度和測序深度進行標準化;
-
即counts先除基因長度混槐,再除總reads數(shù)编兄。這樣每個樣本最后的結果和都相等,不同樣本間差異更清楚声登。
可以看到每個樣本的TPM的總和是相同的(都是10)狠鸳,這就意味著TPM數(shù)值能體現(xiàn)出比對上某個基因的reads的比例,使得該數(shù)值可以直接進行樣本間的比較悯嗓。
事實也證明TPM的標準化方法更有優(yōu)勢件舵,目前都已經推薦進行TPM標準化,不再使用了RPKM脯厨、FPKM了铅祸。
CPM
- Counts per million (CPM) mapped reads are counts scaled by the number of fragments you sequenced (N) times one million. This unit is related to the FPKM without length normalization and a factor of 10^3
- 即只對測序文庫(每個樣本總reads數(shù))標準化,而不對長度標準化俄认。這是因為个少,差異分析往往是同一基因在兩組或多組樣本量的差異洪乍,因此不必在計算單位長度基因的表達量。