RNA-seq的counts值魂奥,RPM, RPKM, FPKM, TPM 的異同
現(xiàn)在常用的基因定量方法包括:RPM, RPKM, FPKM, TPM终抽。這些表達(dá)量的主要區(qū)別是:通過不同的標(biāo)準(zhǔn)化方法為轉(zhuǎn)錄本豐度提供一個(gè)數(shù)值表示势木,以便于后續(xù)差異分析蛛倦。
標(biāo)準(zhǔn)化的主要目的是去除測(cè)序數(shù)據(jù)的技術(shù)偏差:測(cè)序深度和基因長度。
測(cè)序深度:同一條件下啦桌,測(cè)序深度越深溯壶,基因表達(dá)的read讀數(shù)越多。
基因長度:同一條件下甫男,不同的基因長度產(chǎn)生不對(duì)等的read讀數(shù)且改,基因越長,該基因的read讀數(shù)越高板驳。
Counts值
對(duì)給定的基因組參考區(qū)域又跛,計(jì)算比對(duì)上的read數(shù),又稱為raw count(RC)若治。
計(jì)數(shù)結(jié)果的差異的影響因素:落在參考區(qū)域上下限的read是否需要被統(tǒng)計(jì)慨蓝,按照什么樣的標(biāo)準(zhǔn)進(jìn)行統(tǒng)計(jì)。
RPM (Reads per million mapped reads)
RPM方法:10^6標(biāo)準(zhǔn)化了測(cè)序深度的影響端幼,但沒有考慮轉(zhuǎn)錄本的長度的影響礼烈。
RPM適合于產(chǎn)生的read讀數(shù)不受基因長度影響的測(cè)序方法,比如miRNA-seq測(cè)序婆跑,miRNA的長度一般在20-24個(gè)堿基之間此熬。
RPKM/FPKM (Reads/Fragments per kilo base per million mapped reads)
RPKM/FPKM方法:103標(biāo)準(zhǔn)化了基因長度的影響,106標(biāo)準(zhǔn)化了測(cè)序深度的影響。
FPKM方法與RPKM類似犀忱,主要針對(duì)雙末端RNA-seq實(shí)驗(yàn)的轉(zhuǎn)錄本定量募谎。在雙末端RNA-seq實(shí)驗(yàn)中,有左右兩個(gè)對(duì)應(yīng)的read來自相同的DNA片段峡碉。在進(jìn)行雙末端read進(jìn)行比對(duì)時(shí)近哟,來自同一DNA片段的高質(zhì)量的一對(duì)或單個(gè)read可以定位到參考序列上。為避免混淆或多次計(jì)數(shù)鲫寄,統(tǒng)計(jì)一對(duì)或單個(gè)read比對(duì)上的參考序列片段(Fragment)吉执,來計(jì)算FPKM,計(jì)算方法同RPKM地来。
RPKM/FPKM與RPM的區(qū)別:考慮了基因長度對(duì)read讀數(shù)的影響戳玫。
RPKM與FPKM的區(qū)別:RPKM值適用于單末端RNA-seq實(shí)驗(yàn)數(shù)據(jù),F(xiàn)PKM適用于雙末端RNA-seq測(cè)序數(shù)據(jù)未斑。
RPKM/FPKM適用于基因長度波動(dòng)較大的測(cè)序方法咕宿,如lncRNA-seq測(cè)序,lncRNA的長度在200-100000堿基不等蜡秽。
TPM (Transcript per million)
TPM的計(jì)算方法也同RPKM/FPKM類似府阀,首先使用式2計(jì)算每個(gè)基因的表達(dá)值,去除基因長度的影響芽突。隨后計(jì)算每個(gè)基因的表達(dá)量的百分比试浙,最后再乘以10^6,TPM可以看作是RPKM/FPKM值的百分比寞蚌。
(http://www.bio-info-trainee.com/2017.html)
相當(dāng)于重新標(biāo)準(zhǔn)化的文庫田巴,保證每個(gè)樣本中所有TPM的總和是相同的。
TPM與RPKM/FPKM的區(qū)別:從計(jì)算公式來說挟秤,唯一的不同是計(jì)算操作的順序壹哺,TPM是先去除了基因長度的影響,而RPKM/FPKM是先去除測(cè)序深度的影響艘刚,具體可看這篇博文管宵,有計(jì)算步驟的詳細(xì)說明;TPM實(shí)際上改進(jìn)了RPKM/FPKM方法在跨樣品間定量的不準(zhǔn)確性攀甚。
TPM的使用范圍與RPKM/FPKM相同啄糙。
總結(jié)
raw count作為原始的read計(jì)數(shù)矩陣是一個(gè)絕對(duì)值,而絕對(duì)值的特點(diǎn)是規(guī)模不同(基因長度云稚、測(cè)序深度)隧饼,不可以比較。進(jìn)行這些基因標(biāo)準(zhǔn)化方法的目的是將count矩陣轉(zhuǎn)變?yōu)橄鄬?duì)值静陈,去除技術(shù)偏差的影響燕雁,使后續(xù)的差異分析具有統(tǒng)計(jì)學(xué)的意義诞丽。
參考資料
A comprehensive evaluation of normalization methods for Illumina high-throughput RNA sequencing data analysis
https://www.biostars.org/p/273537/
What the FPKM? A review of RNA-Seq expression units
http://www.rna-seqblog.com/rpkm-fpkm-and-tpm-clearly-explained/
本文分享自微信公眾號(hào) - 生信技能樹(biotrainee),作者:Arjuna