作者:二十八畫生
審稿:童蒙
編輯:amethyst
引言
經(jīng)常看到類似的提問:轉(zhuǎn)錄組測序分析中FPKM和TPM哪個歸一化方法好码荔?小編并不盲從漩勤,此前一直使用FPKM,Nature缩搅、Science和Cell文章都能看到FPKM的身影越败。不過小編最近對轉(zhuǎn)錄組定量歸一化方法有了新的認(rèn)識,借此機會同大家分享幾種歸一化方法的異同和分析工具硼瓣。
目前究飞,轉(zhuǎn)錄組測序(RNA-seq)分析是非常成熟的研究手段,有眾多分析工具和方法供大家使用堂鲤,其中亿傅,對基因或轉(zhuǎn)錄本的讀段數(shù)目(read count)進(jìn)行歸一化是一個非常重要的分析過程,如何對基因區(qū)域進(jìn)行準(zhǔn)確的定量和歸一化瘟栖,是大家十分關(guān)心的核心問題之一葵擎。
無疑,轉(zhuǎn)錄組測序雙端數(shù)據(jù)分析中半哟,目前FPKM是最常用的歸一化方法酬滤,那FPKM歸一化方法是最準(zhǔn)確的嗎?隨著生物信息分析技術(shù)的快速發(fā)展寓涨,F(xiàn)PKM或許已經(jīng)是“明日黃花”盯串。
1.歸一化的基本背景
總的來說,傳統(tǒng)的轉(zhuǎn)錄組定量方法是相對定量戒良,一個基因的定量結(jié)果很大程度上會受到基因的長度和測序深度的影響体捏。基因長度越長、測序深度越高译打,得到該基因的read counts就越多,相對表達(dá)水平也越高拇颅。所以奏司,在進(jìn)行下游分析的時候,例如聚類樟插、主成分分析韵洋,如果不進(jìn)行數(shù)據(jù)歸一化直接使用原始read count,簡直就是耍流氓黄锤。
因此搪缨,表達(dá)量歸一化的精確計算需要同時考慮基因長度、測序深度等信息鸵熟。
2.歸一化方法的異同
下表列舉了不同組學(xué)數(shù)據(jù)分析的歸一化方法:
早期副编,RNA-seq測序為單端測序,一般使用最為經(jīng)典的RPKM(Reads Per Kilobase Million)進(jìn)行數(shù)據(jù)歸一化流强,儼然轉(zhuǎn)錄組歸一化界的老大哥痹届,不僅在轉(zhuǎn)錄組領(lǐng)域占有一席之地,而且在表觀數(shù)據(jù)歸一化方面也有較為廣泛的應(yīng)用打月;而當(dāng)前FPKM作為最常用的雙端數(shù)據(jù)歸一化方法走向了臺前队腐,F(xiàn)PKM兼顧了基因的長度和深度信息使得數(shù)據(jù)歸一化更為準(zhǔn)確。
RPKM公式如下:
其中奏篙,nr是比對到基因的read counts; L是基因的外顯子長度之和除以1000柴淘;N是總有效比對到基因組的read counts。
FPKM公式如下:
其中秘通,nf是比對到基因的插入片段數(shù)目为严,其余參數(shù)與RPKM一致。
然而充易,金無足赤梗脾,作為老戲骨的FPKM有一個明顯的缺點是不同樣本/批次數(shù)據(jù)的歸一化數(shù)值總和不一致,那么在進(jìn)行下游分析時就會出現(xiàn)問題盹靴。
小鮮肉兒炸茧,TPM(Transcripts Per Million)正是為了解決該問題而生。為了保證比較組樣本間的歸一化數(shù)值總和相同稿静,即TPM總和為1M梭冠,所以可以直接TPM對樣本進(jìn)行比較,定量效果更為理想改备,總而言之TPM并非靠臉吃飯控漠。
TPM公式如下:
Ni為比對到第i個exon的reads數(shù)目;Li為第i個exon的長度;sum(N1/L1+N2/L2 + ... + Nn/Ln)為所有 (n個)exon按長度進(jìn)行標(biāo)準(zhǔn)化之后數(shù)值之和盐捷。
由于基因長度和轉(zhuǎn)錄本豐度各異偶翅,RPKM和FPKM直接使用read counts或fragment counts會對歸一化帶來偏差,TPM之所以更加有效是因為碉渡,它不是直接除以有效比對的read counts總數(shù)聚谁,而是除以經(jīng)過基因長度歸一化后的read counts總數(shù),故使用TPM對定量歸一化更加合理和科學(xué)滞诺。
既然TPM更加優(yōu)秀形导,那么眾多科研工作者還在普遍使用RPKM/FPKM歸一化方法呢,主要原因有:
- TPM和FPKM存在正相關(guān)性习霹,且RPKM/FPKM在一定程度上符合實驗的驗證結(jié)果朵耕,包括公式提出者和科研工作者在內(nèi)都能得到比較理想的驗證結(jié)果;
- 大家都這么用淋叶,相關(guān)的文章很普遍的使用RPKM或FPKM阎曹,定量方法沒有翻天覆地的變化,沒有意識到定量與生物學(xué)問題直接的聯(lián)系煞檩。
3.如何計算TPM值
通常芬膝,定量之前需要利用二代數(shù)據(jù)進(jìn)行轉(zhuǎn)錄本的組裝,常用的軟件有Cufflinks和StringTie形娇;如果有參考基因組測序reads可以直接進(jìn)行比對和定量以及歸一化锰霜,如RSEM和eXpress軟件。
當(dāng)然還有不依賴于參考基因組比對后組裝的軟件桐早,直接使用reads進(jìn)行轉(zhuǎn)錄本組裝定量癣缅,如Sailfish、Salmon哄酝、quasi-mapping和kallisto友存。
以上具體軟件的使用和適用條件,大家可自行閱讀參考資料5對應(yīng)的良心文章陶衅。
TPM值簡要計算思路如下:
-
計算read count
使用HTSeq-count或featureCounts計算各個基因區(qū)間的read counts屡立,二者計算count值差別不大,且后者速度較快搀军,推薦使用膨俐。
-
原始read count校正、加和
norm_read_count = read_count / (gene_length / 1000)
全部校正后的read count數(shù)值加和罩句,得到total_read_count
-
計算TPM值
TPM = read_count * 1000 * 1000000 / (gene_length * total_read_count)
至此焚刺,就得到了一個基因的歸一化的read count數(shù)值。
4.差異表達(dá)分析
既然TPM歸一化方法更好门烂,是不是要采用TPM數(shù)值作為輸入來進(jìn)行差異表達(dá)分析呢乳愉?
其實兄淫,現(xiàn)有的差異分析軟件往往并不支持歸一化的數(shù)據(jù)作為輸入來進(jìn)行差異比較,幾乎所有軟件都使用raw read count作為輸入蔓姚,內(nèi)部進(jìn)行歸一化和統(tǒng)計檢驗捕虽。常用的差異表達(dá)分析軟件有基于read count的DESeq2、limma坡脐、edgeR薯鳍,和基于轉(zhuǎn)錄本組裝的Cuffdiff、Ballgown或sleuth挨措。
回到剛才的問題,TPM是對單個樣本在組內(nèi)進(jìn)行的歸一化崩溪,差異分析是尋找不同樣本之前相同基因的表達(dá)差異浅役,不是同一個層面的問題。歸一化后的數(shù)據(jù)集更為集中伶唯、數(shù)值變小觉既,導(dǎo)致樣本間的差異本身被人為縮小,很可能帶來沒有差異表達(dá)基因的后果乳幸,導(dǎo)致錯誤的分析方法瞪讼。
另外,比較不同樣本間同一基因的read count只需要平行比較組間的數(shù)據(jù)即可粹断,不需要考慮基因長度的影響符欠,也不需要對單個樣本內(nèi)的數(shù)據(jù)進(jìn)行歸一化。
5.TPM的缺陷
轉(zhuǎn)錄組數(shù)據(jù)定量歸一化方法有很多瓶埋,經(jīng)典的RPKM/FPKM因其本身固有的缺陷希柿,越來越多的學(xué)者采用TPM這一冉冉升起的新星,大有取而代之的勢頭养筒。
其實曾撤,不管TPM、RPKM還是FPKM都是相對定量的歸一化方法晕粪。定量的前提需要樣本的表達(dá)量變化比較穩(wěn)定挤悉,不能出現(xiàn)整體的上調(diào)或下調(diào),或者個別基因表達(dá)量發(fā)生劇烈變化巫湘,否則定量歸一化方法可能會失效装悲。
另外,傳統(tǒng)轉(zhuǎn)錄組測序在信息分析過程中通常不會去除duplicate reads尚氛,因為根本不知道這些reads是多個表達(dá)拷貝的結(jié)果衅斩,還是文庫構(gòu)建中PCR duplication產(chǎn)生的結(jié)果。為了在源頭實現(xiàn)精確定量怠褐,可以在reads中追加序列唯一的UMI(Unique Melocular Identifier)分子標(biāo)簽畏梆,這樣攜帶相同UMI標(biāo)簽的reads認(rèn)為是duplicate reads,保留一條質(zhì)量值最高的read即可,從而實現(xiàn)較為準(zhǔn)確的絕對定量奠涌。
6.如何實現(xiàn)絕對定量
轉(zhuǎn)錄組測序的終極目的是基于表達(dá)量來發(fā)掘背后的生物學(xué)問題宪巨,問題是表達(dá)量真的準(zhǔn)確嗎?
序列偏好溜畅、cDNA反轉(zhuǎn)錄捏卓、文庫PCR擴增、測序擴增等都會增加解讀數(shù)據(jù)的難度慈格。如何解釋常規(guī)轉(zhuǎn)錄組數(shù)據(jù)面需要解決的問題比較多怠晴,不僅僅是定量這一個方面。
忽如一夜春風(fēng)來浴捆,最近各個科服大廠都在討論轉(zhuǎn)錄組UMI定量的事情蒜田。UMI正如火如荼的使用在單細(xì)胞轉(zhuǎn)錄組的研究中,同時整合barcode选泻、UMI信息對單細(xì)胞數(shù)據(jù)進(jìn)行解讀冲粤。
早在2012年,關(guān)于digital轉(zhuǎn)錄組UMI定量的文章就已發(fā)表页眯,作者系統(tǒng)的討論了UMI或barcode序列的設(shè)計思路梯捕、性能驗證等工作∥涯欤總之傀顾,UMI定量更加準(zhǔn)確、測序序列可以相互校正從而提高序列準(zhǔn)確性碌奉,更重要的是對于低拷貝轉(zhuǎn)錄本的定量也更為準(zhǔn)確锣笨。
建庫定量示意圖如下:
基于二代測序免不了進(jìn)行轉(zhuǎn)錄本組裝,組裝過程可能引入組裝錯誤或剪切體的丟失道批。而三代測序所測即所得的特點則不存在上述問題的困擾错英,與UMI/barcode相結(jié)合不失為一種更高效的思路,以市面上比較流行的PacBio三代測序平臺為例隆豹,在克服轉(zhuǎn)錄本產(chǎn)出低椭岩、片段選擇等問題后其轉(zhuǎn)錄本準(zhǔn)確定量則水到渠成。
名詞術(shù)語
1. RPKM: Reads Per Kilobase Million
2. FPKM: Fragments Per Kilobase Million
3. TPM: Transcripts Per Millon
4. RPM: Reads Per Millon
5. RPGC: Reads Per Genomic Content, defined as total number of mapped reads * fragment length) / effective genome size
6. BPM (per bin): number of reads per bin / sum of all reads per bin (in millions)
7. SRPBM: Spliced Reads per Billion Mapping, defined as number of circular reads / (number of mapped reads * read length )
8. fragment: region between read1 and read2
9. UMI: Unique Melocular Identifier
參考資料
- Ali Mortazavi et al. Mapping and quantifying mammalian transcriptomes by RNA-Seq. Nature Methods, 2008
- http://www.rna-seqblog.com/rpkm-fpkm-and-tpm-clearly-explained/
- Bo Li, et al. RNA-Seq gene expression estimation with read mapping uncertainty. Bioinformatics, 2010
- https://haroldpimentel.wordpress.com/2014/05/08/what-the-fpkm-a-review-rna-seq-expression-units/
- Sahraeian, S.M.E. et al. Gaining comprehensive biological insight into the transcriptome by performing a broad-spectrum RNA-seq analysis. Nat Commun, 2017
- https://bioinform.github.io/rnacocktail/
- https://www.biorxiv.org/content/10.1101/472571v2.full
- Katsuyuki Shiroguchi et al .Digital RNA sequencing minimizes sequence-dependent bias and amplification noise with optimized single-molecule barcodes. PNAS, 2012