RNA-seq中的基因表達(dá)量計(jì)算和表達(dá)差異分析
原文鏈接:RNA-seq中的基因表達(dá)量計(jì)算和表達(dá)差異分析-生物知識(shí)學(xué)習(xí) (biotechknowledgestudy.com)
差異分析的步驟:
1)比對(duì)尉咕;
2) read count計(jì)算年缎;
3) read count的歸一化单芜;
4)差異表達(dá)分析洲鸠;
背景知識(shí):
1)比對(duì):
普通比對(duì): BWA馋缅,SOAP
開(kāi)大GAP比對(duì):Tophat(Bowtie2)萤悴;
2) Read count(多重比對(duì)的問(wèn)題):
丟棄
平均分配
利用Unique region估計(jì)并重新分配
表達(dá)量計(jì)算的本質(zhì)
目標(biāo)基因表達(dá)量相對(duì)參照系表達(dá)量的數(shù)值覆履。
參照的本質(zhì):
( 1)假設(shè)樣本間參照的信號(hào)值應(yīng)該是相同的;
( 2)將樣本間參照的觀測(cè)值校正到同一水平栖雾;
( 3)從參照的數(shù)值析藕,校正并推算出其他觀測(cè)量的值噪径。
例如:Qpcr:目標(biāo)基因表達(dá)量(循環(huán)數(shù))相對(duì)看家基因表達(dá)量(循環(huán)數(shù))数初;RNA-seq:目標(biāo)基因的表達(dá)量(測(cè)序reads數(shù))泡孩,相對(duì)樣本RNA總表達(dá)量(總測(cè)序量的reads數(shù))仑鸥,這是最常用的標(biāo)準(zhǔn)。
歸一化的原因及處理原則:
1)基因長(zhǎng)度
2)測(cè)序量
3)樣本特異性(例如意狠,細(xì)胞mRNA總量环戈,污染等)前兩者使用普通的RPKM算法就可以良好解決院塞,關(guān)鍵是第三個(gè)問(wèn)題性昭,涉及到不同的算法處理糜颠。
RNA-Seq歸一化算法的意義:
基因表達(dá)量歸一化:在高通量測(cè)序過(guò)程中,樣品間在數(shù)據(jù)總量鞠抑、基因長(zhǎng)度搁拙、基因數(shù)目箕速、高表達(dá)基因分布甚至同一個(gè)基因的不同轉(zhuǎn)錄本分布上存在差別朋譬。因此不能直接比較表達(dá)量徙赢,必須將數(shù)據(jù)進(jìn)行歸一化處理探越。
RNA-seq差異表達(dá)分析的一般原則
1)不同樣品的基因總表達(dá)量相似
2)上調(diào)差異表達(dá)與下調(diào)差異表達(dá)整體數(shù)量相似(上下調(diào)差異平衡)
3)在兩組樣品中不受處理效應(yīng)影響的基因钦幔, 表達(dá)量應(yīng)該是相近的(差異不顯著)鲤氢。
4)看家基因可作為表達(dá)量評(píng)價(jià)依據(jù)( 待定)
不同的算法比較:
以什么數(shù)值來(lái)衡量表達(dá)量:RPKM卷玉、FPKM相种、TPM
以什么作為參照標(biāo)準(zhǔn):TMM(edgeR軟件)品姓、De seq矯正
RPKM:是Reads Per Kilobase per Million mapped reads的縮寫(xiě)缭黔,代表每百萬(wàn)reads中來(lái)自于某基因每千堿基長(zhǎng)度的reads數(shù)。
本質(zhì):1)以reads數(shù)為計(jì)算單位别渔;
2)對(duì)基因長(zhǎng)度(基因間的比較)和總數(shù)據(jù)量(樣本間的比較)做矯正哎媚;
RPKM的弊端
1)由于可變剪切拨与,同一基因有效轉(zhuǎn)錄區(qū)域長(zhǎng)度未必相同(這個(gè)一般情況下可以不考慮买喧,了解一下:Cufflinks軟件考慮了這個(gè)問(wèn)題)優(yōu)化策略:外顯子或轉(zhuǎn)錄本水平的表達(dá)量分析淤毛。
2) 使用reads數(shù)計(jì)算基因表達(dá)量有輕微誤差(這里暫不展開(kāi)算柳,主要了解一下定義)優(yōu)化策略:FPKM或 TPM
3) mRNA的總量未必相等。
RPKM的優(yōu)化:FPKm
F = Fragment何荚,即測(cè)序片段數(shù)量餐塘。這些片段都是從完整的cDNA打碎而來(lái)的胁孙;
本質(zhì):以文庫(kù)中的片段數(shù)量為計(jì)算單位在Paired-end測(cè)序中涮较,一個(gè)fragment就是兩條PE reads構(gòu)成的片段冈止。由于是PE比對(duì)熙暴,理論上比SE比對(duì)更可靠。
RPKM的優(yōu)化:TPM
T = Transcripts
本質(zhì):以轉(zhuǎn)錄本的條數(shù)為計(jì)算單位掂器。使用轉(zhuǎn)錄本的條數(shù)(或者說(shuō):轉(zhuǎn)錄本的測(cè)序深度)国瓮,代替reads數(shù)狞谱,在一定條件下定量更準(zhǔn)跟衅,尤其樣本間表達(dá)基因總數(shù)差異很大的時(shí)候(例如,對(duì)照樣本有1萬(wàn)個(gè)基因表達(dá)掰读,另外處理組僅有4000個(gè)基因表達(dá))叭莫。
mRNA總量未必相等
mRNA總量不等——細(xì)胞本身不同
例如:活躍組織vs休眠的組織食寡;癌細(xì)胞vs正常細(xì)胞
mRNA總量不等——污染
例如:核糖體污染外源RNA污染
解決方法——不同算法比較
其中歸一化算法介紹:
1)Total Count(TC):總reads數(shù)矯正
2)Upper Quartile(UQ):上四分之一分位數(shù)(總reads)
矯正
3)Median(Med);中位數(shù)(總reads數(shù))矯正
4)Quantile (Q):基因芯片軟件limma中的校正算法善榛;
5)RPKM:總reads數(shù),但引入了基因長(zhǎng)度
6)幾何平均數(shù):Deseq軟件中的算法悼院;
7)TMM:edgeR軟件中的算法咒循;
8)RPKM
邏輯1:不同位置數(shù)值的穩(wěn)定性不同
四分位數(shù)quartile:將數(shù)據(jù)按從小到大排列颖医,并分成四等分,這樣得到3個(gè)分割點(diǎn)熔萧,第一個(gè)分割點(diǎn)叫做lowerquartile佛致,第二個(gè)叫Media俺榆,第三個(gè)叫Upper quartile
很顯然装哆,極大值具有極大不穩(wěn)定性,而且可能會(huì)顯著影
響總體之和(假設(shè)爹殊,我們之中有個(gè)馬云梗夸,我們的總收入
有什么變化号醉?)
所以,Upper quartile和Median的數(shù)值铅碍,比總表達(dá)量之
和更加穩(wěn)定胞谈,更適合作為參照。
邏輯2:表達(dá)量居中的基因的表達(dá)量值卿捎,其數(shù)值應(yīng)該是相似的午阵。
DESeq與edgeR底桂,默認(rèn)情況下都使用這一的邏輯校正惧眠。(DESeq and edgeR Bioconductor packages)
Deseq:異常高表達(dá)的基因,會(huì)顯著影響細(xì)胞中的總mRNA的數(shù)量猫十。類(lèi)似的呆盖,如果樣本中受到不同程度的外源RNA应又,如病毒乏苦、真菌等的污染汇荐,也會(huì)顯著影響樣本總mRNA數(shù),導(dǎo)致RPMK值的誤差旬蟋。對(duì)于這樣的問(wèn)題革娄,Deseq嘗試對(duì)數(shù)據(jù)進(jìn)行矯正(矯正因子)拦惋,使表達(dá)量處于中間位置的基因表達(dá)量應(yīng)該是基本相同的(即使用表達(dá)量處于中間的基因表達(dá)量值作為參照,而減少高表達(dá)基因的作用)首尼。
Deseq:?校正因子=樣本表達(dá)中位數(shù)/所有樣本表達(dá)量中位數(shù):回答了一個(gè)關(guān)鍵的問(wèn)題:Deseq不同差異比較組間软能,計(jì)算得到的表達(dá)量值不同。因
為樣本在變化破加,“所有樣本表達(dá)量的中位數(shù)”也在變動(dòng)范舀。RPKM:總表達(dá)量為參照
Deseq:中位數(shù)為參照
TMM(edgeR):與Deseq類(lèi)似锭环,在去除高表達(dá)基因和差異最大的基因后泊藕,TMM也是要找到一個(gè)加權(quán)系數(shù)娃圆,使剩余的基因在被矯正后差異倍數(shù)可能小讼呢。TMM的加權(quán)系數(shù)是基于兩兩樣本比較后推算獲得的(也就是兩組樣本的比較,將產(chǎn)生與這次比較相關(guān)的加權(quán)系數(shù))节沦。然后將所有基因除以這個(gè)加權(quán)系數(shù)甫贯,從而保證大部分表達(dá)量居中的基因表達(dá)量最相似叫搁。
不同RNA-seq表達(dá)量歸一化算法的區(qū)別
Deseq類(lèi)的校正算法:理論上更加穩(wěn)定失乾;但不同批次的比較會(huì)得到不同的表達(dá)量值碱茁,不利于進(jìn)行多處理組/批次數(shù)據(jù)的統(tǒng)一分析(例如,趨勢(shì)分析墓贿、共表達(dá)分析)校正會(huì)掩蓋一些問(wèn)題(例如:樣本污染)
RPKM類(lèi)的算法:?容易受異常高表達(dá)基因聋袋、外源污染等的干擾;但也更容易從結(jié)果的異常中幽勒,發(fā)現(xiàn)潛在問(wèn)題嗜侮;得到的表達(dá)量值是恒定的,多處理組/批次的數(shù)據(jù)可以合并分析啥容。折中的方法:使用RPKM類(lèi)的算法锈颗,但需要人工檢查數(shù)據(jù)是否
異常。備注: Deseq軟件也可以關(guān)閉校正的功能咪惠。
實(shí)際經(jīng)驗(yàn)總結(jié)
總之:從多方面考慮击吱,RPKM類(lèi)算法,如果合理使用遥昧,依然是最優(yōu)的覆醇。具體問(wèn)題具體分析:在遇到問(wèn)題的時(shí)候,找到問(wèn)題的來(lái)源炭臭,從而給出解決方案(沒(méi)有完美的流程永脓,只有最佳解決方案)