低豐度也意味著可靠性低盟步,所以就算是差異大铺峭,也不會(huì)有太高的置信度
(1) 低表達(dá)量的基因?yàn)槭裁赐町惒伙@著州泊;
在計(jì)算兩個(gè)組樣本間基因的表達(dá)量是否有差異的時(shí)候,對(duì)于RNA-seq實(shí)際上就是分析這個(gè)基因的reads數(shù)量在兩組間是否存在顯著差異磅轻。對(duì)于有生物學(xué)重復(fù)的實(shí)驗(yàn)設(shè)計(jì)來(lái)說(shuō),隨機(jī)誤差就包括測(cè)序隨機(jī)誤差和生物樣本的個(gè)體差異璧眠。其中渠鸽,對(duì)于低表達(dá)的基因來(lái)說(shuō),測(cè)序的隨機(jī)誤差影響是比較大的踩衩。打個(gè)比方:1個(gè)低豐度的基因A嚼鹉,在對(duì)照組是平均 2條reads,處理組是平均4條reads驱富。1個(gè)高豐度的基因B锚赤,在對(duì)照組是平均 2000條reads,處理組是平均4000條reads褐鸥。雖然看起來(lái)兩個(gè)基因的表達(dá)差異倍數(shù)都是上調(diào)了2倍线脚。但是,我們很容易判斷叫榕,A基因的表達(dá)差異受測(cè)序隨機(jī)誤差影響的概率更大(從2隨機(jī)波動(dòng)到4)浑侥,但基因B的表達(dá)差異來(lái)自測(cè)序隨機(jī)誤差的概率則更小(從2000波動(dòng)到4000的可能性較形铩)寓落。從統(tǒng)計(jì)學(xué)上說(shuō),就是A基因差異不顯著荞下,B基因差異極顯著伶选。所以史飞,這就解釋了為什么低表達(dá)的基因往往即使差異倍數(shù)較大,其差異也是不顯著的考蕾,是因?yàn)槠涠繙?zhǔn)確性較差祸憋。如果要提高低豐度基因的定量準(zhǔn)確性,那么只有兩種途徑:
1)提高生物學(xué)重復(fù)的數(shù)量肖卧;
2)提高單個(gè)樣本的測(cè)序量蚯窥。
(2)在差異計(jì)算表達(dá)量的時(shí)候, 0表達(dá)量基因的如何處理塞帐;
在進(jìn)行差異統(tǒng)計(jì)檢驗(yàn)的時(shí)候拦赠,reads數(shù)量為0的基因,是允許存在的(不影響檢驗(yàn))葵姥。但在計(jì)算基因表達(dá)差異倍數(shù)的時(shí)候荷鼠,如果處理組(分母)的表達(dá)是0,當(dāng)然就會(huì)出現(xiàn)不可除(分母不能為0)榔幸。所以允乐,我們一般會(huì)給0表達(dá)的基因加上1個(gè)極小值(例如,0.001)削咆。這樣既不明顯影響結(jié)果牍疏,又解決了表達(dá)差異倍數(shù)不可計(jì)算的問(wèn)題。
(3)在所有樣本中都低表達(dá)的基因拨齐,是否有分析的意義鳞陨;
一般而言,在所有樣本中表達(dá)量都極低的基因往往是不會(huì)有重要的生物學(xué)意義的瞻惋。所以在分析結(jié)果中厦滤,可以將其刪除不考慮。當(dāng)然歼狼,低豐度基因的定義并沒(méi)有標(biāo)準(zhǔn)掏导,是人為設(shè)定的。例如羽峰,在所有樣本中表達(dá)量RPKM均值小于1碘菜。但也不排除,某些低豐度的基因就是我們的研究目的限寞。要研究這樣的基因,首先就要提高測(cè)序的準(zhǔn)確性仰坦。如同上文提到的履植,可以使用提高生物重復(fù)樣本數(shù)或加大測(cè)序量,來(lái)提高測(cè)序定量的精度悄晃。然后還需要使用Qpcr進(jìn)行進(jìn)一步驗(yàn)證玫霎。由于Qpcr可以進(jìn)行更高的擴(kuò)增循環(huán)數(shù)凿滤,所以對(duì)于低豐度基因的檢測(cè)敏感度,Qpcr是高于一般的RNA-seq的庶近。