低豐度也意味著可靠性低莺丑,所以就算是差異大掘宪,也不會有太高的置信度
1) 低表達量的基因為什么往往差異不顯著寇钉;
在計算兩個組樣本間基因的表達量是否有差異的時候搏恤,對于RNA-seq實際上就是分析這個基因的reads數(shù)量在兩組間是否存在顯著差異违寿。對于有生物學重復的實驗設計來說湃交,隨機誤差就包括測序隨機誤差和生物樣本的個體差異。其中藤巢,對于低表達的基因來說搞莺,測序的隨機誤差影響是比較大的。打個比方:1個低豐度的基因A掂咒,在對照組是平均 2條reads才沧,處理組是平均4條reads。1個高豐度的基因B绍刮,在對照組是平均 2000條reads温圆,處理組是平均4000條reads。雖然看起來兩個基因的表達差異倍數(shù)都是上調了2倍录淡。但是捌木,我們很容易判斷,A基因的表達差異受測序隨機誤差影響的概率更大(從2隨機波動到4)嫉戚,但基因B的表達差異來自測序隨機誤差的概率則更信亳伞(從2000波動到4000的可能性較小)彬檀。從統(tǒng)計學上說帆啃,就是A基因差異不顯著,B基因差異極顯著窍帝。所以努潘,這就解釋了為什么低表達的基因往往即使差異倍數(shù)較大,其差異也是不顯著的坤学,是因為其定量準確性較差疯坤。如果要提高低豐度基因的定量準確性,那么只有兩種途徑:
1)提高生物學重復的數(shù)量深浮;
2)提高單個樣本的測序量压怠。
image.png
(2)在差異計算表達量的時候, 0表達量基因的如何處理飞苇;
在進行差異統(tǒng)計檢驗的時候菌瘫,reads數(shù)量為0的基因,是允許存在的(不影響檢驗)布卡。但在計算基因表達差異倍數(shù)的時候雨让,如果處理組(分母)的表達是0,當然就會出現(xiàn)不可除(分母不能為0)忿等。所以栖忠,我們一般會給0表達的基因加上1個極小值(例如,0.001)。這樣既不明顯影響結果娃闲,又解決了表達差異倍數(shù)不可計算的問題虚汛。
(3)在所有樣本中都低表達的基因,是否有分析的意義皇帮;
一般而言,在所有樣本中表達量都極低的基因往往是不會有重要的生物學意義的蛋辈。所以在分析結果中属拾,可以將其刪除不考慮。當然冷溶,低豐度基因的定義并沒有標準渐白,是人為設定的。例如逞频,在所有樣本中表達量RPKM均值小于1纯衍。但也不排除,某些低豐度的基因就是我們的研究目的苗胀。要研究這樣的基因襟诸,首先就要提高測序的準確性。如同上文提到的基协,可以使用提高生物重復樣本數(shù)或加大測序量歌亲,來提高測序定量的精度。然后還需要使用Qpcr進行進一步驗證澜驮。由于Qpcr可以進行更高的擴增循環(huán)數(shù)陷揪,所以對于低豐度基因的檢測敏感度,Qpcr是高于一般的RNA-seq的杂穷。