2014/10/30
毫無疑問赡突,提高生物學(xué)重復(fù)或提高單個樣本測序量,都可以改善這些問題区赵。但在研究經(jīng)費(fèi)有限的情況下惭缰,“提高生物學(xué)重復(fù)數(shù)而降低單個樣本的測序量”或“提高單個樣本測序量而降低生物學(xué)重復(fù)”,哪個更有效笼才?
技術(shù)專題文章下載鏈接:http://www.genedenovo.com/document.html?id=60
在RNA-seq項(xiàng)目設(shè)計過程中漱受,老師經(jīng)常會問兩個問題:
1)低豐度的基因是否能夠被檢測到(有或無);
2)基因定量的結(jié)果是否準(zhǔn)確(高或低);
毫無疑問昂羡,提高生物學(xué)重復(fù)或提高單個樣本測序量絮记,都可以改善這些問題。但在研究經(jīng)費(fèi)有限的情況下虐先,“提高生物學(xué)重復(fù)數(shù)而降低單個樣本的測序量”或“提高單個樣本測序量而降低生物學(xué)重復(fù)”怨愤,哪個更有效?
我們經(jīng)常會建議老師:“3個生物學(xué)重復(fù)樣本(2G/樣本)的定量準(zhǔn)確性 大于 單個樣本6G數(shù)據(jù)量蛹批。即相同的總數(shù)據(jù)量拆分到更多的生物學(xué)重復(fù)中撰洗,實(shí)際上定量可靠性是提高了「郑”這個結(jié)論的出處是哪里差导? 下面若河,我們通過一篇參考文獻(xiàn)解答這個問題士飒。
背景:這篇2012年 BMC genomiss的方法學(xué)文章躬它,主要討論了生物學(xué)或技術(shù)重復(fù)蒸播、單樣本測序量坝辫、分析算法這3類因素對RNA表達(dá)差異分析的影響茎活;
結(jié)論:
1)軟件DESeq的效果優(yōu)于edgeR或NBPSeq仍劈。
2)差異分析對數(shù)據(jù)量并不敏感粘衬,甚至當(dāng)單個樣本測序量降低為原來的15%的時候项玛,也不會大幅度降低差異基因檢出率貌笨。
3)增加生物學(xué)重復(fù)對提高表達(dá)差異分析結(jié)果可靠性的效果要優(yōu)于單樣本測序量,
備注:第二襟沮、三部分的內(nèi)容锥惋,我們將在下文重點(diǎn)解讀。
判定差異分析結(jié)果可靠性的指標(biāo)
假陽性與真陽性
直觀一些說开伏,如果某個基因在RNA-seq結(jié)果顯示差異表達(dá)膀跌,但Qpcr結(jié)果表明這個基因表達(dá)差異不顯著,可以認(rèn)為這個基因RNA-seq結(jié)果為假陽性固灵;反之捅伤,這個結(jié)果就是真陽性。
而老師往往會關(guān)心某些低表達(dá)基因的表達(dá)差異變化能否被正確檢測巫玻,那么這就要求我們提高實(shí)驗(yàn)的真陽性率丛忆。
假陽性率(FPR):真實(shí)非差異表達(dá)中的基因中,被錯誤判定為差異表達(dá)的比例仍秤,F(xiàn)DR越低越好熄诡;
真陽性率(TPR):真實(shí)差異表達(dá)的基因中,能夠正確判定為差異表達(dá)的比例诗力,TPR越高越好凰浮;真陽性率這個概念,如果換用為“差異基因的檢出率”更容易理解,下文我們會并用這兩個概念袜茧。
下文菜拓,我們將重點(diǎn)摘抄文章中三個方面的問題,并做總結(jié):
1. 生物學(xué)重復(fù)對差異表達(dá)分析的影響
如表1所示笛厦,在單樣本測序量保持不變的情況下纳鼎,隨著生物學(xué)重復(fù)數(shù)(n)的提高,差異分析的假陽性率(FPR)基本穩(wěn)定递递,但真陽性率(TPR)在不斷提高喷橙。也就是說提高生物學(xué)重復(fù)數(shù),實(shí)驗(yàn)對差異表達(dá)基因的檢測更加敏感登舞,那些差異倍數(shù)較小或表達(dá)量較低的差異表達(dá)基因(此類基因的差異檢測難度較大)能夠更容易被檢測到贰逾。
2. 單樣本測序量對差異表達(dá)分析的影響
如表2、表3所示菠秒,在一定的生物學(xué)重復(fù)數(shù)(n)的情況下疙剑,隨著單樣本測序量(Depth)的提高(25% → 100%),假陽性率(FDR)和真陽性率(TPR)都只有有限的提高践叠。例如在n=3的情況下言缤,單個樣本的測序量從25%提高到100%,F(xiàn)DR僅僅從0.02%提高到0.04%禁灼,TPR僅僅從6.24%提高到8.95%管挟。
在表3中,如果Depth等于25%不變弄捕,當(dāng)n從2提高到12僻孝,TPR的提高則是非常明顯的。因此測序深度對結(jié)果改善效果并不如增加生物學(xué)重復(fù)守谓。在下文穿铆,我們將詳細(xì)比較。
2.1總數(shù)據(jù)量不變斋荞,生物學(xué)重復(fù)數(shù)與單樣本測序量最佳組合
不同單樣本測序量與生物學(xué)重復(fù)數(shù)組合荞雏,對應(yīng)的TPR變化
如果保持總測序量不變(即如果生物學(xué)重復(fù)數(shù)為n,則單個樣本的測序量降低為1/n平酿,總數(shù)據(jù)量為n×1/n=1 凤优,保持不變)。
如圖1(a)蜈彼,灰色實(shí)線代表不同生物學(xué)重復(fù)數(shù)(n)和單樣本數(shù)據(jù)量(1/n)組合的情況下筑辨,真陽性率(TPR)的變化。結(jié)果表明柳刮,隨著n的提高挖垛,TPR率不斷提高。例如秉颗,如果n=2痢毒,TPR約為3%,如果n=6蚕甥,TPR則提高到22%
2.2總數(shù)據(jù)量不變哪替,生物學(xué)重復(fù)數(shù)與測序量最佳組合
如果n=3固定不變,單個樣本數(shù)據(jù)量降低菇怀,TPR的變化
2.3總數(shù)據(jù)量不變凭舶,生物學(xué)重復(fù)數(shù)與測序量最佳組合
不同測序量與生物學(xué)重復(fù)數(shù)組合,對應(yīng)的FPR變化
但是不同的生物學(xué)重復(fù)數(shù)和單樣本測序量的組合爱沟,對假陽性率(FPR)的影響卻較小帅霜。如圖1(b),灰色實(shí)線代表不同生物學(xué)重復(fù)數(shù)(n)和單樣本數(shù)據(jù)量(1/n)組合的情況下呼伸,真陽性率(FPR)的變化身冀。雖然n從2變化到96,F(xiàn)PR基本沒有太大變化括享。
從圖中我們很容易發(fā)現(xiàn)搂根,基于負(fù)二項(xiàng)分布的差異分析檢驗(yàn)(P value),F(xiàn)PR對生物學(xué)重復(fù)數(shù)和單個樣本數(shù)據(jù)量均不敏感铃辖,始終保持低于0.1%水平剩愧。或者說娇斩,這個算法對FPR的控制還是非常理想的仁卷。
討論
1. RNA-seq老師關(guān)心的問題 :
1)低豐度的基因是否能夠被檢測到(有或無);
2)基因定量的結(jié)果是否準(zhǔn)確(高或低)成洗;
大部分老師對第一個問題的關(guān)心程度要大于第二個五督,第二個問題常常被忽略。
但實(shí)際上瓶殃,隨著測序單價的下降充包,目前市場上RNA-seq類項(xiàng)目的單樣本測序量正在不斷提高。以2G遥椿,PE100測序的表達(dá)譜項(xiàng)目為例基矮,其對應(yīng)的測序量為20M條reads。如果一條長度為1kbp的低表達(dá)基因的表達(dá)量為RPKM=0.5冠场,其理論上可以檢測到的reads數(shù)為20×0.5=10家浇。所以低豐度基因的檢測,對RNA-seq這個技術(shù)來說并非最大問題碴裙。
如上圖钢悲,大部分RNA-seq類項(xiàng)目点额,老師都會看到測序的飽和曲線達(dá)到平臺期。也就是說再增加測序量莺琳,新檢測出的基因數(shù)并不會有明顯增加还棱。
第二個問題“轉(zhuǎn)錄本表達(dá)量的高低變化”比“轉(zhuǎn)錄本的有無”更具有普遍的生物學(xué)意義。雖然個別基因的表達(dá)量變化程度惭等,可以使用Qpcr來驗(yàn)證珍手。但我們往往也使用所有差異基因來統(tǒng)計某些規(guī)律。例如使用差異基因的pathway富集分析來尋找與性狀相關(guān)的pathway辞做。如果在全局水平的差異基因集并不可靠琳要,那么pathway富集分析得出的結(jié)論的可靠性自然也受到影響。而全局水平的差異基因數(shù)量巨大秤茅,是難以使用Qpcr驗(yàn)證的稚补。
因此,定量以及差異分析的準(zhǔn)確性是在RNA-seq中更值得老師關(guān)心的問題框喳。在討論的第二部分孔厉,我們重點(diǎn)展開敘述。
2. 重復(fù)數(shù)帖努、單樣本測序量的取舍
我們將前文提到的三個問題在進(jìn)行總結(jié):
1)生物學(xué)重復(fù)對差異表達(dá)的影響撰豺;
目前,主流期刊對生物學(xué)重復(fù)慢慢會有一定的要求拼余。從本文污桦,我們可以看到,設(shè)定生物學(xué)重復(fù)對差異基因的檢出率(真陽性率匙监,TPR)的提高具有明顯效果凡橱。所以,設(shè)定生物學(xué)重復(fù)對提高結(jié)果的可靠性亭姥,是非常有意義的稼钩。
2)單個樣本的測序量
老師對測序量比較關(guān)心,主要還是由于擔(dān)心低豐度基因無法檢測的問題达罗。討論的第一部分坝撑,我們也解釋過,目前RNA-seq 的數(shù)據(jù)量(一般不低于2G粮揉,對于lncRNA測序巡李,數(shù)據(jù)量一般更大)已經(jīng)足以保證大部分低豐度基因的檢測。而且扶认,從本文我們可以看到侨拦,在其他條件不變的情況下,單樣本數(shù)據(jù)量從100%降低到15%辐宾,差異基因的檢出率(真陽性率狱从,TPR) 降低較為平緩膨蛮。所以,單樣本數(shù)據(jù)量對RNA-seq定量和差異分析的影響實(shí)際上是十分有限的季研。
3)總數(shù)據(jù)量不變鸽疾,生物學(xué)重復(fù)數(shù)與單樣本測序量最佳組合
由于大部分老師科研經(jīng)費(fèi)有限,無法無限制地增加樣本數(shù)或數(shù)據(jù)量训貌。所以在生物學(xué)重復(fù)數(shù)和單個樣本測序量上必須找到平衡點(diǎn)。從本文我們可以看出冒窍,在總數(shù)據(jù)量不變的情況下递沪,將總數(shù)據(jù)量分配到更多的生物學(xué)重復(fù)樣本中,差異分析結(jié)果的可靠性在不斷提升综液。這也與前兩點(diǎn)得出的結(jié)論一致——對于RNA-seq款慨,生物學(xué)重復(fù)數(shù)的價值要大于單個樣本測序量。
但增加生物學(xué)重復(fù)的樣本數(shù)谬莹,意味著要增加建庫費(fèi)用檩奠。因此,即使總數(shù)據(jù)不變附帽,設(shè)置過多的生物學(xué)重復(fù)也是不合理的埠戳。一般而言,設(shè)定3個生物學(xué)重復(fù)蕉扮,依然是最高性價比的選擇整胃。
3. 其他
增加單樣本數(shù)據(jù)量對定量的改良是有限的。但對于低豐度 轉(zhuǎn)錄本de novo拼接(無參考基因組)或低豐度新轉(zhuǎn)錄本檢測(有參考基因組)喳钟,更高的數(shù)據(jù)量的確可以潛在改善拼接效果屁使。
那么對于此類情況,我們可以采取以下策略:1)在拼接的步驟奔则,我們可以將所有數(shù)據(jù)合并(例如每個生物學(xué)重復(fù)2G數(shù)據(jù)量蛮寂,3個重復(fù),全部合并)易茬,足夠大的數(shù)據(jù)量來保證拼接效果酬蹋;2)完成拼接后,在定量這個步驟抽莱,每個生物學(xué)重復(fù)樣本獨(dú)立定量除嘹。從而,可以在控制整個項(xiàng)目測序量的情況下岸蜗,兼顧轉(zhuǎn)錄本拼接和定量這兩個方面的問題尉咕。
這個策略也可以解釋,對于lncRNA測序璃岳,如果不設(shè)置重復(fù)年缎,我們建議老師單樣本測序量為810G悔捶。如果設(shè)置了重復(fù),而老師經(jīng)費(fèi)有限单芜,那么可以將單個樣本的數(shù)據(jù)量降低(例如56G)蜕该,其效果依然要優(yōu)于不設(shè)置重復(fù)的實(shí)驗(yàn)設(shè)計。