RNA-seq項(xiàng)目設(shè)計:生物學(xué)重復(fù)和單個樣本測序量對結(jié)果的影響

2014/10/30

毫無疑問赡突,提高生物學(xué)重復(fù)或提高單個樣本測序量,都可以改善這些問題区赵。但在研究經(jīng)費(fèi)有限的情況下惭缰,“提高生物學(xué)重復(fù)數(shù)而降低單個樣本的測序量”或“提高單個樣本測序量而降低生物學(xué)重復(fù)”,哪個更有效笼才?

技術(shù)專題文章下載鏈接:http://www.genedenovo.com/document.html?id=60

在RNA-seq項(xiàng)目設(shè)計過程中漱受,老師經(jīng)常會問兩個問題:

1)低豐度的基因是否能夠被檢測到(有或無);
2)基因定量的結(jié)果是否準(zhǔn)確(高或低);

 毫無疑問昂羡,提高生物學(xué)重復(fù)或提高單個樣本測序量絮记,都可以改善這些問題。但在研究經(jīng)費(fèi)有限的情況下虐先,“提高生物學(xué)重復(fù)數(shù)而降低單個樣本的測序量”或“提高單個樣本測序量而降低生物學(xué)重復(fù)”怨愤,哪個更有效?

我們經(jīng)常會建議老師:“3個生物學(xué)重復(fù)樣本(2G/樣本)的定量準(zhǔn)確性 大于 單個樣本6G數(shù)據(jù)量蛹批。即相同的總數(shù)據(jù)量拆分到更多的生物學(xué)重復(fù)中撰洗,實(shí)際上定量可靠性是提高了「郑”這個結(jié)論的出處是哪里差导? 下面若河,我們通過一篇參考文獻(xiàn)解答這個問題士飒。
image

背景:這篇2012年 BMC genomiss的方法學(xué)文章躬它,主要討論了生物學(xué)或技術(shù)重復(fù)蒸播、單樣本測序量坝辫、分析算法這3類因素對RNA表達(dá)差異分析的影響茎活;
結(jié)論:

1)軟件DESeq的效果優(yōu)于edgeR或NBPSeq仍劈。

2)差異分析對數(shù)據(jù)量并不敏感粘衬,甚至當(dāng)單個樣本測序量降低為原來的15%的時候项玛,也不會大幅度降低差異基因檢出率貌笨。
3)增加生物學(xué)重復(fù)對提高表達(dá)差異分析結(jié)果可靠性的效果要優(yōu)于單樣本測序量,
備注:第二襟沮、三部分的內(nèi)容锥惋,我們將在下文重點(diǎn)解讀。

判定差異分析結(jié)果可靠性的指標(biāo)

假陽性與真陽性
直觀一些說开伏,如果某個基因在RNA-seq結(jié)果顯示差異表達(dá)膀跌,但Qpcr結(jié)果表明這個基因表達(dá)差異不顯著,可以認(rèn)為這個基因RNA-seq結(jié)果為假陽性固灵;反之捅伤,這個結(jié)果就是真陽性。
而老師往往會關(guān)心某些低表達(dá)基因的表達(dá)差異變化能否被正確檢測巫玻,那么這就要求我們提高實(shí)驗(yàn)的真陽性率丛忆。

假陽性率(FPR):真實(shí)非差異表達(dá)中的基因中,被錯誤判定為差異表達(dá)的比例仍秤,F(xiàn)DR越低越好熄诡;
真陽性率(TPR):真實(shí)差異表達(dá)的基因中,能夠正確判定為差異表達(dá)的比例诗力,TPR越高越好凰浮;真陽性率這個概念,如果換用為“差異基因的檢出率”更容易理解,下文我們會并用這兩個概念袜茧。

下文菜拓,我們將重點(diǎn)摘抄文章中三個方面的問題,并做總結(jié):

1. 生物學(xué)重復(fù)對差異表達(dá)分析的影響

image

如表1所示笛厦,在單樣本測序量保持不變的情況下纳鼎,隨著生物學(xué)重復(fù)數(shù)(n)的提高,差異分析的假陽性率(FPR)基本穩(wěn)定递递,但真陽性率(TPR)在不斷提高喷橙。也就是說提高生物學(xué)重復(fù)數(shù),實(shí)驗(yàn)對差異表達(dá)基因的檢測更加敏感登舞,那些差異倍數(shù)較小或表達(dá)量較低的差異表達(dá)基因(此類基因的差異檢測難度較大)能夠更容易被檢測到贰逾。

2. 單樣本測序量對差異表達(dá)分析的影響

image
image

如表2、表3所示菠秒,在一定的生物學(xué)重復(fù)數(shù)(n)的情況下疙剑,隨著單樣本測序量(Depth)的提高(25% → 100%),假陽性率(FDR)和真陽性率(TPR)都只有有限的提高践叠。例如在n=3的情況下言缤,單個樣本的測序量從25%提高到100%,F(xiàn)DR僅僅從0.02%提高到0.04%禁灼,TPR僅僅從6.24%提高到8.95%管挟。

在表3中,如果Depth等于25%不變弄捕,當(dāng)n從2提高到12僻孝,TPR的提高則是非常明顯的。因此測序深度對結(jié)果改善效果并不如增加生物學(xué)重復(fù)守谓。在下文穿铆,我們將詳細(xì)比較。

2.1總數(shù)據(jù)量不變斋荞,生物學(xué)重復(fù)數(shù)與單樣本測序量最佳組合

image

不同單樣本測序量與生物學(xué)重復(fù)數(shù)組合荞雏,對應(yīng)的TPR變化

如果保持總測序量不變(即如果生物學(xué)重復(fù)數(shù)為n,則單個樣本的測序量降低為1/n平酿,總數(shù)據(jù)量為n×1/n=1 凤优,保持不變)。
如圖1(a)蜈彼,灰色實(shí)線代表不同生物學(xué)重復(fù)數(shù)(n)和單樣本數(shù)據(jù)量(1/n)組合的情況下筑辨,真陽性率(TPR)的變化。結(jié)果表明柳刮,隨著n的提高挖垛,TPR率不斷提高。例如秉颗,如果n=2痢毒,TPR約為3%,如果n=6蚕甥,TPR則提高到22%

2.2總數(shù)據(jù)量不變哪替,生物學(xué)重復(fù)數(shù)與測序量最佳組合

image

如果n=3固定不變,單個樣本數(shù)據(jù)量降低菇怀,TPR的變化

2.3總數(shù)據(jù)量不變凭舶,生物學(xué)重復(fù)數(shù)與測序量最佳組合

image

不同測序量與生物學(xué)重復(fù)數(shù)組合,對應(yīng)的FPR變化

但是不同的生物學(xué)重復(fù)數(shù)和單樣本測序量的組合爱沟,對假陽性率(FPR)的影響卻較小帅霜。如圖1(b),灰色實(shí)線代表不同生物學(xué)重復(fù)數(shù)(n)和單樣本數(shù)據(jù)量(1/n)組合的情況下呼伸,真陽性率(FPR)的變化身冀。雖然n從2變化到96,F(xiàn)PR基本沒有太大變化括享。

從圖中我們很容易發(fā)現(xiàn)搂根,基于負(fù)二項(xiàng)分布的差異分析檢驗(yàn)(P value),F(xiàn)PR對生物學(xué)重復(fù)數(shù)和單個樣本數(shù)據(jù)量均不敏感铃辖,始終保持低于0.1%水平剩愧。或者說娇斩,這個算法對FPR的控制還是非常理想的仁卷。

討論

1. RNA-seq老師關(guān)心的問題 :

1)低豐度的基因是否能夠被檢測到(有或無);
2)基因定量的結(jié)果是否準(zhǔn)確(高或低)成洗;

大部分老師對第一個問題的關(guān)心程度要大于第二個五督,第二個問題常常被忽略。

但實(shí)際上瓶殃,隨著測序單價的下降充包,目前市場上RNA-seq類項(xiàng)目的單樣本測序量正在不斷提高。以2G遥椿,PE100測序的表達(dá)譜項(xiàng)目為例基矮,其對應(yīng)的測序量為20M條reads。如果一條長度為1kbp的低表達(dá)基因的表達(dá)量為RPKM=0.5冠场,其理論上可以檢測到的reads數(shù)為20×0.5=10家浇。所以低豐度基因的檢測,對RNA-seq這個技術(shù)來說并非最大問題碴裙。

image

如上圖钢悲,大部分RNA-seq類項(xiàng)目点额,老師都會看到測序的飽和曲線達(dá)到平臺期。也就是說再增加測序量莺琳,新檢測出的基因數(shù)并不會有明顯增加还棱。

第二個問題“轉(zhuǎn)錄本表達(dá)量的高低變化”比“轉(zhuǎn)錄本的有無”更具有普遍的生物學(xué)意義。雖然個別基因的表達(dá)量變化程度惭等,可以使用Qpcr來驗(yàn)證珍手。但我們往往也使用所有差異基因來統(tǒng)計某些規(guī)律。例如使用差異基因的pathway富集分析來尋找與性狀相關(guān)的pathway辞做。如果在全局水平的差異基因集并不可靠琳要,那么pathway富集分析得出的結(jié)論的可靠性自然也受到影響。而全局水平的差異基因數(shù)量巨大秤茅,是難以使用Qpcr驗(yàn)證的稚补。
因此,定量以及差異分析的準(zhǔn)確性是在RNA-seq中更值得老師關(guān)心的問題框喳。在討論的第二部分孔厉,我們重點(diǎn)展開敘述。

2. 重復(fù)數(shù)帖努、單樣本測序量的取舍

我們將前文提到的三個問題在進(jìn)行總結(jié):

1)生物學(xué)重復(fù)對差異表達(dá)的影響撰豺;
目前,主流期刊對生物學(xué)重復(fù)慢慢會有一定的要求拼余。從本文污桦,我們可以看到,設(shè)定生物學(xué)重復(fù)對差異基因的檢出率(真陽性率匙监,TPR)的提高具有明顯效果凡橱。所以,設(shè)定生物學(xué)重復(fù)對提高結(jié)果的可靠性亭姥,是非常有意義的稼钩。

2)單個樣本的測序量
老師對測序量比較關(guān)心,主要還是由于擔(dān)心低豐度基因無法檢測的問題达罗。討論的第一部分坝撑,我們也解釋過,目前RNA-seq 的數(shù)據(jù)量(一般不低于2G粮揉,對于lncRNA測序巡李,數(shù)據(jù)量一般更大)已經(jīng)足以保證大部分低豐度基因的檢測。而且扶认,從本文我們可以看到侨拦,在其他條件不變的情況下,單樣本數(shù)據(jù)量從100%降低到15%辐宾,差異基因的檢出率(真陽性率狱从,TPR) 降低較為平緩膨蛮。所以,單樣本數(shù)據(jù)量對RNA-seq定量和差異分析的影響實(shí)際上是十分有限的季研。

3)總數(shù)據(jù)量不變鸽疾,生物學(xué)重復(fù)數(shù)與單樣本測序量最佳組合
由于大部分老師科研經(jīng)費(fèi)有限,無法無限制地增加樣本數(shù)或數(shù)據(jù)量训貌。所以在生物學(xué)重復(fù)數(shù)和單個樣本測序量上必須找到平衡點(diǎn)。從本文我們可以看出冒窍,在總數(shù)據(jù)量不變的情況下递沪,將總數(shù)據(jù)量分配到更多的生物學(xué)重復(fù)樣本中,差異分析結(jié)果的可靠性在不斷提升综液。這也與前兩點(diǎn)得出的結(jié)論一致——對于RNA-seq款慨,生物學(xué)重復(fù)數(shù)的價值要大于單個樣本測序量。
但增加生物學(xué)重復(fù)的樣本數(shù)谬莹,意味著要增加建庫費(fèi)用檩奠。因此,即使總數(shù)據(jù)不變附帽,設(shè)置過多的生物學(xué)重復(fù)也是不合理的埠戳。一般而言,設(shè)定3個生物學(xué)重復(fù)蕉扮,依然是最高性價比的選擇整胃。

3. 其他
增加單樣本數(shù)據(jù)量對定量的改良是有限的。但對于低豐度 轉(zhuǎn)錄本de novo拼接(無參考基因組)或低豐度新轉(zhuǎn)錄本檢測(有參考基因組)喳钟,更高的數(shù)據(jù)量的確可以潛在改善拼接效果屁使。
那么對于此類情況,我們可以采取以下策略:1)在拼接的步驟奔则,我們可以將所有數(shù)據(jù)合并(例如每個生物學(xué)重復(fù)2G數(shù)據(jù)量蛮寂,3個重復(fù),全部合并)易茬,足夠大的數(shù)據(jù)量來保證拼接效果酬蹋;2)完成拼接后,在定量這個步驟抽莱,每個生物學(xué)重復(fù)樣本獨(dú)立定量除嘹。從而,可以在控制整個項(xiàng)目測序量的情況下岸蜗,兼顧轉(zhuǎn)錄本拼接和定量這兩個方面的問題尉咕。
這個策略也可以解釋,對于lncRNA測序璃岳,如果不設(shè)置重復(fù)年缎,我們建議老師單樣本測序量為810G悔捶。如果設(shè)置了重復(fù),而老師經(jīng)費(fèi)有限单芜,那么可以將單個樣本的數(shù)據(jù)量降低(例如56G)蜕该,其效果依然要優(yōu)于不設(shè)置重復(fù)的實(shí)驗(yàn)設(shè)計。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末洲鸠,一起剝皮案震驚了整個濱河市堂淡,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌扒腕,老刑警劉巖绢淀,帶你破解...
    沈念sama閱讀 206,013評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異瘾腰,居然都是意外死亡皆的,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,205評論 2 382
  • 文/潘曉璐 我一進(jìn)店門蹋盆,熙熙樓的掌柜王于貴愁眉苦臉地迎上來费薄,“玉大人,你說我怎么就攤上這事栖雾±懵眨” “怎么了?”我有些...
    開封第一講書人閱讀 152,370評論 0 342
  • 文/不壞的土叔 我叫張陵析藕,是天一觀的道長拌倍。 經(jīng)常有香客問我,道長噪径,這世上最難降的妖魔是什么柱恤? 我笑而不...
    開封第一講書人閱讀 55,168評論 1 278
  • 正文 為了忘掉前任,我火速辦了婚禮找爱,結(jié)果婚禮上梗顺,老公的妹妹穿的比我還像新娘。我一直安慰自己车摄,他們只是感情好寺谤,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,153評論 5 371
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著吮播,像睡著了一般变屁。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上意狠,一...
    開封第一講書人閱讀 48,954評論 1 283
  • 那天粟关,我揣著相機(jī)與錄音,去河邊找鬼环戈。 笑死闷板,一個胖子當(dāng)著我的面吹牛澎灸,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播遮晚,決...
    沈念sama閱讀 38,271評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼性昭,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了县遣?” 一聲冷哼從身側(cè)響起糜颠,我...
    開封第一講書人閱讀 36,916評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎萧求,沒想到半個月后其兴,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,382評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡饭聚,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,877評論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了搁拙。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片秒梳。...
    茶點(diǎn)故事閱讀 37,989評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖箕速,靈堂內(nèi)的尸體忽然破棺而出酪碘,到底是詐尸還是另有隱情,我是刑警寧澤盐茎,帶...
    沈念sama閱讀 33,624評論 4 322
  • 正文 年R本政府宣布兴垦,位于F島的核電站,受9級特大地震影響字柠,放射性物質(zhì)發(fā)生泄漏探越。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,209評論 3 307
  • 文/蒙蒙 一窑业、第九天 我趴在偏房一處隱蔽的房頂上張望钦幔。 院中可真熱鬧,春花似錦常柄、人聲如沸鲤氢。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,199評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽卷玉。三九已至,卻和暖如春喷市,著一層夾襖步出監(jiān)牢的瞬間相种,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,418評論 1 260
  • 我被黑心中介騙來泰國打工品姓, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留蚂子,地道東北人沃测。 一個月前我還...
    沈念sama閱讀 45,401評論 2 352
  • 正文 我出身青樓,卻偏偏與公主長得像食茎,于是被迫代替她去往敵國和親蒂破。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,700評論 2 345

推薦閱讀更多精彩內(nèi)容