生物重復(fù)和技術(shù)重復(fù)分別是什么闹获?在一個(gè)實(shí)驗(yàn)中應(yīng)該如何安排生物重復(fù)和技術(shù)重復(fù)敛瓷?
重復(fù)是實(shí)驗(yàn)設(shè)計(jì)的重要原則之一,實(shí)驗(yàn)重復(fù)無(wú)論對(duì)于實(shí)驗(yàn)結(jié)果的可重復(fù)性年堆,還是對(duì)于最終實(shí)驗(yàn)結(jié)論的可靠性吞杭,都起著起決定性的作用。
實(shí)驗(yàn)重復(fù)還可以進(jìn)一步細(xì)分為生物重復(fù)(biological replicates)和技術(shù)重復(fù)(technical replicates)嘀韧,那么生物重復(fù)和技術(shù)重復(fù)分別是什么篇亭?在一個(gè)實(shí)驗(yàn)中應(yīng)該如何安排生物重復(fù)和技術(shù)重復(fù)缠捌?
生物重復(fù)和技術(shù)重復(fù)分別是什么锄贷?
生物重復(fù):指對(duì)同一個(gè)處理組中獨(dú)立來(lái)源的重復(fù)樣本分別進(jìn)行獨(dú)立分析,是整個(gè)實(shí)驗(yàn)的完全重復(fù)曼月,如將具有同一基因型的多個(gè)細(xì)胞株進(jìn)行獨(dú)立地測(cè)定谊却。由于遺傳和環(huán)境等因素的影響會(huì)引起有機(jī)體的個(gè)體差異,因此需要采用生物重復(fù)的實(shí)驗(yàn)設(shè)計(jì)方法來(lái)消除該差異哑芹。目前都以3次生物學(xué)重復(fù)實(shí)驗(yàn)設(shè)計(jì)為主炎辨,要求嚴(yán)格的實(shí)驗(yàn)可以做5次重復(fù)。
技術(shù)重復(fù):指對(duì)同一樣本進(jìn)行重復(fù)地檢測(cè)分析聪姿,例如同一份細(xì)胞中抽提的蛋白質(zhì)進(jìn)行三次質(zhì)譜檢測(cè)碴萧,或者對(duì)同一RNA-seq樣本測(cè)序3次。與生物學(xué)重復(fù)相比末购,技術(shù)重復(fù)的測(cè)量變異程度較小破喻,從而可以減少實(shí)驗(yàn)中的分析變異,將對(duì)同一份樣本產(chǎn)生高重復(fù)性的測(cè)量結(jié)果 盟榴。
簡(jiǎn)單來(lái)講曹质,生物重復(fù)是生物級(jí)別的重復(fù),一般都是生物樣本的重復(fù)擎场。而技術(shù)重復(fù)羽德,更多的是參數(shù)測(cè)定環(huán)節(jié)的重復(fù),一般是對(duì)同一生物樣本進(jìn)行多次測(cè)定迅办。
進(jìn)一步分析宅静,其實(shí)可以發(fā)現(xiàn)生物重復(fù)是衡量實(shí)驗(yàn)的總波動(dòng)的(處理組間的差異不列入此處的波動(dòng),他們應(yīng)該稱為效應(yīng))站欺,它包括樣本個(gè)體間差異和技術(shù)重復(fù)差異姨夹,而技術(shù)重復(fù)更多的是單純的衡量參數(shù)測(cè)量時(shí)的波動(dòng),如實(shí)驗(yàn)操作嫻熟程度镊绪、儀器穩(wěn)定性等等匀伏。
在一個(gè)實(shí)驗(yàn)中應(yīng)該如何安排生物重復(fù)和技術(shù)重復(fù)?
如此說(shuō)來(lái)蝴韭,對(duì)于一個(gè)實(shí)驗(yàn)來(lái)說(shuō)够颠,如果條件允許的話,最好把生物重復(fù)和技術(shù)重復(fù)做全了榄鉴?
然而StatQuest推薦的策略是只需要生物重復(fù)即可履磨,不需要技術(shù)重復(fù)蛉抓。為什么?
只做生物重復(fù)
以小鼠的RNA-seq實(shí)驗(yàn)為例剃诅,先看一下生物偏差(biological variation)和技術(shù)偏差(technical variation )巷送。
下圖代表小鼠的RNA-seq數(shù)據(jù),虛線μ是總體小鼠的Read Counts矛辕,藍(lán)色條代表5個(gè)樣本小鼠的Read Counts笑跛。那那么樣本小鼠的Read和總體μ是存在一定的差異的,我們將5個(gè)樣本小鼠的Read取平均:
average = [(μ+5)+(μ-1)+(μ+4)+(μ+2)+(μ-5)] / 5 = μ + (5-1+4+2-5)/5
隨著生物重復(fù)的增多聊品,(5-1+4+2-5)/5會(huì)逐漸趨向于0飞蹂,這個(gè)平均數(shù)也會(huì)趨近于總體均值μ。
剛才只考慮了生物生物偏差翻屈,沒有考慮技術(shù)偏差陈哑,下圖中添加了技術(shù)偏差,棕色條為生物偏差伸眶,綠色箭頭為技術(shù)偏差惊窖,那么此時(shí)依然可以取5個(gè)樣本小鼠的Read平均:
average = μ + (5-1+4+2-5)/5 + (-2+5+2-2-1)/5
隨著生物重復(fù)的增多,生物偏差(5-1+4+2-5)/5 逐漸趨向于0厘贼,技術(shù)偏差也會(huì)逐漸趨向于0界酒,這個(gè)平均數(shù)也會(huì)趨近于總體均值μ。
所以只做生物重復(fù)就可以很好的使用樣本代表總體涂臣。
只做技術(shù)重復(fù)
繼續(xù)進(jìn)行實(shí)驗(yàn)盾计,下圖代表對(duì)1#小鼠測(cè)定了5次RNA-seq數(shù)據(jù)。那么同樣方法取5個(gè)RNA-seq數(shù)據(jù)的平均:
average = μ + 5 + (-2+5+2-2-1)/5
隨著技術(shù)重復(fù)數(shù)的增加赁遗,技術(shù)偏差(-2+5+2-2-1)/5會(huì)逐漸趨近于0署辉,而這個(gè)平均數(shù)會(huì)逐漸趨近于μ + 5,永遠(yuǎn)也不會(huì)等于總體均值μ岩四,因此做再多的技術(shù)重復(fù)哭尝,最終的RNA-seq數(shù)據(jù)也無(wú)法很好的代表總體。
同時(shí)做生物重復(fù)和技術(shù)重復(fù)
以下圖為例剖煌,1#小鼠做了2個(gè)技術(shù)重復(fù)材鹦,2#小鼠做了3個(gè)技術(shù)重復(fù),此時(shí)的生物偏差為5耕姊、5桶唐、-1、-1茉兰、-1尤泽,而技術(shù)偏差不變(技術(shù)偏差是參數(shù)測(cè)定時(shí)的偏差,不會(huì)因樣本而異,而且因樣本而已的偏差肯定是樣本偏差)坯约,所以樣本均值為:
average = μ + (5+5-1-1-1)/5 + (-2+5+2-2-1)/5
隨著樣本量的增加熊咽,技術(shù)偏差(-2+5+2-2-1)/5會(huì)逐漸趨向于零。
但生物偏差(5+5-1-1-1)/5雖然也會(huì)收斂到0闹丐,但是此時(shí)所需要的樣本量比‘只做生物重復(fù)’時(shí)大大增加横殴,也就是說(shuō)生物偏差的收斂速度變慢了。
這個(gè)生物偏差收斂變慢的速度有多慢呢卿拴?
假如多了3個(gè)技術(shù)重復(fù)衫仑,那么就需要3倍的樣本量才能抵得上‘只做生物重復(fù)’時(shí)的收斂速度。說(shuō)白了巍棱,就是多做的技術(shù)重復(fù)最多不過(guò)和‘只做生物重復(fù)’的效果持平而已惑畴。
做一下總結(jié):
只做生物重復(fù):最佳的實(shí)驗(yàn)設(shè)計(jì)蛋欣,可以很好的代表總體航徙;
只做技術(shù)重復(fù),沒有生物重復(fù):不要使用這種實(shí)驗(yàn)設(shè)計(jì)陷虎,永遠(yuǎn)只會(huì)得到總體的有偏估計(jì)到踏。
生物重復(fù)和技術(shù)重復(fù):不推薦做,并不能很好的提高樣本的代表性尚猿,要么獲得一個(gè)有偏的估計(jì)窝稿,要么需要更多的樣本。