生物重復(fù)和技術(shù)重復(fù)分別是什么火欧?在一個(gè)實(shí)驗(yàn)中應(yīng)該如何安排生物重復(fù)和技術(shù)重復(fù)衷畦?
重復(fù)是實(shí)驗(yàn)設(shè)計(jì)的重要原則之一妇斤,實(shí)驗(yàn)重復(fù)無(wú)論對(duì)于實(shí)驗(yàn)結(jié)果的可重復(fù)性摇锋,還是對(duì)于最終實(shí)驗(yàn)結(jié)論的可靠性丹拯,都起著起決定性的作用。
實(shí)驗(yàn)重復(fù)還可以進(jìn)一步細(xì)分為生物重復(fù)(biological replicates)和技術(shù)重復(fù)(technical replicates)荸恕,那么生物重復(fù)和技術(shù)重復(fù)分別是什么乖酬?在一個(gè)實(shí)驗(yàn)中應(yīng)該如何安排生物重復(fù)和技術(shù)重復(fù)?
生物重復(fù)和技術(shù)重復(fù)分別是什么融求?
生物重復(fù):指對(duì)同一個(gè)處理組中獨(dú)立來(lái)源的重復(fù)樣本分別進(jìn)行獨(dú)立分析咬像,是整個(gè)實(shí)驗(yàn)的完全重復(fù),如將具有同一基因型的多個(gè)細(xì)胞株進(jìn)行獨(dú)立地測(cè)定生宛。由于遺傳和環(huán)境等因素的影響會(huì)引起有機(jī)體的個(gè)體差異县昂,因此需要采用生物重復(fù)的實(shí)驗(yàn)設(shè)計(jì)方法來(lái)消除該差異。目前都以3次生物學(xué)重復(fù)實(shí)驗(yàn)設(shè)計(jì)為主陷舅,要求嚴(yán)格的實(shí)驗(yàn)可以做5次重復(fù)倒彰。
技術(shù)重復(fù):指對(duì)同一樣本進(jìn)行重復(fù)地檢測(cè)分析,例如同一份細(xì)胞中抽提的蛋白質(zhì)進(jìn)行三次質(zhì)譜檢測(cè)莱睁,或者對(duì)同一RNA-seq樣本測(cè)序3次待讳。與生物學(xué)重復(fù)相比,技術(shù)重復(fù)的測(cè)量變異程度較小仰剿,從而可以減少實(shí)驗(yàn)中的分析變異创淡,將對(duì)同一份樣本產(chǎn)生高重復(fù)性的測(cè)量結(jié)果 。
簡(jiǎn)單來(lái)講南吮,生物重復(fù)是生物級(jí)別的重復(fù)辩昆,一般都是生物樣本的重復(fù)。而技術(shù)重復(fù)旨袒,更多的是參數(shù)測(cè)定環(huán)節(jié)的重復(fù)汁针,一般是對(duì)同一生物樣本進(jìn)行多次測(cè)定。
進(jìn)一步分析砚尽,其實(shí)可以發(fā)現(xiàn)生物重復(fù)是衡量實(shí)驗(yàn)的總波動(dòng)的(處理組間的差異不列入此處的波動(dòng)施无,他們應(yīng)該稱為效應(yīng)),它包括樣本個(gè)體間差異和技術(shù)重復(fù)差異必孤,而技術(shù)重復(fù)更多的是單純的衡量參數(shù)測(cè)量時(shí)的波動(dòng)猾骡,如實(shí)驗(yàn)操作嫻熟程度、儀器穩(wěn)定性等等敷搪。
在一個(gè)實(shí)驗(yàn)中應(yīng)該如何安排生物重復(fù)和技術(shù)重復(fù)兴想?
如此說(shuō)來(lái),對(duì)于一個(gè)實(shí)驗(yàn)來(lái)說(shuō)赡勘,如果條件允許的話嫂便,最好把生物重復(fù)和技術(shù)重復(fù)做全了?
然而StatQuest推薦的策略是只需要生物重復(fù)即可闸与,不需要技術(shù)重復(fù)毙替。為什么岸售?
只做生物重復(fù)
以小鼠的RNA-seq實(shí)驗(yàn)為例,先看一下生物偏差(biological variation)和技術(shù)偏差(technical variation )厂画。
下圖代表小鼠的RNA-seq數(shù)據(jù)凸丸,虛線μ是總體小鼠的Read Counts,藍(lán)色條代表5個(gè)樣本小鼠的Read Counts袱院。那那么樣本小鼠的Read和總體μ是存在一定的差異的屎慢,我們將5個(gè)樣本小鼠的Read取平均:
average = [(μ+5)+(μ-1)+(μ+4)+(μ+2)+(μ-5)] / 5 = μ + (5-1+4+2-5)/5
隨著生物重復(fù)的增多,(5-1+4+2-5)/5會(huì)逐漸趨向于0忽洛,這個(gè)平均數(shù)也會(huì)趨近于總體均值μ腻惠。
剛才只考慮了生物生物偏差,沒(méi)有考慮技術(shù)偏差脐瑰,下圖中添加了技術(shù)偏差妖枚,棕色條為生物偏差,綠色箭頭為技術(shù)偏差苍在,那么此時(shí)依然可以取5個(gè)樣本小鼠的Read平均:
average = μ + (5-1+4+2-5)/5 + (-2+5+2-2-1)/5
隨著生物重復(fù)的增多绝页,生物偏差(5-1+4+2-5)/5 逐漸趨向于0,技術(shù)偏差也會(huì)逐漸趨向于0寂恬,這個(gè)平均數(shù)也會(huì)趨近于總體均值μ续誉。
所以只做生物重復(fù)就可以很好的使用樣本代表總體。
只做技術(shù)重復(fù)
繼續(xù)進(jìn)行實(shí)驗(yàn)初肉,下圖代表對(duì)1#小鼠測(cè)定了5次RNA-seq數(shù)據(jù)酷鸦。那么同樣方法取5個(gè)RNA-seq數(shù)據(jù)的平均:
average = μ + 5 + (-2+5+2-2-1)/5
隨著技術(shù)重復(fù)數(shù)的增加,技術(shù)偏差(-2+5+2-2-1)/5會(huì)逐漸趨近于0牙咏,而這個(gè)平均數(shù)會(huì)逐漸趨近于μ + 5芭挽,永遠(yuǎn)也不會(huì)等于總體均值μ但指,因此做再多的技術(shù)重復(fù),最終的RNA-seq數(shù)據(jù)也無(wú)法很好的代表總體。
同時(shí)做生物重復(fù)和技術(shù)重復(fù)
以下圖為例腊状,1#小鼠做了2個(gè)技術(shù)重復(fù)纹烹,2#小鼠做了3個(gè)技術(shù)重復(fù)喻圃,此時(shí)的生物偏差為5屈雄、5、-1伊磺、-1盛正、-1,而技術(shù)偏差不變(技術(shù)偏差是參數(shù)測(cè)定時(shí)的偏差屑埋,不會(huì)因樣本而異豪筝,而且因樣本而已的偏差肯定是樣本偏差),所以樣本均值為:
average = μ + (5+5-1-1-1)/5 + (-2+5+2-2-1)/5
隨著樣本量的增加,技術(shù)偏差(-2+5+2-2-1)/5會(huì)逐漸趨向于零壤蚜。
但生物偏差(5+5-1-1-1)/5雖然也會(huì)收斂到0即寡,但是此時(shí)所需要的樣本量比'只做生物重復(fù)’時(shí)大大增加徊哑,也就是說(shuō)生物偏差的收斂速度變慢了袜刷。
這個(gè)生物偏差收斂變慢的速度有多慢呢?
假如多了3個(gè)技術(shù)重復(fù)莺丑,那么就需要3倍的樣本量才能抵得上'只做生物重復(fù)’時(shí)的收斂速度著蟹。說(shuō)白了,就是多做的技術(shù)重復(fù)最多不過(guò)和'只做生物重復(fù)’的效果持平而已梢莽。
做一下總結(jié):
只做生物重復(fù):最佳的實(shí)驗(yàn)設(shè)計(jì)萧豆,可以很好的代表總體;
只做技術(shù)重復(fù)昏名,沒(méi)有生物重復(fù):不要使用這種實(shí)驗(yàn)設(shè)計(jì)涮雷,永遠(yuǎn)只會(huì)得到總體的有偏估計(jì)。
生物重復(fù)和技術(shù)重復(fù):不推薦做轻局,并不能很好的提高樣本的代表性洪鸭,要么獲得一個(gè)有偏的估計(jì),要么需要更多的樣本仑扑。