前言
這是StatQuest系列視頻教程筆記的最后一篇姐浮,我在YouTube上看了一下珠增,作者還有其他的幾個視頻超歌,有興趣的同學(xué)還可以看看。這篇筆記是視頻教程的第62節(jié)蒂教,主要內(nèi)容是講RNA-Seq中的技術(shù)重復(fù)問題巍举。
是否需要技術(shù)重復(fù)
前面有一篇筆記我們提到了技術(shù)重復(fù)與生物重復(fù)。但在RNA-Seq中凝垛,我們是否需要做技術(shù)重復(fù)呢懊悯?
答案是否,如果你做了生物學(xué)重復(fù)梦皮,就不需要做技術(shù)重復(fù)炭分。或許有同學(xué)知道這個答案剑肯,但是卻不清楚為什么做了生物學(xué)重復(fù)后捧毛,就不需要做技術(shù)重復(fù)了呢,后面我們就會回答這個問題让网,如下所示:
RNA-Seq變異的兩個來源
RNA-Seq的測序數(shù)據(jù)的變異(variation)主要來源兩個方面呀忧,第一個是生物學(xué)變異(Biological Variation),第二個是技術(shù)變異(technical variation)溃睹。
生物學(xué)變異
生物學(xué)變異是指生物本身本身造成的變異而账,例如,即使是遺傳背景完全一樣的小鼠丸凭,例如像C57BL/6N這樣遺傳背景都非常清楚的小鼠福扬,也不存在RNA轉(zhuǎn)錄本數(shù)目完全相同的兩只小鼠(只能是接近腕铸,而不是完全相同)。
任何物種的兩個生物個體都不可能完全一樣铛碑,無論這種生物是人狠裹,小鼠,還是果蠅汽烦。
技術(shù)變異
每當我們做一個實驗時涛菠,在實驗過程中都會參雜一些零碎的非實驗因素(例如今天你的心情,不同批次的培養(yǎng)基撇吞,移液槍的吹打次數(shù)俗冻,細胞培養(yǎng)的時間,細胞的傳代次數(shù)等等)牍颈,其中的一些是完全100%的隨機因素迄薄。因此,當我們再次重復(fù)這個實驗的時煮岁,即使實驗條件與上一次的實驗條件完全相同讥蔽,也不可能得到與上次實驗100%相同的結(jié)果(當然,總體的結(jié)果會相差不大画机,會很接近)冶伞,如下所示:
生物學(xué)變異的案例
為了說明這生物學(xué)變異和技術(shù)變異的問題,我們先來看一個簡單的案例步氏。
在這個案例中响禽,我們只研究生物學(xué)變異。例如荚醒,我們對幾只小鼠做了RNA-Seq芋类,沒有做任何技術(shù)重復(fù)。在下面的二維坐標系中腌且,X軸是小鼠的編號梗肝,Y軸是小鼠基因X的reads數(shù),下圖是第1只小鼠的數(shù)據(jù)铺董,如下所示:
我們再看一下第2只小鼠的數(shù)據(jù)巫击,如下所示:
由于我們沒有做技術(shù)重復(fù),因此從上圖中精续,我們可以知道坝锰,第2只小鼠與第1只小鼠的基因X的reads數(shù)差異就是完全來源于生物學(xué)變異了,也就是這兩只小鼠自身的變異重付,現(xiàn)在看第其它小鼠的數(shù)據(jù)顷级,如下所示:
假設(shè)我們把地球上的所有小鼠都給測了,也就是說上圖的X軸上有無數(shù)個小鼠的基因X的reads數(shù)确垫,此時弓颈,我們求出這所有小鼠基因X的reads數(shù)的平均值猾封,并用希臘字母μ表示剑鞍,這個μ就是小鼠基因X的reads數(shù)真正的均值凡蚜,就是下面的這個樣子:
現(xiàn)在我們計算出每只小鼠基因X的reads數(shù)與真實均值μ的差值瓦阐,先看第1只小鼠,它與均值μ的差值是5纤子,如下所示:
現(xiàn)在再計算出剩下的所有小鼠的基因X的reads數(shù)與reads數(shù)平均值的差值搬瑰,為了方便說明問題,這里我們只計算前5只小鼠的數(shù)據(jù)控硼,如下所示:
此時泽论,我們使用數(shù)學(xué)公式來表示這前5只小鼠的基因X的reads數(shù),這個公式很簡單卡乾,如下所示:
現(xiàn)在我們計算出這5只小鼠的基因X的reads數(shù)的均值翼悴,如下所示:
把上面的公式再整理一下,應(yīng)時下面的這個樣子幔妨,如下所示:
其中上圖公式右側(cè)紅圏的部分是幾個常數(shù)抄瓦,也就是每只小鼠基因X的reads數(shù)與均值μ的差值的均值,并且這個紅圏中的計算結(jié)果(5-1+4+2-5=1)會隨著小鼠樣本數(shù)目的增多而縮小陶冷,從而最終近于0,那么上面的均值最終會等于實際的均值μ了毯辅,如下所示:
考慮生物學(xué)變異與技術(shù)變異的情況
還以上述的案例來說明一下生物學(xué)變異和技術(shù)變異埂伦,為了清楚地說明這兩個變異,在下圖中思恐,我們使用橘黃色的線段來表示生物學(xué)變異沾谜,如下所示:
我們使用綠色的箭頭來表示技術(shù)變異,其中綠色箭頭向下表示技術(shù)重復(fù)導(dǎo)致的reads數(shù)降低胀莹,綠色箭頭向上表示reads數(shù)上升的情況基跑,如下所示:
現(xiàn)在我們考慮生物學(xué)變異和技術(shù)變異的情況下,來計算一下前5只小鼠的基因X的reads數(shù)均值描焰,如下所示:
現(xiàn)在整理一下上面的均值公式媳否,我們可以發(fā)現(xiàn),這個公式可以公為3部分荆秦,第1部分是均值μ篱竭,第2部分是生物學(xué)變異,第3部分是技術(shù)變異步绸,如果我們增加樣本的話掺逼,那么這兩個變異就會接近于0,因為它們的分子中既有正值瓤介,又有負值吕喘,因此最終會相互抵消赘那,因此,做了生物學(xué)重復(fù)(一共有5只小鼠)的這批小鼠的最終基因X的reads均值就是μ
氯质,如下所示:
只做技術(shù)重復(fù)的情況
我們現(xiàn)在考慮另外一種情況募舟,即我們只做了技術(shù)重復(fù)。例如針對第1只小鼠病梢,我們做了5次技術(shù)重復(fù)胃珍,它的基因X的reads數(shù)如下所示:
其中生物學(xué)變異使用橘黃色表示,橘黃色線段的大小都一樣蜓陌,這是因為對同一只小鼠做了5次技術(shù)重復(fù)觅彰,同一只小鼠的生物學(xué)變異是一樣的,另外钮热,在下圖中我們再添加上技術(shù)變異填抬,技術(shù)變異使用綠色表示,如下所示:
現(xiàn)在我們計算一下第1只小鼠的基因X的reads數(shù)均值隧期,如下所示:
其中我們可以發(fā)現(xiàn)飒责,在這個案例中,第1只小鼠的基因X的reads數(shù)的均值由3部分構(gòu)成仆潮。
第1部分是實際均值μ宏蛉,第2部分是生物學(xué)變異,它是一個固定的值性置,因為對于一只確定的小鼠來說拾并,它的生物學(xué)變異是確定的,因此針對這只確定的小鼠來說鹏浅,無論做多少次技術(shù)重復(fù)嗅义,它的生物學(xué)變異都是一個固定值,不會相互抵消隐砸,在這里之碗,這個值是5。第3部分是技術(shù)變異季希,不過由于技術(shù)變異的分子部分有正數(shù)褪那,有負數(shù),因此隨著技術(shù)重復(fù)的增多式塌,技術(shù)變異的分子會相互抵消武通,最終接近于0,因此第1只小鼠基因X的reads數(shù)的均值最終結(jié)果是μ+5
珊搀。
比較生物學(xué)重復(fù)和技術(shù)重復(fù)
生物學(xué)重復(fù)
現(xiàn)在我們比較一下生物學(xué)重復(fù)和技術(shù)重復(fù)冶忱,回到我們前面的部分,我們知道境析,基因X的reads數(shù)的平均值公式是由3三部分構(gòu)成的囚枪,其中第1部分是真實的均值μ派诬,第2部分是生物學(xué)重復(fù),用橘黃色表示链沼,第3部分是技術(shù)重復(fù)默赂,用綠色表示,如下所示:
第1部分是真實的均值μ括勺,這里再強調(diào)一下缆八,真實的均值可以理解為所有小鼠基因X的reads數(shù)的均值,而我們平時所測的小鼠基因X的reads數(shù)是對這個均值μ的估計值疾捍,因為我們不可能把所有的小鼠基因X都給測了奈辰,估計值只能無限接近于真實均值μ,但法等于均值乱豆,不過當樣本量足夠大時奖恰,此時的估計值就可以視為均值μ。
公式的第2部分是生物學(xué)變異宛裕,第3部分是技術(shù)變異瑟啃。由于生物學(xué)變異和技術(shù)變異的分子部分都是有正值,負值揩尸,因此第2部分與第3部分最終會抵消蛹屿,得到的結(jié)果就會非常接近于真正的均值μ,它就代表了所有的小鼠基因X的reads數(shù)岩榆,如下所示:
無生物學(xué)重復(fù)
現(xiàn)在我們再看一下無生物學(xué)重復(fù)蜡峰,有技術(shù)重復(fù)的情況下,我們計算一下第1只小鼠的基因X的reads數(shù)均值朗恳,如下所示:
這個公式由3部分組成,即真實均值μ载绿,生物學(xué)變異和-技術(shù)變異粥诫,如果我們不斷地增加樣本,那么這個均值就成了Average = μ +5
崭庸,最終這個結(jié)果只能提供第1只小鼠的信息怀浆,而非其它所有小鼠的信息,也就是說怕享,此時的這個μ+5
只是第1只小鼠基因X的reads數(shù)均值执赡,而不是真實的均值μ,它不能代表整個小鼠的基因X的reads數(shù)函筋,如下所示:
結(jié)論就是沙合,如果我們只對這個小鼠做多次技術(shù)重復(fù),最終得到的數(shù)據(jù)就是這個小鼠的數(shù)據(jù)跌帐,不具有代表性首懈,也就是說绊率,如果別人的實驗室重復(fù)這個實驗的話,有可能重復(fù)不出來究履。
同時做生物學(xué)重復(fù)和技術(shù)重復(fù)
此時我們可能會想滤否,如果我既做了生物學(xué)重復(fù),又做了技術(shù)重復(fù)最仑,那么是不是能得到最精確的結(jié)果藐俺?
很不幸,答案是否定的泥彤。在下面的這個案例中欲芹,我們對第1只小鼠做了2個技術(shù)重復(fù),第2只小鼠做了3個技術(shù)重復(fù)全景,如下所示:
那么我們求出均值耀石,如下所示:
如果我們不再做另外的生物學(xué)重復(fù),那么上述公式的第2部分(也就是橘黃色的生物學(xué)變異部分)就不會相互抵消爸黄,最終接近于0滞伟,如下所示:
但是,如果做了更多的生物學(xué)重復(fù)炕贵,那么它會接近于0梆奈,不過需要的生物學(xué)重復(fù)數(shù)量會更多,因為如果生物學(xué)重復(fù)的數(shù)量量不是特別多的話称开,這第2部分就不會很快地接近0亩钟,如下所示:
我們就看一下,將中間這一項相互抵消為0需要多少個生物學(xué)重復(fù)鳖轰。我們對第2只小鼠做了3次技術(shù)重復(fù)清酥,這3次技術(shù)重復(fù)中,每個技術(shù)重復(fù)的生物學(xué)變異是相同的蕴侣,例如第2只小鼠的生物學(xué)變異是-1焰轻,那么第2只小鼠做了3次技術(shù)重復(fù),這3次技術(shù)重復(fù)的變異分別為2昆雀,-2辱志,-1(圖中數(shù)據(jù)),由于是同一只小鼠狞膘,那么這3次技術(shù)變異對應(yīng)的生物學(xué)變異是一樣的揩懒,分別是-1,-1挽封,-1(還是圖中數(shù)據(jù))已球。
因此,為了降低這種生物學(xué)變異的程度,至少也是降低到與前面測了5只小鼠(第1只小鼠到第5只小鼠)同等的水平和悦,那么我們一共需要做15次退疫,這15次就是:5個生物學(xué)重復(fù),1個生物學(xué)重復(fù)做3次技術(shù)重復(fù)鸽素,一共是15次褒繁。用公式表示就是下圖中的最后一行,如下所示:
現(xiàn)在我們比較一下這三種實驗(分別是①只做生物學(xué)重復(fù)馍忽;②既做生物學(xué)重復(fù)棒坏,又做技術(shù)重復(fù);③只做技術(shù)重復(fù))的情況:
從上述的結(jié)果我們可以發(fā)現(xiàn)這些規(guī)律:
- 只做生物學(xué)生重復(fù)的結(jié)果最接近于均值μ遭笋,這是最好的結(jié)果坝冕;
- 既做了生物學(xué)重復(fù),又做了技術(shù)重復(fù)的話瓦呼,它要么接近于均值μ(這個需要做更多的生物學(xué)重復(fù)喂窟,生物學(xué)重復(fù)與技術(shù)重復(fù)加起來要做15次),要么是均值
μ+常數(shù)
(只做更多的技術(shù)重復(fù)央串,不做更多的生物學(xué)重復(fù))磨澡; - 最差的結(jié)果就是不做生物學(xué)重復(fù),只做技術(shù)重復(fù)质和,如下所示:
結(jié)論就是稳摄,只做生物學(xué)重復(fù)就行了,就像上面的第1種情況饲宿,此時厦酬,我們只需要測序5次即可,如果既做生物學(xué)重復(fù)瘫想,又做技術(shù)重復(fù)仗阅,那么我們就需要測序15次,相當于成本直接上升到原來的3倍国夜。