StatQuest學(xué)習筆記26——RNA-seq中的技術(shù)重復(fù)問題

前言

這是StatQuest系列視頻教程筆記的最后一篇姐浮,我在YouTube上看了一下珠增,作者還有其他的幾個視頻超歌,有興趣的同學(xué)還可以看看。這篇筆記是視頻教程的第62節(jié)蒂教,主要內(nèi)容是講RNA-Seq中的技術(shù)重復(fù)問題巍举。

是否需要技術(shù)重復(fù)

前面有一篇筆記我們提到了技術(shù)重復(fù)與生物重復(fù)。但在RNA-Seq中凝垛,我們是否需要做技術(shù)重復(fù)呢懊悯?

答案是否,如果你做了生物學(xué)重復(fù)梦皮,就不需要做技術(shù)重復(fù)炭分。或許有同學(xué)知道這個答案剑肯,但是卻不清楚為什么做了生物學(xué)重復(fù)后捧毛,就不需要做技術(shù)重復(fù)了呢,后面我們就會回答這個問題让网,如下所示:

image

RNA-Seq變異的兩個來源

RNA-Seq的測序數(shù)據(jù)的變異(variation)主要來源兩個方面呀忧,第一個是生物學(xué)變異(Biological Variation),第二個是技術(shù)變異(technical variation)溃睹。

生物學(xué)變異

生物學(xué)變異是指生物本身本身造成的變異而账,例如,即使是遺傳背景完全一樣的小鼠丸凭,例如像C57BL/6N這樣遺傳背景都非常清楚的小鼠福扬,也不存在RNA轉(zhuǎn)錄本數(shù)目完全相同的兩只小鼠(只能是接近腕铸,而不是完全相同)。

任何物種的兩個生物個體都不可能完全一樣铛碑,無論這種生物是人狠裹,小鼠,還是果蠅汽烦。

技術(shù)變異

每當我們做一個實驗時涛菠,在實驗過程中都會參雜一些零碎的非實驗因素(例如今天你的心情,不同批次的培養(yǎng)基撇吞,移液槍的吹打次數(shù)俗冻,細胞培養(yǎng)的時間,細胞的傳代次數(shù)等等)牍颈,其中的一些是完全100%的隨機因素迄薄。因此,當我們再次重復(fù)這個實驗的時煮岁,即使實驗條件與上一次的實驗條件完全相同讥蔽,也不可能得到與上次實驗100%相同的結(jié)果(當然,總體的結(jié)果會相差不大画机,會很接近)冶伞,如下所示:

image

生物學(xué)變異的案例

為了說明這生物學(xué)變異和技術(shù)變異的問題,我們先來看一個簡單的案例步氏。

在這個案例中响禽,我們只研究生物學(xué)變異。例如荚醒,我們對幾只小鼠做了RNA-Seq芋类,沒有做任何技術(shù)重復(fù)。在下面的二維坐標系中腌且,X軸是小鼠的編號梗肝,Y軸是小鼠基因X的reads數(shù),下圖是第1只小鼠的數(shù)據(jù)铺董,如下所示:

image

我們再看一下第2只小鼠的數(shù)據(jù)巫击,如下所示:

image

由于我們沒有做技術(shù)重復(fù),因此從上圖中精续,我們可以知道坝锰,第2只小鼠與第1只小鼠的基因X的reads數(shù)差異就是完全來源于生物學(xué)變異了,也就是這兩只小鼠自身的變異重付,現(xiàn)在看第其它小鼠的數(shù)據(jù)顷级,如下所示:

image

假設(shè)我們把地球上的所有小鼠都給測了,也就是說上圖的X軸上有無數(shù)個小鼠的基因X的reads數(shù)确垫,此時弓颈,我們求出這所有小鼠基因X的reads數(shù)的平均值猾封,并用希臘字母μ表示剑鞍,這個μ就是小鼠基因X的reads數(shù)真正的均值凡蚜,就是下面的這個樣子:

image

現(xiàn)在我們計算出每只小鼠基因X的reads數(shù)與真實均值μ的差值瓦阐,先看第1只小鼠,它與均值μ的差值是5纤子,如下所示:

image

現(xiàn)在再計算出剩下的所有小鼠的基因X的reads數(shù)與reads數(shù)平均值的差值搬瑰,為了方便說明問題,這里我們只計算前5只小鼠的數(shù)據(jù)控硼,如下所示:

image

此時泽论,我們使用數(shù)學(xué)公式來表示這前5只小鼠的基因X的reads數(shù),這個公式很簡單卡乾,如下所示:

image

現(xiàn)在我們計算出這5只小鼠的基因X的reads數(shù)的均值翼悴,如下所示:

image

把上面的公式再整理一下,應(yīng)時下面的這個樣子幔妨,如下所示:

image

其中上圖公式右側(cè)紅圏的部分是幾個常數(shù)抄瓦,也就是每只小鼠基因X的reads數(shù)與均值μ的差值的均值,并且這個紅圏中的計算結(jié)果(5-1+4+2-5=1)會隨著小鼠樣本數(shù)目的增多而縮小陶冷,從而最終近于0,那么上面的均值最終會等于實際的均值μ了毯辅,如下所示:

image

考慮生物學(xué)變異與技術(shù)變異的情況

還以上述的案例來說明一下生物學(xué)變異和技術(shù)變異埂伦,為了清楚地說明這兩個變異,在下圖中思恐,我們使用橘黃色的線段來表示生物學(xué)變異沾谜,如下所示:

image

我們使用綠色的箭頭來表示技術(shù)變異,其中綠色箭頭向下表示技術(shù)重復(fù)導(dǎo)致的reads數(shù)降低胀莹,綠色箭頭向上表示reads數(shù)上升的情況基跑,如下所示:

image

現(xiàn)在我們考慮生物學(xué)變異和技術(shù)變異的情況下,來計算一下前5只小鼠的基因X的reads數(shù)均值描焰,如下所示:

image

現(xiàn)在整理一下上面的均值公式媳否,我們可以發(fā)現(xiàn),這個公式可以公為3部分荆秦,第1部分是均值μ篱竭,第2部分是生物學(xué)變異,第3部分是技術(shù)變異步绸,如果我們增加樣本的話掺逼,那么這兩個變異就會接近于0,因為它們的分子中既有正值瓤介,又有負值吕喘,因此最終會相互抵消赘那,因此,做了生物學(xué)重復(fù)(一共有5只小鼠)的這批小鼠的最終基因X的reads均值就是μ氯质,如下所示:

image

只做技術(shù)重復(fù)的情況

我們現(xiàn)在考慮另外一種情況募舟,即我們只做了技術(shù)重復(fù)。例如針對第1只小鼠病梢,我們做了5次技術(shù)重復(fù)胃珍,它的基因X的reads數(shù)如下所示:

image

其中生物學(xué)變異使用橘黃色表示,橘黃色線段的大小都一樣蜓陌,這是因為對同一只小鼠做了5次技術(shù)重復(fù)觅彰,同一只小鼠的生物學(xué)變異是一樣的,另外钮热,在下圖中我們再添加上技術(shù)變異填抬,技術(shù)變異使用綠色表示,如下所示:

image

現(xiàn)在我們計算一下第1只小鼠的基因X的reads數(shù)均值隧期,如下所示:

image

其中我們可以發(fā)現(xiàn)飒责,在這個案例中,第1只小鼠的基因X的reads數(shù)的均值由3部分構(gòu)成仆潮。

第1部分是實際均值μ宏蛉,第2部分是生物學(xué)變異,它是一個固定的值性置,因為對于一只確定的小鼠來說拾并,它的生物學(xué)變異是確定的,因此針對這只確定的小鼠來說鹏浅,無論做多少次技術(shù)重復(fù)嗅义,它的生物學(xué)變異都是一個固定值,不會相互抵消隐砸,在這里之碗,這個值是5。第3部分是技術(shù)變異季希,不過由于技術(shù)變異的分子部分有正數(shù)褪那,有負數(shù),因此隨著技術(shù)重復(fù)的增多式塌,技術(shù)變異的分子會相互抵消武通,最終接近于0,因此第1只小鼠基因X的reads數(shù)的均值最終結(jié)果是μ+5珊搀。

比較生物學(xué)重復(fù)和技術(shù)重復(fù)

生物學(xué)重復(fù)

現(xiàn)在我們比較一下生物學(xué)重復(fù)和技術(shù)重復(fù)冶忱,回到我們前面的部分,我們知道境析,基因X的reads數(shù)的平均值公式是由3三部分構(gòu)成的囚枪,其中第1部分是真實的均值μ派诬,第2部分是生物學(xué)重復(fù),用橘黃色表示链沼,第3部分是技術(shù)重復(fù)默赂,用綠色表示,如下所示:

image

第1部分是真實的均值μ括勺,這里再強調(diào)一下缆八,真實的均值可以理解為所有小鼠基因X的reads數(shù)的均值,而我們平時所測的小鼠基因X的reads數(shù)是對這個均值μ的估計值疾捍,因為我們不可能把所有的小鼠基因X都給測了奈辰,估計值只能無限接近于真實均值μ,但法等于均值乱豆,不過當樣本量足夠大時奖恰,此時的估計值就可以視為均值μ。

公式的第2部分是生物學(xué)變異宛裕,第3部分是技術(shù)變異瑟啃。由于生物學(xué)變異和技術(shù)變異的分子部分都是有正值,負值揩尸,因此第2部分與第3部分最終會抵消蛹屿,得到的結(jié)果就會非常接近于真正的均值μ,它就代表了所有的小鼠基因X的reads數(shù)岩榆,如下所示:

image

無生物學(xué)重復(fù)

現(xiàn)在我們再看一下無生物學(xué)重復(fù)蜡峰,有技術(shù)重復(fù)的情況下,我們計算一下第1只小鼠的基因X的reads數(shù)均值朗恳,如下所示:

image

這個公式由3部分組成,即真實均值μ载绿,生物學(xué)變異和-技術(shù)變異粥诫,如果我們不斷地增加樣本,那么這個均值就成了Average = μ +5崭庸,最終這個結(jié)果只能提供第1只小鼠的信息怀浆,而非其它所有小鼠的信息,也就是說怕享,此時的這個μ+5只是第1只小鼠基因X的reads數(shù)均值执赡,而不是真實的均值μ,它不能代表整個小鼠的基因X的reads數(shù)函筋,如下所示:

image

結(jié)論就是沙合,如果我們只對這個小鼠做多次技術(shù)重復(fù),最終得到的數(shù)據(jù)就是這個小鼠的數(shù)據(jù)跌帐,不具有代表性首懈,也就是說绊率,如果別人的實驗室重復(fù)這個實驗的話,有可能重復(fù)不出來究履。

同時做生物學(xué)重復(fù)和技術(shù)重復(fù)

此時我們可能會想滤否,如果我既做了生物學(xué)重復(fù),又做了技術(shù)重復(fù)最仑,那么是不是能得到最精確的結(jié)果藐俺?

很不幸,答案是否定的泥彤。在下面的這個案例中欲芹,我們對第1只小鼠做了2個技術(shù)重復(fù),第2只小鼠做了3個技術(shù)重復(fù)全景,如下所示:

image

那么我們求出均值耀石,如下所示:

image

如果我們不再做另外的生物學(xué)重復(fù),那么上述公式的第2部分(也就是橘黃色的生物學(xué)變異部分)就不會相互抵消爸黄,最終接近于0滞伟,如下所示:

image

但是,如果做了更多的生物學(xué)重復(fù)炕贵,那么它會接近于0梆奈,不過需要的生物學(xué)重復(fù)數(shù)量會更多,因為如果生物學(xué)重復(fù)的數(shù)量量不是特別多的話称开,這第2部分就不會很快地接近0亩钟,如下所示:

image

我們就看一下,將中間這一項相互抵消為0需要多少個生物學(xué)重復(fù)鳖轰。我們對第2只小鼠做了3次技術(shù)重復(fù)清酥,這3次技術(shù)重復(fù)中,每個技術(shù)重復(fù)的生物學(xué)變異是相同的蕴侣,例如第2只小鼠的生物學(xué)變異是-1焰轻,那么第2只小鼠做了3次技術(shù)重復(fù),這3次技術(shù)重復(fù)的變異分別為2昆雀,-2辱志,-1(圖中數(shù)據(jù)),由于是同一只小鼠狞膘,那么這3次技術(shù)變異對應(yīng)的生物學(xué)變異是一樣的揩懒,分別是-1,-1挽封,-1(還是圖中數(shù)據(jù))已球。

因此,為了降低這種生物學(xué)變異的程度,至少也是降低到與前面測了5只小鼠(第1只小鼠到第5只小鼠)同等的水平和悦,那么我們一共需要做15次退疫,這15次就是:5個生物學(xué)重復(fù),1個生物學(xué)重復(fù)做3次技術(shù)重復(fù)鸽素,一共是15次褒繁。用公式表示就是下圖中的最后一行,如下所示:

image

現(xiàn)在我們比較一下這三種實驗(分別是①只做生物學(xué)重復(fù)馍忽;②既做生物學(xué)重復(fù)棒坏,又做技術(shù)重復(fù);③只做技術(shù)重復(fù))的情況:

image

從上述的結(jié)果我們可以發(fā)現(xiàn)這些規(guī)律:

  1. 只做生物學(xué)生重復(fù)的結(jié)果最接近于均值μ遭笋,這是最好的結(jié)果坝冕;
  2. 既做了生物學(xué)重復(fù),又做了技術(shù)重復(fù)的話瓦呼,它要么接近于均值μ(這個需要做更多的生物學(xué)重復(fù)喂窟,生物學(xué)重復(fù)與技術(shù)重復(fù)加起來要做15次),要么是均值μ+常數(shù)(只做更多的技術(shù)重復(fù)央串,不做更多的生物學(xué)重復(fù))磨澡;
  3. 最差的結(jié)果就是不做生物學(xué)重復(fù),只做技術(shù)重復(fù)质和,如下所示:
image

結(jié)論就是稳摄,只做生物學(xué)重復(fù)就行了,就像上面的第1種情況饲宿,此時厦酬,我們只需要測序5次即可,如果既做生物學(xué)重復(fù)瘫想,又做技術(shù)重復(fù)仗阅,那么我們就需要測序15次,相當于成本直接上升到原來的3倍国夜。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末减噪,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子支竹,更是在濱河造成了極大的恐慌,老刑警劉巖鸠按,帶你破解...
    沈念sama閱讀 206,013評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件礼搁,死亡現(xiàn)場離奇詭異,居然都是意外死亡目尖,警方通過查閱死者的電腦和手機馒吴,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,205評論 2 382
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人饮戳,你說我怎么就攤上這事豪治。” “怎么了扯罐?”我有些...
    開封第一講書人閱讀 152,370評論 0 342
  • 文/不壞的土叔 我叫張陵负拟,是天一觀的道長。 經(jīng)常有香客問我歹河,道長掩浙,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,168評論 1 278
  • 正文 為了忘掉前任秸歧,我火速辦了婚禮厨姚,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘键菱。我一直安慰自己谬墙,他們只是感情好,可當我...
    茶點故事閱讀 64,153評論 5 371
  • 文/花漫 我一把揭開白布经备。 她就那樣靜靜地躺著拭抬,像睡著了一般。 火紅的嫁衣襯著肌膚如雪弄喘。 梳的紋絲不亂的頭發(fā)上玖喘,一...
    開封第一講書人閱讀 48,954評論 1 283
  • 那天,我揣著相機與錄音蘑志,去河邊找鬼累奈。 笑死,一個胖子當著我的面吹牛急但,可吹牛的內(nèi)容都是我干的澎媒。 我是一名探鬼主播,決...
    沈念sama閱讀 38,271評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼波桩,長吁一口氣:“原來是場噩夢啊……” “哼戒努!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起镐躲,我...
    開封第一講書人閱讀 36,916評論 0 259
  • 序言:老撾萬榮一對情侶失蹤储玫,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后萤皂,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體撒穷,經(jīng)...
    沈念sama閱讀 43,382評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,877評論 2 323
  • 正文 我和宋清朗相戀三年裆熙,在試婚紗的時候發(fā)現(xiàn)自己被綠了端礼。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片禽笑。...
    茶點故事閱讀 37,989評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖蛤奥,靈堂內(nèi)的尸體忽然破棺而出佳镜,到底是詐尸還是另有隱情,我是刑警寧澤凡桥,帶...
    沈念sama閱讀 33,624評論 4 322
  • 正文 年R本政府宣布蟀伸,位于F島的核電站,受9級特大地震影響唬血,放射性物質(zhì)發(fā)生泄漏望蜡。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,209評論 3 307
  • 文/蒙蒙 一拷恨、第九天 我趴在偏房一處隱蔽的房頂上張望脖律。 院中可真熱鬧,春花似錦腕侄、人聲如沸小泉。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,199評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽微姊。三九已至,卻和暖如春分预,著一層夾襖步出監(jiān)牢的瞬間兢交,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,418評論 1 260
  • 我被黑心中介騙來泰國打工笼痹, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留配喳,地道東北人。 一個月前我還...
    沈念sama閱讀 45,401評論 2 352
  • 正文 我出身青樓凳干,卻偏偏與公主長得像晴裹,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子救赐,可洞房花燭夜當晚...
    茶點故事閱讀 42,700評論 2 345

推薦閱讀更多精彩內(nèi)容