前言——主要內(nèi)容
這篇筆記是StatQuest系列筆記的第58節(jié)念秧,主要內(nèi)容是講RNA-seq的原理噪矛。StatQuest系列教程的58到62節(jié)是協(xié)錄組測(cè)序的內(nèi)容。
RNA-seq研究的是什么
我們先來(lái)看一個(gè)案例雀瓢,在下面的這個(gè)案例中圆存,藍(lán)色的細(xì)胞是一群正常的神經(jīng)細(xì)胞,紅色的細(xì)胞是一群突變的神經(jīng)細(xì)胞伴挚。其中靶衍,突變的神經(jīng)細(xì)胞表型與正常的神經(jīng)細(xì)胞表型不同,此時(shí)茎芋,我們想知道摊灭,是什么遺傳機(jī)制導(dǎo)致了這兩群細(xì)胞表型的差異,這就意味著败徊,我們要研究一下這兩種細(xì)胞基因表達(dá)的差異帚呼,如下所示:
接下來(lái),我們就來(lái)看一下皱蹦,怎么找出這兩群細(xì)胞基因表達(dá)的差異煤杀。
首先,根據(jù)高中的生物知識(shí)我就知道沪哺,一個(gè)細(xì)胞都有一群染色體(其數(shù)目因物種的不同而異)沈自,每條染色體上都有一些基因,在這些基因中辜妓,有些基因處于活躍狀態(tài)枯途,在下圖中忌怎,這些活躍基因上面的波形圖案表示這些基因mRNA的轉(zhuǎn)錄本,如下所示:
但是酪夷,還有一些基因是不活躍的榴啸,如下所示:
而高通量測(cè)序技術(shù)就能告訴我們,哪些基因是活躍的晚岭,以及它們的轉(zhuǎn)錄水平是多少鸥印,如下所示:
那么我們就可以通過(guò)RNA-Seq技術(shù)檢測(cè)一下正常細(xì)胞的基因表達(dá),再檢測(cè)一下突變細(xì)胞的基因表達(dá)坦报,如下所示:
然后我們比較一下這兩種細(xì)胞基因表達(dá)的差異库说,如下所示:
例如,在這個(gè)案例中片择,我們就可以發(fā)現(xiàn)潜的,經(jīng)過(guò)RNA-Seq檢測(cè)后,基因1的轉(zhuǎn)錄水平在這兩種細(xì)胞內(nèi)是沒(méi)有差異的字管,如下所示:
但是啰挪,基因2的轉(zhuǎn)錄則有很大的差異,如下所示:
基因3的轉(zhuǎn)錄水平也有差異纤掸,如下所示:
RNA-Seq的步驟
RNA-Seq主要有三個(gè)步驟,分別是第一:建庫(kù)浑塞;第二借跪,測(cè)序;第三酌壕,數(shù)據(jù)分析掏愁,如下所示:
第一步:建庫(kù)
在這一步,我們就以Illumina的實(shí)驗(yàn)流程和測(cè)序儀為標(biāo)準(zhǔn)進(jìn)行講解卵牍,其他公司的流程和測(cè)序儀可能略有出入果港,如下所示:
建庫(kù)又分這些步驟:
第一步,提取RNA糊昙;
第二步辛掠,將RNA打斷成小的片段,打斷的目的主要是因?yàn)镽NA的長(zhǎng)度有幾千個(gè)堿基释牺,而測(cè)序儀的讀長(zhǎng)只有200到300個(gè)bp萝衩,因此要進(jìn)行打斷,如下所示:
第三步没咙,將RNA反轉(zhuǎn)錄為DNA猩谊,這一步的目的在于,雙鏈DNA比RNA更加穩(wěn)定祭刚,雙鏈DNA更容易擴(kuò)增與修飾牌捷,如下所示:
第四步墙牌,添加接頭。接頭主要發(fā)揮兩個(gè)作用暗甥,第一喜滨,使測(cè)序儀識(shí)別加了接頭的片段,因?yàn)榻宇^上的序列與測(cè)序儀芯片上序列互補(bǔ)淋袖;第二鸿市,添加接頭可以在一次測(cè)序中區(qū)分不同的樣本,因?yàn)椴煌臉颖究梢允褂貌煌慕宇^即碗,如下所示:
但我們需要注意的是焰情,在加接頭這個(gè)步驟中,它的效率并不是100%的剥懒,有些片段并不會(huì)被加上接頭内舟,如下所示:
第五步:PCR擴(kuò)增,這一步的擴(kuò)增引物是接頭上序列初橘,只有那些加上了接頭的序列才能擴(kuò)增验游,如下所示:
第六步:質(zhì)控。這一步主要是看兩個(gè)指標(biāo):第一保檐,確定文庫(kù)的濃度耕蝉,第二,確定文庫(kù)的長(zhǎng)度夜只。確定文庫(kù)的濃度方法就是(根據(jù)我們實(shí)驗(yàn)室自己的流程)垒在,用Qubit檢測(cè)一下文庫(kù)的濃度,這個(gè)濃度比較粗略扔亥,不能當(dāng)成精確的數(shù)值场躯,接著,使用qPCR的方法旅挤,對(duì)文庫(kù)進(jìn)行絕對(duì)定量踢关,經(jīng)過(guò)qPCR絕對(duì)定量方法得到的文庫(kù)濃度才是最終的文庫(kù)濃度。在確定文庫(kù)片段的長(zhǎng)度方面粘茄,通常是使用Agilent 2100進(jìn)行檢測(cè)签舞,如下所示:
第二步:測(cè)序
測(cè)序測(cè)的其實(shí)就是文庫(kù),我們假設(shè)DNA片段的序列是下圖的左側(cè)部分柒瓣,它是垂直的瘪菌,因?yàn)樵跍y(cè)序儀的芯片上,文庫(kù)就是垂直排列的嘹朗,在測(cè)序芯片上的一個(gè)小方格(grid)中將近有4億條這樣的序列师妙,為了方便講解,我們?cè)谙聢D的右側(cè)只列出4條這樣的序列屹培,這樣的一個(gè)小方格被稱(chēng)為flowcell默穴,如下所示:
下圖是一個(gè)flowcell:
在測(cè)序儀所使用的測(cè)序試劑中怔檩,含有一些特殊的堿基,這些堿基帶有熒光探針蓄诽,這些熒光探針按其結(jié)合堿基的不同薛训,其顏色也不同,當(dāng)測(cè)序儀開(kāi)始測(cè)序時(shí)仑氛,這些帶有熒光探針的堿基就會(huì)結(jié)合到DNA片段上第1個(gè)堿基乙埃,如下所示:
一旦這些帶有熒光探針的堿基結(jié)合到DNA片段的堿基上,此時(shí)測(cè)序儀就會(huì)拍下一張照片锯岖,如果從上往下看介袜,就是下圖中紅框所示的圖片,這張圖片會(huì)告訴測(cè)序儀出吹,左下角的堿基是A遇伞,如下所示:
右下角的堿基就是G,如下所示:
左上角與右上角的堿基就是C捶牢,如下所示:
拍照結(jié)束后鸠珠,測(cè)序儀會(huì)把這些這些堿基上的探針給沖走(測(cè)序試劑中有其他的成分,可以切掉這些熒光探針)秋麸,此時(shí)渐排,這些攜帶有探針的堿基就成了普通堿基,如下所示:
然后再加入含有熒光探針的堿基灸蟆,再次與片段結(jié)合驯耻,如下所示:
在第二次結(jié)合后,測(cè)序儀會(huì)拍照次乓,從上往下看吓歇,就是下圖紅框內(nèi)的圖片孽水,如下所示:
這樣測(cè)序儀就知道票腰,左下角的堿基是C,如下所示:
右下角的堿基是G女气,如下所示:
左上與右上的堿基是T杏慰,如下所示:
第2張圖片識(shí)別后,再次用試劑切掉這些堿基上的熒光探針炼鞠,并沖走缘滥,如下所示:
再進(jìn)行第3次反應(yīng),如下所示:
總之谒主,測(cè)序儀會(huì)不斷地循環(huán)這個(gè)過(guò)程朝扼,直到測(cè)完所有的堿基,如下所示:
不過(guò)在實(shí)際的測(cè)序過(guò)程霎肯,這些DNA鏈的密度非常大擎颖,構(gòu)成了一個(gè)密度極高的顏色矩陣榛斯,這個(gè)過(guò)程中也會(huì)產(chǎn)生一些問(wèn)題,在下面我們就用一個(gè)簡(jiǎn)單的矩陣來(lái)說(shuō)明這個(gè)問(wèn)題搂捧,如下所示:
有時(shí)候驮俗,一個(gè)熒光探針的亮度可能不夠,此時(shí)測(cè)序儀就沒(méi)有足夠的把握能夠識(shí)別這種顏色允跑,而在測(cè)序的過(guò)程中王凑,根據(jù)這些探針的亮度,會(huì)生成一個(gè)質(zhì)量評(píng)分(Quality score)聋丝,這個(gè)質(zhì)量評(píng)分反映了測(cè)序儀對(duì)這個(gè)顏色識(shí)別的可信程度索烹,像在下面的這個(gè)圖片中,這個(gè)比較暗的點(diǎn)可能就會(huì)得到一個(gè)比較低的質(zhì)量評(píng)分潮针,如下所示:
還有另外一種情況可能會(huì)得到一個(gè)質(zhì)量評(píng)分术荤,就是在某個(gè)區(qū)域內(nèi),相同的堿基數(shù)目太多每篷,都呈現(xiàn)出一種顏色瓣戚,如下圖綠框所示部分,這種現(xiàn)象稱(chēng)為多樣性差(low diversity)焦读,這種情況下子库,由于存在著大量的單一熒光,測(cè)序儀很難識(shí)別單獨(dú)的堿基矗晃,這些顏色會(huì)混到一起仑嗅。當(dāng)測(cè)序儀測(cè)序時(shí),對(duì)于文庫(kù)中前幾個(gè)堿基的識(shí)別很容易出現(xiàn)多樣性差的問(wèn)題张症,這是因?yàn)樵趧傞_(kāi)始的時(shí)候仓技,測(cè)序儀要識(shí)別DNA片段位于芯片上的位置時(shí),如下所示:
我們看一下測(cè)序后的原始數(shù)據(jù)俗他,下圖是測(cè)序的一個(gè)read的信息脖捻,它由4行構(gòu)成,如下所示
第1行通常是由@
開(kāi)頭的兆衅,它對(duì)于每條read地沮,它都有唯一的ID,如下所示羡亩;
第2行是測(cè)序的文庫(kù)片段的堿基序列摩疑,如下所示:
第3行是一個(gè)加號(hào),它通常是空的畏铆,如下所示:
第4行是質(zhì)量信息雷袋,它用一個(gè)字符表示這個(gè)字符對(duì)應(yīng)的堿基的質(zhì)量評(píng)分,如下所示:
一次測(cè)序通常有4億條reads數(shù)辞居,一共會(huì)產(chǎn)生16億行信息楷怒,如下所示:
數(shù)據(jù)預(yù)處理
我們現(xiàn)在已經(jīng)知道了原始數(shù)據(jù)寨腔,以及原始數(shù)據(jù)如何產(chǎn)生的,那么我們下面要做這三件事情:
第一率寡, 過(guò)濾掉垃圾reads迫卢;
第二,將高質(zhì)量的reads比對(duì)到基因組上冶共;
第三乾蛤,對(duì)每個(gè)基因的reads數(shù)進(jìn)行統(tǒng)計(jì),如下所示:
過(guò)濾垃圾reads
垃圾reads是指:第一捅僵,某些reads的堿基質(zhì)量低家卖;第二,這些reads是明顯的結(jié)合錯(cuò)誤(第二種低質(zhì)量的reads我不太清楚庙楚,原文我也看不太懂上荡,我個(gè)人理解就是兩個(gè)接頭直接連接在一起的read)。
一條典型的read是一個(gè)DNA片段加上兩個(gè)接頭馒闷,但是在某些情況下酪捡,兩個(gè)接頭會(huì)直接加在一起,這就是垃圾reads纳账,如下所示:
將read比對(duì)到基因組
我們先看一下基因組上的堿基序列逛薇,由于基因組的堿基序列很長(zhǎng),我們只截取一段出來(lái)疏虫,如下圖中的紅框所示永罚,把這條基因組的堿基打斷,會(huì)生成這些短的堿基序列卧秘,如下所示:
此時(shí)呢袱,我們把基因組的這些片段加上索引,并記錄下它們?cè)谌旧w上的位置翅敌,就是下圖藍(lán)框中的部分羞福,如下所示:
此時(shí),我們把我們的測(cè)序read也打成小片段哼御,就像上面的基因組打成小片段一樣坯临,如下所示:
然后把reads的小片段與基因組的小片段進(jìn)行匹配焊唬,如下所示:
那些與reads的小片段匹配的基因組小片段就是這些read小片段在基因組上的位置(哪條染色體上祷肯,染色體的哪個(gè)位置)辜羊,如下所示:
此時(shí),我們可能有一個(gè)問(wèn)題,為什么要把這些序列打斷成小片段啥繁,這是因?yàn)榧词箁eads與參考基因組在不是特別精確匹配的情況下,也能進(jìn)行匹配,如下所示:
我們來(lái)看一個(gè)簡(jiǎn)單的例子,在下圖中谤祖,某條read最左側(cè)是A,而對(duì)應(yīng)的基因組上并沒(méi)有這個(gè)A(打個(gè)很簡(jiǎn)單的案例老速,我自己的基因組肯定與別人的基因組略有差異)粥喜,如下所示:
即使這個(gè)小片段無(wú)法與基因組上相匹配,那么其它的小片段還是能夠匹配的橘券,此時(shí)我們?nèi)匀豢梢哉业竭@條read來(lái)源于基因組的哪個(gè)位置额湘,如下所示:
每個(gè)基因的reads計(jì)數(shù)
一旦我們知道了某條read的位置(也就是說(shuō)知道了這條read在哪條染色體上,以及在染色體的哪個(gè)位置上)旁舰,那么我們就可以看一下這條read是否能夠落在某個(gè)基因的坐標(biāo)中(或者是某些其它感興趣的區(qū)域)锋华,例如在下圖中,我們列出了Xkr4
和Rp1
這兩個(gè)基因的坐標(biāo)箭窜,如下所示:
當(dāng)我們統(tǒng)計(jì)了每個(gè)基因的reads數(shù)后毯焕,我們就會(huì)得到下面這樣的矩陣,如下所示:
第1列是基因名磺樱,在人類(lèi)中纳猫,人類(lèi)大概有20000個(gè)基因,因此這個(gè)矩陣的大概有2萬(wàn)行(下圖中并沒(méi)列完所有的基因)竹捉,如下所示:
剩余的幾列是每個(gè)樣本對(duì)應(yīng)的基因的reads數(shù)续担,這里的樣本數(shù)目大概是6到800個(gè),如下所示:
對(duì)于大部分的RNA-Seq來(lái)說(shuō)活孩,一個(gè)“樣本”通常是一群細(xì)胞的平均值(通常是600萬(wàn)個(gè)細(xì)胞)物遇,一次實(shí)驗(yàn),一般有3個(gè)正常的樣本憾儒,3個(gè)疾病狀態(tài)的樣本询兴,總共就是6個(gè)樣本,如下所示:
而對(duì)于單細(xì)胞測(cè)序(Single-cell RNA-Seq)來(lái)說(shuō)起趾,每個(gè)細(xì)胞就是一個(gè)樣本诗舰,因此這個(gè)矩陣中會(huì)出現(xiàn)有幾百個(gè)樣本,例如800多個(gè)训裆,如下所示:
我們現(xiàn)在看某一行數(shù)據(jù)眶根,如下所示,在這行數(shù)據(jù)中边琉,我們可以看到每個(gè)樣本中属百,每個(gè)特定基因的reads數(shù),如下所示:
如果這個(gè)矩陣是單細(xì)胞測(cè)序的數(shù)據(jù)变姨,那么這個(gè)矩陣有2萬(wàn)行(基因數(shù)目)族扰,800多列(樣本數(shù)),大概有1600萬(wàn)個(gè)數(shù)值,這是一個(gè)極大的矩陣渔呵,并且隨著測(cè)序技術(shù)發(fā)展怒竿,所測(cè)樣本數(shù)目的增多,這樣的矩陣會(huì)越來(lái)越大扩氢,如下所示:
在進(jìn)行最終的數(shù)據(jù)分析之前耕驰,我們還要對(duì)數(shù)據(jù)進(jìn)行均一化,這是因?yàn)槊總€(gè)樣本比對(duì)到基因組上的reads數(shù)都不同录豺,這可能是由于在測(cè)序時(shí)耍属,有些樣本的reads質(zhì)量低,而另外某些樣本的濃度略大巩检,導(dǎo)致其總的reads數(shù)略高厚骗,如下所示:
例如,在下圖中兢哭,Sample 1有635個(gè)reads比對(duì)上了领舰,而Sample 2則有1270個(gè)reads數(shù)比對(duì)上了,Sample 2是Sample 1的兩倍迟螺。但是這無(wú)法說(shuō)明冲秽,Sample 2轉(zhuǎn)錄的基因是Sample 1的2倍,相反矩父,這只能說(shuō)明锉桑,Sample 2中的低質(zhì)量reads數(shù)少,它在測(cè)序時(shí)窍株,被測(cè)序儀識(shí)別的熒光更多而已民轴,如下所示:
但是,我們發(fā)現(xiàn)球订,Sample 2中基因的reads數(shù)貌似是Sample 1中的基因reads數(shù)的2倍后裸,如下所示:
A2M基因也是如此,如下所示:
因此冒滩,我們需要調(diào)整每個(gè)基因的reads數(shù)微驶,從這樣才能真正反映出不同樣本中比對(duì)上的reads數(shù)之間的差異,如下所示:
均一化最簡(jiǎn)單的方法就是在每個(gè)樣本中开睡,每個(gè)基因的reads數(shù)除以總的比對(duì)上的reads數(shù)因苹,不過(guò),還有其他更復(fù)雜的方法篇恒,如下所示:
我們?cè)倩氐阶畛醯恼<?xì)胞與突變細(xì)胞的比較扶檐,我們先有了這兩群細(xì)胞,如下所示:
然后提取RNA婚度,如下所示:
隨后蘸秘,進(jìn)行測(cè)序,比對(duì)蝗茁,統(tǒng)計(jì)每個(gè)基因的reads數(shù)醋虏,然后均一化,如下所示:
此時(shí)哮翘,開(kāi)始數(shù)據(jù)處理颈嚼。
第三步:數(shù)據(jù)處理
數(shù)據(jù)處理的第一步通常都是相同,那就是繪圖饭寺,我們要記住阻课,這個(gè)表達(dá)矩陣非常大,如下所示:
如果每個(gè)樣本只有2基因艰匙,那么繪圖非常簡(jiǎn)單限煞,如下所示:
第1步:繪圖
首先我們用XY來(lái)替代這兩個(gè)基因,根據(jù)它們的表達(dá)水平來(lái)繪圖员凝,如下所示:
但是署驻,我們有2萬(wàn)個(gè)基因,如下所示:
因此我們會(huì)用PCA或者是類(lèi)似的方法來(lái)繪圖健霹,PCA能夠降低坐標(biāo)軸的數(shù)目(也就是把2萬(wàn)個(gè)基因?qū)?yīng)的2萬(wàn)個(gè)坐標(biāo)軸給降低到3個(gè)或2個(gè))旺上,從而更加直觀地表現(xiàn)數(shù)據(jù),如下所示:
下圖是我們利用PCA繪制的圖形糖埋,正常的細(xì)胞是wt
宣吱,突變的 細(xì)胞是ko
,其中正常的細(xì)胞集中在左下角瞳别,敲除的細(xì)胞集中在右下方征候,如下所示:
從圖中我們可以發(fā)現(xiàn),這兩類(lèi)數(shù)據(jù)的差異主要體現(xiàn)在x軸上祟敛,如下所示:
相反倍奢,Y軸的差異沒(méi)那么大垒棋,如下所示:
這就說(shuō)明卒煞,wt
組與ko
組的差異主要集中于X軸,如下所示:
但是叼架,當(dāng)我們進(jìn)行下一步的分析時(shí)畔裕,就需要排除wt2
這個(gè)樣本了,如下所示:
下圖是單細(xì)胞測(cè)序的PCA圖乖订,如下所示:
上面的不同顏色繪圖依據(jù)是這些細(xì)胞行為的不同扮饶,綠色表示的是靜止的細(xì)胞,橘黃色表示的是遷移到培養(yǎng)皿周?chē)募?xì)胞乍构,如下所示:
大多數(shù)橘黃色的細(xì)胞與綠色的細(xì)胞是不同的甜无,但是在左側(cè)綠色的細(xì)胞中,也有幾個(gè)是橘黃色的細(xì)胞,這說(shuō)明這幾個(gè)細(xì)胞的表型與綠色細(xì)胞更接近岂丘,如下所示:
如果我們想要研究上面兩個(gè)大群細(xì)胞的差異陵究,那么此時(shí)我們就要排除左下那幾個(gè)橘黃色的細(xì)胞,如下所示:
總之奥帘,在對(duì)數(shù)據(jù)繪圖后铜邮,我們可以從中得到這些信息:
- 找到感興趣的差異部分;
- 在進(jìn)行下游的分析之前寨蹋,應(yīng)該排除哪些數(shù)據(jù)松蒜,如下所示:
第2步:尋找差異基因
繪圖后,我們就需要找到正常樣本與突變樣本有哪些差異表達(dá)基因已旧,在分析差異基因時(shí)秸苗,通常使用R中的edgeR
或DESeq2
,它們通常以下圖進(jìn)行展示运褪,如下所示:
其中紅色部分是正常樣本與突變樣本的差異基因难述,如下所示:
中間的黑色部分是沒(méi)有差異的基因,如下所示:
其中X軸表示的是基因的轉(zhuǎn)錄水平吐句,它的單位是logCPM胁后,其中CPM是counts per million的縮寫(xiě),如下所示:
Y軸則是表示在正常樣本與突變樣本之間嗦枢,差異基因的差異程度有多大攀芯,單位是logFC,即log(fold change)文虏,如下所示:
此時(shí)我們已經(jīng)找到了感興趣的基因(也就是差異基因)侣诺,此時(shí)我們要做哪些事情呢?
第一氧秘,如果你知道你找的是什么(我的理解就是找的是具體的哪個(gè)基因)年鸳,那么就要做實(shí)驗(yàn),看能否驗(yàn)證你的假設(shè)丸相;
第二搔确,如果你不知道你接下來(lái)做什么,那么就你可以看一下這些差異基因集能否在某些通路上富集灭忠,如下所示:
每個(gè)樣本對(duì)于每個(gè)特定的基因膳算,它的reads數(shù)都不同。