小小的眼睛里舰绘,裝著……大大的疑惑
全文2800字,傷腦筋……
今天嘗試把自己對于 stranded葛菇、reverse-stranded痹扇、un-stranded 這個(gè)問題的理解給講清楚,有不對的地方還請大家批評指正担租,相互交流學(xué)習(xí)~
其實(shí)這個(gè)問題的是伴隨著鏈特異性測序的興起而產(chǎn)生的砸民,那么為什么要有鏈特異性測序呢?
一些鏈
我們都知道DNA有兩條鏈奋救,很自然的我們就想把這兩條鏈給區(qū)分一下岭参,所有就有了各種鏈的定義:
正負(fù)鏈
正負(fù)鏈這個(gè)定義實(shí)際上很“人為”,在參考基因組中尝艘,DNA的一條鏈被指定為正鏈演侯,另一條鏈就被指定為負(fù)鏈,這個(gè)指定是大家都保持一致的背亥,即通用秒际,我們所使用的參考基因組都是正鏈的序列。在文獻(xiàn)中往往被翻譯為:正鏈(forward strand; plus strand)與負(fù)鏈(reverse strand; minus strand)狡汉。模板鏈娄徊、非模板鏈
在轉(zhuǎn)錄過程當(dāng)中,與RNA結(jié)合盾戴,充當(dāng)轉(zhuǎn)錄模板的那條DNA鏈寄锐,我們稱之為模板鏈,自然另外那條鏈就稱為非模板鏈尖啡。簡單來說左冬,模板鏈?zhǔn)桥cRNA互補(bǔ)的那條DNA鏈份汗,非模板鏈?zhǔn)桥cRNA序列相同的那條鏈(這樣說不嚴(yán)謹(jǐn)色难,但是方便大家理解)席赂。正義鏈援雇、反義鏈
接著前面的矛渴,正義鏈就是和RNA序列相同的那條DNA鏈,反義鏈就是和RNA互補(bǔ)的那條DNA鏈。在文獻(xiàn)中往往被翻譯為:正義鏈(sense strand)和反義鏈(antisense strand)具温。編碼鏈蚕涤、非編碼鏈
接著前面的,編碼鏈就是和RNA序列相同的那條DNA鏈铣猩,非編碼鏈就是和RNA互補(bǔ)的那條DNA鏈揖铜。在文獻(xiàn)中往往被翻譯為:編碼鏈(coding strand)和非編碼鏈(noncoding strand)。
難以理解……上圖:
總結(jié)起來:
非模板鏈 = 編碼鏈(coding strand)= 正義鏈(sense strand)
模板鏈 = 非編碼鏈(noncoding strand) = 反義鏈(antisense strand)
鏈特異性測序
為什么要有鏈特異性測序达皿?答案就是:
"With non-stranded RNA-Seq, you can't tell whether a sequencing read represents the plus or minus strand of the DNA template. In comparison, stranded RNA-Seq distinguishes the first and second strands of cDNA."
總結(jié)來說天吓,鏈特異性測序有這幾個(gè)優(yōu)點(diǎn)是鏈非特異性測序所不具備的:
- Identify antisense transcripts
- Annotate a genome
- Discover novel transcripts
設(shè)想分別位于正負(fù)鏈上的兩個(gè)基因有一個(gè)共同的區(qū)域(overlap gene),那么如果我們用鏈非特異性測序:
詳細(xì)講一下該圖的建庫流程:
(1)oligo-dT富集:我們一般說的RNA-seq是指mRNA峦椰,但是我們提出來的總RNA有接近90%全部是rRNA龄寞,我們只想得到mRNA,利用真核生物mRNA一般都帶有polyA的尾巴這一性質(zhì)我們設(shè)計(jì)oligo-dT去與這個(gè)polyA的尾巴進(jìn)行雜交汤功,就能把我們想要的mRNA給富集出來物邑。
- 為什么只有mRNA被加尾?
在真核生物中滔金,mRNA由RNA聚合酶II轉(zhuǎn)錄色解,而rRNA大部分由RNA聚合酶I轉(zhuǎn)錄,加尾需要一系列加尾因子的作用餐茵,而這些加尾因子只有RNA聚合酶II才能夠?qū)λ鼈冞M(jìn)行招募富集科阎。
(2)添加隨機(jī)引物進(jìn)行鏈的合成:這個(gè)過程實(shí)際上就是一個(gè)DNA雙鏈的合成,無論你起始的mRNA是上面的哪一條忿族,最終形成的兩條DNA雙鏈基本是一樣的(考慮到隨機(jī)引物的結(jié)合位置萧恕,兩個(gè)DNA分子會(huì)有差異)。
(3)添加接頭:我們最終會(huì)使用illumina進(jìn)行測序肠阱,從這一步開始實(shí)際上已經(jīng)開始構(gòu)建測序文庫了票唆,這里添加的是“Y”接頭,注意屹徘,這個(gè)接頭并不是互補(bǔ)配對的走趋,從圖里就可以看出,是“Y”字形噪伊,顯然不是互補(bǔ)配對的簿煌。但是你會(huì)發(fā)現(xiàn),紫色的接頭是都位于5'端的鉴吹,而紅色的接頭則都是位于3'端的姨伟。
(4)PCR擴(kuò)增:這一步擴(kuò)增的引物結(jié)合位點(diǎn)是在前面的接頭中的,而不像前面的隨機(jī)引物了豆励《峄模可以看到瞒渠,左右兩邊都擴(kuò)增產(chǎn)生了兩個(gè)DNA分子,我們通過添加read1的測序引物就能測得read1技扼,同理伍玖,添加read2的測序引物就能測得read2。但是在這里你就會(huì)發(fā)現(xiàn)一個(gè)尷尬的問題剿吻,無論是左邊還是右邊窍箍,read1測出來的序列并不一樣,拿左邊舉例丽旅,上面那個(gè)DNA分子測出的序列為淺灰色的序列椰棘,即Plus Stranded mRNA的互補(bǔ)鏈,而下面的DNA分子測出來的序列為深灰色的序列榄笙,即和Plus Stranded mRNA序列一樣的那條鏈晰搀。這樣在同一個(gè)庫中,你最后得到的read1你也不知道它到底和mRNA之間的關(guān)系是怎樣的办斑,所以就是鏈非特異性了外恕。
但是當(dāng)我們換成鏈特異性測序:
以Plus Stranded mRNA舉例:首先還是以mRNA為模板進(jìn)行第一鏈的合成,然后在利用RNaseH對雜合鏈中的RNA進(jìn)行降解乡翅,再利用含有dUTP的反應(yīng)液進(jìn)行第二鏈的合成鳞疲,添加接頭。來看它是如何實(shí)現(xiàn)鏈特異性的:
(1)第一種方法是蠕蚜,我使用能夠特異性降解含有尿嘧啶(U)的酶來對含有U的鏈進(jìn)行降解尚洽,然后再進(jìn)行鏈的合成,這樣靶累,我的文庫里面顯然只會(huì)有一種DNA分子腺毫,我測出來的read1自然就肯定是mRNA的序列(在這張圖里)。
(2)第二種方法是挣柬,將含有U的DNA雙鏈解開潮酒,進(jìn)行擴(kuò)增,但是DNA聚合酶沒有辦法以U為模板進(jìn)行擴(kuò)增邪蛔,所以最終所有的DNA分子也只有一種急黎,就是DNA聚合酶以沒有U的DNA單鏈為模板合成的DNA分子,這個(gè)時(shí)候測出來的read1顯然也只能是mRNA的序列侧到。
通過上面的方法勃教,你就能知道你的read1到底是測的哪條鏈,就實(shí)現(xiàn)了真正的鏈特異性測序了匠抗。
stranded 與 reverse-stranded
這個(gè)問題實(shí)際上來源于我在使用featureCounts進(jìn)行定量時(shí)的一個(gè)選項(xiàng)故源,下面是這個(gè)選項(xiàng)的描述:
很難搞清楚……這里的0、1汞贸、2是什么意思绳军。實(shí)際上不僅僅是 featureCounts 印机,還有很多工具都有這個(gè)類似的選項(xiàng),比如:TopHat删铃、HTSeq、RSEM踏堡、Salmon 等等猎唁。下面借用一張網(wǎng)圖來對這個(gè)問題進(jìn)行解釋:
我們在進(jìn)行雙端測序的時(shí)候,會(huì)有read1與read2顷蟆,但是就會(huì)有三種情況诫隅,第一種是read1就是測到的sense strand的信息(condition A),第二種情況是read1測到的是antisense strand的信息(condition B)帐偎,第三種情況就是前面講到的鏈非特異性測序(condition C)逐纬。那我們要對這個(gè)進(jìn)行區(qū)分,就需要指定上面的這個(gè)參數(shù)削樊,例如 featureCounts 中豁生,-s 0就表示鏈非特異性測序,也就是 condition C漫贞;-s 1就表示甸箱,read1測到的是sense strand的信息,也就是 condition A迅脐,也就是它自己所描述的 stranded芍殖;-s 2就表示,read1得到的是antisense strand的信息谴蔑,也就是 condition B豌骏,也就是它自己所描述的 reversely stranded 。
好了隐锭,上面的清楚了窃躲,但是同樣是這樣的一個(gè)問題,不同的軟件……它有著不同的描述钦睡,例如 TopHat 就不是用 stranded 和 reversely stranded 來定義(這也是我認(rèn)為最好相通的)框舔,它用 first stranded 和 second stranded 來定義這件事,它的 first stranded 表示 read1測到的是antisense strand的信息赎婚!刘绣,second stranded 表示 read1測到的是sense strand的信息!這在我看來……是很奇葩的挣输,是很容易搞混淆的纬凤。
下面用一張圖進(jìn)行一個(gè)匯總,實(shí)名感謝這篇帖子Strandness in RNASeq撩嚼,應(yīng)該是全網(wǎng)講的最清楚的了:
fr & ff & rf & f & r
細(xì)心的人會(huì)注意到上面的 TopHat 參數(shù)中有個(gè) fr挖帘,這又是什么……?
先上圖(圖片來源:https://www.biostars.org/p/344264/):
- 單端測序
對于單端測序來說恋技,f 就表示這個(gè)read1測出的信息是從5'端開始的拇舀,而 r 則表示read1測出的信息是從中間開始的,顯然現(xiàn)在基本上已經(jīng)全都是 f 模式了蜻底。注意骄崩,在兩種不同的模式下,first stranded 含義又不同了薄辅! - 雙端測序
在雙端測序下要拂,如果read1與read2是頭對頭的,就稱之為 fr 站楚,如果是都位于一條鏈上脱惰,則稱之為 ff ,如果是尾巴對尾巴的窿春,則稱之為 rf 拉一。注意,在三種不同的模式下旧乞,first stranded 含義又不同了舅踪!
我就遇到過測出來的反而是antisense strand的信息的情況,這是一個(gè)PRO-seq的單端測序數(shù)據(jù)良蛮,首先在igv上看一下:
你可以看到抽碌,最上面的那套數(shù)據(jù),所有的reads全部是比對到反鏈上的决瞳,但是在這個(gè)區(qū)間里面只有正鏈基因PTBP2货徙,所以如果不把這個(gè)問題搞清楚……后面的分析基本要出問題。
建庫決定read1的信息
上面那張表皮胡,不同的建庫方式就會(huì)有不同的結(jié)果痴颊,總結(jié)一下:
- read1的信息是sense strand的:Ligation & Standard SOLiD
- read1的信息是antisense strand的:dUTP & illuminaTruSeq Stranded
- 鏈非特異性測序:Standard illumina
下面嘗試?yán)斫鉃槭裁?dUTP 建庫為 reversely stranded ,而 Ligation 建庫為 stranded 屡贺。針對這個(gè)問題的理解蠢棱,最多的就是這個(gè)圖了:
但是這個(gè)圖分不清sense和antisense,可以看我的這張:
詳細(xì)來講:
在這里甩栈,紅色始終表示sense strand的信息泻仙,天藍(lán)色始終表示antisense strand的信息,藍(lán)色和黃色表示接頭量没,深綠色和玫瑰紅色表示reads玉转。
需要注意的是:在將adapter連接到待測序的核酸鏈上時(shí),能夠與裸露的3'端連接的一定是黃色的adapter殴蹄;而能夠與裸露的5'端連接的一定是藍(lán)色的adapter究抓!而我們在測序時(shí)猾担,首先會(huì)添加能夠與藍(lán)色adapter結(jié)合的測序引物進(jìn)行測序,生成read1刺下,隨后才是生成read2绑嘹。仔細(xì)看就知道,從連上接頭兩邊就已經(jīng)開始出現(xiàn)差異了橘茉,所以這兩種測序建庫方法工腋,得到的reads與鏈之間的關(guān)系一定是相反的~
怎么辦?
-
遇到這個(gè)問題捺癞,首先是去看測序數(shù)據(jù)的建庫方式夷蚊,這樣就能判斷了构挤;
-
如果建庫信息沒有髓介,先進(jìn)行比對,無論怎樣建庫筋现,比對這一步不會(huì)有這些信息的干擾唐础,比對出來后,利用bam文件在igv上進(jìn)行判斷矾飞,你就能知道read1到底是sense strand的信息還是antisense strand的信息了一膨。