目前我們主要分析的數(shù)據(jù)還是二代測序的數(shù)據(jù)蚊丐,也就是大家經(jīng)常掛在嘴邊的 NGS,而這其中最大的贏家應(yīng)該算是 illumina
測序公司了艳吠,其經(jīng)典的邊合成邊測序(sequencing by synthesis吠撮,SBS)巧妙地利用帶不同熒光的dNTP來讓堿基組成可視化,本身還是很有意思的讲竿。但隨之而來的就有一些問題,比如以RNA-seq為例弄屡,如果你是一個(gè)經(jīng)典的從表達(dá)矩陣開始的數(shù)據(jù)分析選手题禀,那其實(shí)建庫細(xì)節(jié)對(duì)你來說好像也沒那么重要;而如果你是一個(gè)從原始fastq下機(jī)數(shù)據(jù)(甚至建庫實(shí)驗(yàn))開始的數(shù)據(jù)分析選手膀捷,此時(shí)建庫的細(xì)節(jié)就可能顯得尤為重要迈嘹,需要你做到知根知底黍翎。或許你經(jīng)常遇到一些名詞撇叁,其中有一些可能讓你感到迷惑:
橋式PCR
鏈特異性RNA測序
sample index
adapter
簇生成
- ……
現(xiàn)在我們就以illumina經(jīng)典的 TruSeq Stranded mRNA 建庫測序?yàn)槔齺碜咭槐檎麄€(gè)illumina測序的流程材原,為什么會(huì)選擇這個(gè)建庫策略呢显歧?首先菩混,RNA-seq是目前我們觸手可及嗡午、應(yīng)用最廣的基因表達(dá)量檢測技術(shù)熊经;其次呕诉,相較之于鏈非特異性測序覆劈,鏈特異性測序?qū)Υ蠖鄶?shù)人來說更復(fù)雜保礼,更難以理解。關(guān)于鏈特異性測序我之前已經(jīng)有一個(gè)長篇大論談到了這個(gè)問題:一文闡述鏈特異性測序——stranded? reverse-stranded? un-stranded?责语,閱讀量還不錯(cuò)炮障,反饋也還可以,有興趣的可以去看看坤候,在這里就只以 TruSeq Stranded mRNA 為例了胁赢。
An overview of TruSeq Stranded mRNA sequencing
老規(guī)矩,我還是以圖輔以文字的方式來先整體介紹一下 TruSeq Stranded mRNA :
對(duì)著流程看白筹,提前說一下智末,紅色始終代表sense strand的信息谅摄,天藍(lán)色代表antisense strand的信息:
- 首先,我們需要利用成熟mRNA帶polyA尾的特點(diǎn)吹害,通過oligo dT來富集出mRNA螟凭;
- 接下來我們使用超聲來對(duì)mRNA進(jìn)行片段化,然后再使用隨機(jī)引物進(jìn)行反轉(zhuǎn)錄它呀,這個(gè)過程就是第一條鏈的合成螺男;
- 接下來我們使用諸如RNaseH的酶來消化降解掉雜合鏈中的RNA,然后再進(jìn)行第二鏈的合成纵穿,不過這里我們不使用dTTP下隧,而是使用dUTP。
- 使用Klenow酶來給3'末端添加一個(gè)突出的A谓媒;
- 連接adapter淆院,注意這里的adapter結(jié)構(gòu)哦;
- 然后再進(jìn)行PCR句惯,由于DNA聚合酶不能以dUTP為模板土辩,所以以sense strand為模板的鏈沒有辦法參與到PCR中,因此最終的雙鏈DNA都是右下角那樣的抢野。
我們最終可以看到拷淘,Read1測到的是antisense strand的信息,Read2測到的是sense strand的信息指孤,這和我們之前的理解是一樣的哈启涯。
illumina測序細(xì)節(jié)
注意了,我們現(xiàn)在回到這個(gè)結(jié)構(gòu)恃轩,開始走上機(jī)測序的流程:
首先illumina測序用的東西叫:flowcell结洼,這個(gè)結(jié)構(gòu)的底部有很多的多核苷酸鏈,這些多核苷酸鏈?zhǔn)桥c我們的p5和p7接頭互補(bǔ)的叉跛。
我們以一條DNA單鏈為例松忍,首先它的P5接頭序列會(huì)和flowcell上面的P5接頭互補(bǔ)序列結(jié)合,然后會(huì)發(fā)生DNA的合成筷厘,注意合成完了之后挽铁,由于flowcell上面的接頭互補(bǔ)序列是和flowcell共價(jià)連接的(已經(jīng)用黃色圓圈標(biāo)識(shí)出),所以很穩(wěn)定敞掘,我們使用堿性溶液沖洗flowcell時(shí)叽掘,靠共價(jià)鍵連接在flowcell上的鏈并不會(huì)被沖洗掉,反之另一條鏈就被洗掉了玖雁,最后就成了最右邊的那種情況更扁。
接下來,發(fā)生了第一個(gè)名詞的過程:
橋式PCR
:它為什么叫
橋式PCR
,其實(shí)很簡單浓镜,就是因?yàn)橹虚g進(jìn)行PCR的時(shí)候像一個(gè)拱橋一樣溃列。同樣的DNA合成后用堿性溶液就能使DNA雙鏈解鏈,但是由于P7是共價(jià)連接在flowcell上的膛薛,所以不會(huì)被洗掉哦听隐,如此重復(fù)進(jìn)行橋式PCR
,最終就會(huì)形成一個(gè)簇哄啄,第二個(gè)名詞出來了雅任,那就是簇生成
。你會(huì)發(fā)現(xiàn)這一簇單鏈DNA其實(shí)都是來自于一條起始DNA單鏈咨跌,也就是說沪么,這一簇DNA實(shí)際上表征的生物學(xué)信息是一樣的。有人會(huì)問锌半,為什么要這么麻煩橋式PCR呢禽车?回答這個(gè)問題就會(huì)提到邊合成邊測序了,單個(gè)堿基的熒光終究是比較弱的刊殉,但是很多個(gè)堿基的熒光聚在一起就會(huì)很明顯了殉摔,就足夠我們?nèi)?zhǔn)確判斷堿基類型了。這就是為什么我們要進(jìn)行橋式PCR的原因记焊。下面開始測序逸月,你就知道橋式PCR妙在哪里了:我們先把連接在P5上面的鏈洗掉,就成了上圖左邊的情況亚亲,然后我們讓read1的primer結(jié)合上去,邊合成邊測序腐缤,記住捌归,這里一簇DNA有很多這樣的鏈,所以你看到的熒光信號(hào)會(huì)很強(qiáng)岭粤,如果沒有橋式PCR惜索,你就不可能實(shí)現(xiàn)這樣的效果。需要注意的是剃浇,我在這里把sample index也標(biāo)出來了巾兆,為什么會(huì)有這個(gè)東西,因?yàn)閷?shí)際上有時(shí)候一個(gè)flowcell的測序容量還是很大的虎囚,為了不造成浪費(fèi)角塑,很多時(shí)候我們會(huì)把來自不同樣品的文庫混在一起測,那我們在建庫時(shí)就加上不同的sample index淘讥,但時(shí)候我們就能夠根據(jù)這個(gè)sample index序列區(qū)分reads不同的樣品來源了圃伶,一般如果有這個(gè)序列會(huì)以類似于I1.fq.gz的形式返給你,但實(shí)際上我們很少收到這個(gè)結(jié)果,就是因?yàn)闇y序公司下機(jī)后就會(huì)根據(jù)這個(gè)sample index把reads分好窒朋,所以你就只會(huì)拿到你的序列搀罢。
下一個(gè)名詞:
雙端測序
,為什么會(huì)有這個(gè)雙端測序
侥猩,實(shí)際上很簡單榔至,如果一條DNA序列很長,我們可能沒辦法通過一條reads把它全部測完欺劳,但同時(shí)我們又要精確定位其在基因組上的位置唧取,這時(shí)雙端測序就派上用場了,當(dāng)我們把這個(gè)DNA的兩端都測了之后杰标,就知道這個(gè)DNA的兩端分別在基因組的什么位置上了兵怯,這樣即使中間還有一段我沒測到也沒關(guān)系,兩端的位置已經(jīng)決定了這個(gè)DNA片段在基因組上的位置了腔剂。這就是我們常說的Read1和Read2了媒区,這里就簡單說一下Read2是怎樣產(chǎn)生的了:接著上面的圖,同樣的我們再進(jìn)行一次橋式PCR掸犬,這時(shí)候flowcell上的P5接頭也會(huì)“長出”一些序列袜漩,然后我們這次洗掉連接在P7上的序列,上下的就只有P5連接的序列了湾碎,再把Read2的測序引物加進(jìn)去就能測得Read2了宙攻。
文庫結(jié)構(gòu)——到底什么是adapter?測序引物結(jié)構(gòu)又是怎樣的介褥?
做過fastq文件比對(duì)的人都知道座掘,這個(gè)過程中非常重要的,大家掛在嘴邊的就是去接頭柔滔,第三個(gè)名詞出來了:adapter
溢陪。那么到底什么是接頭?fastqc這樣的軟件又是怎樣檢測到的睛廊?cutadapt形真、fastp、trimmomatic超全、trim_galore這些軟件又是怎么去接頭的咆霜?似乎這些都是灰色地帶,下面是我的理解:
首先還是看文庫結(jié)構(gòu):
首先聲明一個(gè)事實(shí):
一般來說嘶朱,我們不管是read1還是read2從哪里開始測蛾坯,哪里就是我們想要的真實(shí)生物學(xué)序列了;
這實(shí)際上很好理解疏遏,我們沒有人去adapter是從fastq文件中每條read的開頭去的挂疆。那么什么是adapter呢缤言?你可以簡單理解為胆萧,在一個(gè)文庫中跌穗,非生物學(xué)序列的其余序列都屬于adapter虏辫,包括P5、P7羹唠、測序引物結(jié)合位點(diǎn)佩微。那么fastqc是怎么檢測adapter的呢哺眯?你去看看fastqc的GitHub扒俯,會(huì)發(fā)現(xiàn)它有這樣的幾個(gè)序列:
Illumina Universal Adapter AGATCGGAAGAG
Illumina Small RNA Adapter ATGGAATTCTCG
Nextera Transposase Sequence CTGTCTCTTATA
SOLID Small RNA Adapter CGCCTTGGCCGT
你可能會(huì)覺得很神奇撼玄,其實(shí)fastqc判斷你的序列有沒有adapter就是在和這幾個(gè)序列做簡單的匹配罷了互纯。接踵而來的問題就是:
-
為什么這幾個(gè)序列就能幫我們判斷adapter的有無磕蒲,按照我們的理解來說不應(yīng)該adapter序列會(huì)很多樣嗎辣往?
-
這幾個(gè)序列到底在文庫的哪里站削?
首先給答案:
-
這幾個(gè)序列在測序引物的3’端;
-
由于基本上所有的引物3'端都是這些序列十偶,所以我們可以通過這幾個(gè)序列判斷adapter惦积。
聽起來很離譜狮崩,畫個(gè)圖就清楚了:
上面這個(gè)圖展示了read1產(chǎn)生的全過程睦柴,顯然紅色部分都是我們想要的生物學(xué)序列信息坦敌,直到綠色部分就不是了恬试,因?yàn)榫G色部分實(shí)際上測的是read2的測序引物結(jié)合位點(diǎn)序列了训柴。收到這樣的啟發(fā),靈感來了:
那我們判斷一下一個(gè)read里面有沒有測序引物結(jié)合位點(diǎn)就知道這個(gè)序列是不是有adapter了洗鸵。
實(shí)際上就是這樣的膘滨。不信我們就來驗(yàn)證一下:這份文庫結(jié)構(gòu)的注釋來自于近岸蛋白的CUT&Tag試劑盒:
按理來說我們的測序引物結(jié)合位點(diǎn)應(yīng)該在圖中的黃色位置火邓,按照我上面的理論铲咨,我們可以通過
CTGTCTCTTATA
來判斷我們讀到adapter了蜓洪,實(shí)際上呢隆檀?回顧一下fastqc的那幾個(gè)adapter的序列:
Nextera Transposase Sequence CTGTCTCTTATA
果然粹湃,不能說完全相同为鳄,只能說一模一樣济赎,也就是說司训,現(xiàn)在市場上所有的Tn5轉(zhuǎn)座酶都必須將這段序列連接到DNA的兩端壳猜,這樣才能讓我們檢測到adapter统扳。
你可能還是不信畅姊,好吧朱嘴,那再來一個(gè)其它的例子吧:
這份文檔來自于illumina官方萍嬉,我們看看這兩個(gè)測序引物的3'端是不是可以作為我們檢測adapter的標(biāo)準(zhǔn)哈壤追,把read1的測序引物堿基互補(bǔ)配對(duì)一下(為什么就不贅述了……):
5'-AGATCGGAAGAG-3'
行冰,然后看一下我們的fastqc中的這個(gè)adapter:
Illumina Universal Adapter AGATCGGAAGAG
這不能說完全相同悼做,只能說一模一樣吧……總該信了贿堰?
結(jié)束了上面的測試啡彬,你或許會(huì)發(fā)現(xiàn)一個(gè)問題:那按這么說庶灿,是不是read1和read2的測序引物的3'端總是會(huì)有部分是一樣的巴摺?一樣的部分就是作為判斷adapter是否存在的那條序列利职?你自己看看上面的那個(gè)圖瘦癌,不就知道了讯私,事實(shí)上就是這樣斤寇。
最后娘锁,為了讓你更信,我還把trim_galore的adapter序列也粘貼在這里碎税,這不和fastqc的一模一樣?原來紛繁復(fù)雜的illumina測序竟然這么統(tǒng)一馏锡!