基礎(chǔ)——illumina測序原理與細(xì)節(jié)(以RNA-seq為例)

目前我們主要分析的數(shù)據(jù)還是二代測序的數(shù)據(jù)蚊丐,也就是大家經(jīng)常掛在嘴邊的 NGS,而這其中最大的贏家應(yīng)該算是 illumina 測序公司了艳吠,其經(jīng)典的邊合成邊測序(sequencing by synthesis吠撮,SBS)巧妙地利用帶不同熒光的dNTP來讓堿基組成可視化,本身還是很有意思的讲竿。但隨之而來的就有一些問題,比如以RNA-seq為例弄屡,如果你是一個(gè)經(jīng)典的從表達(dá)矩陣開始的數(shù)據(jù)分析選手题禀,那其實(shí)建庫細(xì)節(jié)對(duì)你來說好像也沒那么重要;而如果你是一個(gè)從原始fastq下機(jī)數(shù)據(jù)(甚至建庫實(shí)驗(yàn))開始的數(shù)據(jù)分析選手膀捷,此時(shí)建庫的細(xì)節(jié)就可能顯得尤為重要迈嘹,需要你做到知根知底黍翎。或許你經(jīng)常遇到一些名詞撇叁,其中有一些可能讓你感到迷惑:

  • 橋式PCR
  • 鏈特異性RNA測序
  • sample index
  • adapter
  • 簇生成
  • ……

現(xiàn)在我們就以illumina經(jīng)典的 TruSeq Stranded mRNA 建庫測序?yàn)槔齺碜咭槐檎麄€(gè)illumina測序的流程材原,為什么會(huì)選擇這個(gè)建庫策略呢显歧?首先菩混,RNA-seq是目前我們觸手可及嗡午、應(yīng)用最廣的基因表達(dá)量檢測技術(shù)熊经;其次呕诉,相較之于鏈非特異性測序覆劈,鏈特異性測序?qū)Υ蠖鄶?shù)人來說更復(fù)雜保礼,更難以理解。關(guān)于鏈特異性測序我之前已經(jīng)有一個(gè)長篇大論談到了這個(gè)問題:一文闡述鏈特異性測序——stranded? reverse-stranded? un-stranded?责语,閱讀量還不錯(cuò)炮障,反饋也還可以,有興趣的可以去看看坤候,在這里就只以 TruSeq Stranded mRNA 為例了胁赢。

An overview of TruSeq Stranded mRNA sequencing

老規(guī)矩,我還是以圖輔以文字的方式來先整體介紹一下 TruSeq Stranded mRNA

對(duì)著流程看白筹,提前說一下智末,紅色始終代表sense strand的信息谅摄,天藍(lán)色代表antisense strand的信息

  • 首先,我們需要利用成熟mRNA帶polyA尾的特點(diǎn)吹害,通過oligo dT來富集出mRNA螟凭;
  • 接下來我們使用超聲來對(duì)mRNA進(jìn)行片段化,然后再使用隨機(jī)引物進(jìn)行反轉(zhuǎn)錄它呀,這個(gè)過程就是第一條鏈的合成螺男;
  • 接下來我們使用諸如RNaseH的酶來消化降解掉雜合鏈中的RNA,然后再進(jìn)行第二鏈的合成纵穿,不過這里我們不使用dTTP下隧,而是使用dUTP。
  • 使用Klenow酶來給3'末端添加一個(gè)突出的A谓媒;
  • 連接adapter淆院,注意這里的adapter結(jié)構(gòu)哦;
  • 然后再進(jìn)行PCR句惯,由于DNA聚合酶不能以dUTP為模板土辩,所以以sense strand為模板的鏈沒有辦法參與到PCR中,因此最終的雙鏈DNA都是右下角那樣的抢野。
    我們最終可以看到拷淘,Read1測到的是antisense strand的信息,Read2測到的是sense strand的信息指孤,這和我們之前的理解是一樣的哈启涯。

illumina測序細(xì)節(jié)

注意了,我們現(xiàn)在回到這個(gè)結(jié)構(gòu)恃轩,開始走上機(jī)測序的流程:


首先illumina測序用的東西叫:flowcell结洼,這個(gè)結(jié)構(gòu)的底部有很多的多核苷酸鏈,這些多核苷酸鏈?zhǔn)桥c我們的p5和p7接頭互補(bǔ)的叉跛。

我們以一條DNA單鏈為例松忍,首先它的P5接頭序列會(huì)和flowcell上面的P5接頭互補(bǔ)序列結(jié)合,然后會(huì)發(fā)生DNA的合成筷厘,注意合成完了之后挽铁,由于flowcell上面的接頭互補(bǔ)序列是和flowcell共價(jià)連接的(已經(jīng)用黃色圓圈標(biāo)識(shí)出),所以很穩(wěn)定敞掘,我們使用堿性溶液沖洗flowcell時(shí)叽掘,靠共價(jià)鍵連接在flowcell上的鏈并不會(huì)被沖洗掉,反之另一條鏈就被洗掉了玖雁,最后就成了最右邊的那種情況更扁。
接下來,發(fā)生了第一個(gè)名詞的過程:橋式PCR

它為什么叫橋式PCR,其實(shí)很簡單浓镜,就是因?yàn)橹虚g進(jìn)行PCR的時(shí)候像一個(gè)拱橋一樣溃列。同樣的DNA合成后用堿性溶液就能使DNA雙鏈解鏈,但是由于P7是共價(jià)連接在flowcell上的膛薛,所以不會(huì)被洗掉哦听隐,如此重復(fù)進(jìn)行橋式PCR,最終就會(huì)形成一個(gè)簇哄啄,第二個(gè)名詞出來了雅任,那就是簇生成你會(huì)發(fā)現(xiàn)這一簇單鏈DNA其實(shí)都是來自于一條起始DNA單鏈咨跌,也就是說沪么,這一簇DNA實(shí)際上表征的生物學(xué)信息是一樣的。有人會(huì)問锌半,為什么要這么麻煩橋式PCR呢禽车?回答這個(gè)問題就會(huì)提到邊合成邊測序了,單個(gè)堿基的熒光終究是比較弱的刊殉,但是很多個(gè)堿基的熒光聚在一起就會(huì)很明顯了殉摔,就足夠我們?nèi)?zhǔn)確判斷堿基類型了。這就是為什么我們要進(jìn)行橋式PCR的原因记焊。下面開始測序逸月,你就知道橋式PCR妙在哪里了:

我們先把連接在P5上面的鏈洗掉,就成了上圖左邊的情況亚亲,然后我們讓read1的primer結(jié)合上去,邊合成邊測序腐缤,記住捌归,這里一簇DNA有很多這樣的鏈,所以你看到的熒光信號(hào)會(huì)很強(qiáng)岭粤,如果沒有橋式PCR惜索,你就不可能實(shí)現(xiàn)這樣的效果。需要注意的是剃浇,我在這里把sample index也標(biāo)出來了巾兆,為什么會(huì)有這個(gè)東西,因?yàn)閷?shí)際上有時(shí)候一個(gè)flowcell的測序容量還是很大的虎囚,為了不造成浪費(fèi)角塑,很多時(shí)候我們會(huì)把來自不同樣品的文庫混在一起測,那我們在建庫時(shí)就加上不同的sample index淘讥,但時(shí)候我們就能夠根據(jù)這個(gè)sample index序列區(qū)分reads不同的樣品來源了圃伶,一般如果有這個(gè)序列會(huì)以類似于I1.fq.gz的形式返給你,但實(shí)際上我們很少收到這個(gè)結(jié)果,就是因?yàn)闇y序公司下機(jī)后就會(huì)根據(jù)這個(gè)sample index把reads分好窒朋,所以你就只會(huì)拿到你的序列搀罢。
下一個(gè)名詞:雙端測序,為什么會(huì)有這個(gè)雙端測序侥猩,實(shí)際上很簡單榔至,如果一條DNA序列很長,我們可能沒辦法通過一條reads把它全部測完欺劳,但同時(shí)我們又要精確定位其在基因組上的位置唧取,這時(shí)雙端測序就派上用場了,當(dāng)我們把這個(gè)DNA的兩端都測了之后杰标,就知道這個(gè)DNA的兩端分別在基因組的什么位置上了兵怯,這樣即使中間還有一段我沒測到也沒關(guān)系,兩端的位置已經(jīng)決定了這個(gè)DNA片段在基因組上的位置了腔剂。這就是我們常說的Read1和Read2了媒区,這里就簡單說一下Read2是怎樣產(chǎn)生的了:接著上面的圖,同樣的我們再進(jìn)行一次橋式PCR掸犬,這時(shí)候flowcell上的P5接頭也會(huì)“長出”一些序列袜漩,然后我們這次洗掉連接在P7上的序列,上下的就只有P5連接的序列了湾碎,再把Read2的測序引物加進(jìn)去就能測得Read2了宙攻。

文庫結(jié)構(gòu)——到底什么是adapter?測序引物結(jié)構(gòu)又是怎樣的介褥?

做過fastq文件比對(duì)的人都知道座掘,這個(gè)過程中非常重要的,大家掛在嘴邊的就是去接頭柔滔,第三個(gè)名詞出來了:adapter溢陪。那么到底什么是接頭?fastqc這樣的軟件又是怎樣檢測到的睛廊?cutadapt形真、fastptrimmomatic超全、trim_galore這些軟件又是怎么去接頭的咆霜?似乎這些都是灰色地帶,下面是我的理解:
首先還是看文庫結(jié)構(gòu):


首先聲明一個(gè)事實(shí):

一般來說嘶朱,我們不管是read1還是read2從哪里開始測蛾坯,哪里就是我們想要的真實(shí)生物學(xué)序列了;

這實(shí)際上很好理解疏遏,我們沒有人去adapter是從fastq文件中每條read的開頭去的挂疆。那么什么是adapter呢缤言?你可以簡單理解為胆萧,在一個(gè)文庫中跌穗,非生物學(xué)序列的其余序列都屬于adapter虏辫,包括P5、P7羹唠、測序引物結(jié)合位點(diǎn)佩微。那么fastqc是怎么檢測adapter的呢哺眯?你去看看fastqc的GitHub扒俯,會(huì)發(fā)現(xiàn)它有這樣的幾個(gè)序列:

Illumina Universal Adapter                  AGATCGGAAGAG
Illumina Small RNA Adapter                  ATGGAATTCTCG
Nextera Transposase Sequence                CTGTCTCTTATA
SOLID Small RNA Adapter                     CGCCTTGGCCGT

你可能會(huì)覺得很神奇撼玄,其實(shí)fastqc判斷你的序列有沒有adapter就是在和這幾個(gè)序列做簡單的匹配罷了互纯。接踵而來的問題就是:

  • 為什么這幾個(gè)序列就能幫我們判斷adapter的有無磕蒲,按照我們的理解來說不應(yīng)該adapter序列會(huì)很多樣嗎辣往?
  • 這幾個(gè)序列到底在文庫的哪里站削?

首先給答案:

  • 這幾個(gè)序列在測序引物的3’端;
  • 由于基本上所有的引物3'端都是這些序列十偶,所以我們可以通過這幾個(gè)序列判斷adapter惦积。

聽起來很離譜狮崩,畫個(gè)圖就清楚了:


上面這個(gè)圖展示了read1產(chǎn)生的全過程睦柴,顯然紅色部分都是我們想要的生物學(xué)序列信息坦敌,直到綠色部分就不是了恬试,因?yàn)榫G色部分實(shí)際上測的是read2的測序引物結(jié)合位點(diǎn)序列了训柴。收到這樣的啟發(fā),靈感來了:那我們判斷一下一個(gè)read里面有沒有測序引物結(jié)合位點(diǎn)就知道這個(gè)序列是不是有adapter了洗鸵。實(shí)際上就是這樣的膘滨。不信我們就來驗(yàn)證一下:
這份文庫結(jié)構(gòu)的注釋來自于近岸蛋白的CUT&Tag試劑盒:

按理來說我們的測序引物結(jié)合位點(diǎn)應(yīng)該在圖中的黃色位置火邓,按照我上面的理論铲咨,我們可以通過CTGTCTCTTATA來判斷我們讀到adapter了蜓洪,實(shí)際上呢隆檀?回顧一下fastqc的那幾個(gè)adapter的序列:

Nextera Transposase Sequence                CTGTCTCTTATA

果然粹湃,不能說完全相同为鳄,只能說一模一樣济赎,也就是說司训,現(xiàn)在市場上所有的Tn5轉(zhuǎn)座酶都必須將這段序列連接到DNA的兩端壳猜,這樣才能讓我們檢測到adapter统扳。
你可能還是不信畅姊,好吧朱嘴,那再來一個(gè)其它的例子吧:


這份文檔來自于illumina官方萍嬉,我們看看這兩個(gè)測序引物的3'端是不是可以作為我們檢測adapter的標(biāo)準(zhǔn)哈壤追,把read1的測序引物堿基互補(bǔ)配對(duì)一下(為什么就不贅述了……):5'-AGATCGGAAGAG-3'行冰,然后看一下我們的fastqc中的這個(gè)adapter:

Illumina Universal Adapter                  AGATCGGAAGAG

這不能說完全相同悼做,只能說一模一樣吧……總該信了贿堰?

結(jié)束了上面的測試啡彬,你或許會(huì)發(fā)現(xiàn)一個(gè)問題:那按這么說庶灿,是不是read1和read2的測序引物的3'端總是會(huì)有部分是一樣的巴摺?一樣的部分就是作為判斷adapter是否存在的那條序列利职?你自己看看上面的那個(gè)圖瘦癌,不就知道了讯私,事實(shí)上就是這樣斤寇。

最后娘锁,為了讓你更信,我還把trim_galore的adapter序列也粘貼在這里碎税,這不和fastqc的一模一樣?原來紛繁復(fù)雜的illumina測序竟然這么統(tǒng)一馏锡!

今天又是摸魚??的一天雷蹂!

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市杯道,隨后出現(xiàn)的幾起案子匪煌,更是在濱河造成了極大的恐慌,老刑警劉巖党巾,帶你破解...
    沈念sama閱讀 216,372評(píng)論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件萎庭,死亡現(xiàn)場離奇詭異,居然都是意外死亡齿拂,警方通過查閱死者的電腦和手機(jī)驳规,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,368評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事透罢⊥城” “怎么了?”我有些...
    開封第一講書人閱讀 162,415評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵脓恕,是天一觀的道長乃秀。 經(jīng)常有香客問我,道長,這世上最難降的妖魔是什么轮傍? 我笑而不...
    開封第一講書人閱讀 58,157評(píng)論 1 292
  • 正文 為了忘掉前任揍魂,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘虫蝶。我一直安慰自己扰柠,他們只是感情好劝枣,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,171評(píng)論 6 388
  • 文/花漫 我一把揭開白布载荔。 她就那樣靜靜地躺著工扎,像睡著了一般橱健。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上蟋定,一...
    開封第一講書人閱讀 51,125評(píng)論 1 297
  • 那天促王,我揣著相機(jī)與錄音阅畴,去河邊找鬼迅耘。 笑死贱枣,一個(gè)胖子當(dāng)著我的面吹牛纽哥,可吹牛的內(nèi)容都是我干的只壳。 我是一名探鬼主播惕艳,決...
    沈念sama閱讀 40,028評(píng)論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼憔恳!你這毒婦竟也來了输硝?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,887評(píng)論 0 274
  • 序言:老撾萬榮一對(duì)情侶失蹤程梦,失蹤者是張志新(化名)和其女友劉穎点把,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體屿附,經(jīng)...
    沈念sama閱讀 45,310評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡郎逃,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,533評(píng)論 2 332
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了挺份。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片衣厘。...
    茶點(diǎn)故事閱讀 39,690評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出影暴,到底是詐尸還是另有隱情错邦,我是刑警寧澤,帶...
    沈念sama閱讀 35,411評(píng)論 5 343
  • 正文 年R本政府宣布型宙,位于F島的核電站撬呢,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏妆兑。R本人自食惡果不足惜魂拦,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,004評(píng)論 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望搁嗓。 院中可真熱鬧芯勘,春花似錦、人聲如沸腺逛。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,659評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽棍矛。三九已至安疗,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間够委,已是汗流浹背荐类。 一陣腳步聲響...
    開封第一講書人閱讀 32,812評(píng)論 1 268
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留茁帽,地道東北人玉罐。 一個(gè)月前我還...
    沈念sama閱讀 47,693評(píng)論 2 368
  • 正文 我出身青樓,卻偏偏與公主長得像潘拨,于是被迫代替她去往敵國和親吊输。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,577評(píng)論 2 353

推薦閱讀更多精彩內(nèi)容