基礎(chǔ)——illumina測序原理與細(xì)節(jié)（以RNA-seq為例）

目前我們主要分析的數(shù)據(jù)還是二代測序的數(shù)據(jù)蚊丐，也就是大家經(jīng)常掛在嘴邊的 NGS，而這其中最大的贏家應(yīng)該算是 illumina 測序公司了艳吠，其經(jīng)典的邊合成邊測序（sequencing by synthesis吠撮，SBS）巧妙地利用帶不同熒光的dNTP來讓堿基組成可視化，本身還是很有意思的讲竿。但隨之而來的就有一些問題，比如以RNA-seq為例弄屡，如果你是一個(gè)經(jīng)典的從表達(dá)矩陣開始的數(shù)據(jù)分析選手题禀，那其實(shí)建庫細(xì)節(jié)對(duì)你來說好像也沒那么重要；而如果你是一個(gè)從原始fastq下機(jī)數(shù)據(jù)（甚至建庫實(shí)驗(yàn)）開始的數(shù)據(jù)分析選手膀捷，此時(shí)建庫的細(xì)節(jié)就可能顯得尤為重要迈嘹，需要你做到知根知底黍翎。或許你經(jīng)常遇到一些名詞撇叁，其中有一些可能讓你感到迷惑：

橋式PCR
鏈特異性RNA測序
sample index
adapter
簇生成
……

現(xiàn)在我們就以illumina經(jīng)典的 TruSeq Stranded mRNA 建庫測序?yàn)槔齺碜咭槐檎麄€(gè)illumina測序的流程材原，為什么會(huì)選擇這個(gè)建庫策略呢显歧？首先菩混，RNA-seq是目前我們觸手可及嗡午、應(yīng)用最廣的基因表達(dá)量檢測技術(shù)熊经；其次呕诉，相較之于鏈非特異性測序覆劈，鏈特異性測序?qū)Υ蠖鄶?shù)人來說更復(fù)雜保礼，更難以理解。關(guān)于鏈特異性測序我之前已經(jīng)有一個(gè)長篇大論談到了這個(gè)問題：一文闡述鏈特異性測序——stranded? reverse-stranded? un-stranded?责语，閱讀量還不錯(cuò)炮障，反饋也還可以，有興趣的可以去看看坤候，在這里就只以 TruSeq Stranded mRNA 為例了胁赢。

An overview of TruSeq Stranded mRNA sequencing

老規(guī)矩，我還是以圖輔以文字的方式來先整體介紹一下 TruSeq Stranded mRNA ：

對(duì)著流程看白筹，提前說一下智末，紅色始終代表sense strand的信息谅摄，天藍(lán)色代表antisense strand的信息：

首先，我們需要利用成熟mRNA帶polyA尾的特點(diǎn)吹害，通過oligo dT來富集出mRNA螟凭；
接下來我們使用超聲來對(duì)mRNA進(jìn)行片段化，然后再使用隨機(jī)引物進(jìn)行反轉(zhuǎn)錄它呀，這個(gè)過程就是第一條鏈的合成螺男；
接下來我們使用諸如RNaseH的酶來消化降解掉雜合鏈中的RNA，然后再進(jìn)行第二鏈的合成纵穿，不過這里我們不使用dTTP下隧，而是使用dUTP。
使用Klenow酶來給3'末端添加一個(gè)突出的A谓媒；
連接adapter淆院，注意這里的adapter結(jié)構(gòu)哦；
然后再進(jìn)行PCR句惯，由于DNA聚合酶不能以dUTP為模板土辩，所以以sense strand為模板的鏈沒有辦法參與到PCR中，因此最終的雙鏈DNA都是右下角那樣的抢野。
我們最終可以看到拷淘，Read1測到的是antisense strand的信息，Read2測到的是sense strand的信息指孤，這和我們之前的理解是一樣的哈启涯。

illumina測序細(xì)節(jié)

注意了，我們現(xiàn)在回到這個(gè)結(jié)構(gòu)恃轩，開始走上機(jī)測序的流程：

首先illumina測序用的東西叫：flowcell结洼，這個(gè)結(jié)構(gòu)的底部有很多的多核苷酸鏈，這些多核苷酸鏈?zhǔn)桥c我們的p5和p7接頭互補(bǔ)的叉跛。

我們以一條DNA單鏈為例松忍，首先它的P5接頭序列會(huì)和flowcell上面的P5接頭互補(bǔ)序列結(jié)合，然后會(huì)發(fā)生DNA的合成筷厘，注意合成完了之后挽铁，由于flowcell上面的接頭互補(bǔ)序列是和flowcell共價(jià)連接的（已經(jīng)用黃色圓圈標(biāo)識(shí)出），所以很穩(wěn)定敞掘，我們使用堿性溶液沖洗flowcell時(shí)叽掘，靠共價(jià)鍵連接在flowcell上的鏈并不會(huì)被沖洗掉，反之另一條鏈就被洗掉了玖雁，最后就成了最右邊的那種情況更扁。
接下來，發(fā)生了第一個(gè)名詞的過程：橋式PCR：

它為什么叫橋式PCR，其實(shí)很簡單浓镜，就是因?yàn)橹虚g進(jìn)行PCR的時(shí)候像一個(gè)拱橋一樣溃列。同樣的DNA合成后用堿性溶液就能使DNA雙鏈解鏈，但是由于P7是共價(jià)連接在flowcell上的膛薛，所以不會(huì)被洗掉哦听隐，如此重復(fù)進(jìn)行橋式PCR，最終就會(huì)形成一個(gè)簇哄啄，第二個(gè)名詞出來了雅任，那就是簇生成。你會(huì)發(fā)現(xiàn)這一簇單鏈DNA其實(shí)都是來自于一條起始DNA單鏈咨跌，也就是說沪么，這一簇DNA實(shí)際上表征的生物學(xué)信息是一樣的。有人會(huì)問锌半，為什么要這么麻煩橋式PCR呢禽车？回答這個(gè)問題就會(huì)提到邊合成邊測序了，單個(gè)堿基的熒光終究是比較弱的刊殉，但是很多個(gè)堿基的熒光聚在一起就會(huì)很明顯了殉摔，就足夠我們?nèi)?zhǔn)確判斷堿基類型了。這就是為什么我們要進(jìn)行橋式PCR的原因记焊。下面開始測序逸月，你就知道橋式PCR妙在哪里了：

我們先把連接在P5上面的鏈洗掉，就成了上圖左邊的情況亚亲，然后我們讓read1的primer結(jié)合上去，邊合成邊測序腐缤，記住捌归，這里一簇DNA有很多這樣的鏈，所以你看到的熒光信號(hào)會(huì)很強(qiáng)岭粤，如果沒有橋式PCR惜索，你就不可能實(shí)現(xiàn)這樣的效果。需要注意的是剃浇，我在這里把sample index也標(biāo)出來了巾兆，為什么會(huì)有這個(gè)東西，因?yàn)閷?shí)際上有時(shí)候一個(gè)flowcell的測序容量還是很大的虎囚，為了不造成浪費(fèi)角塑，很多時(shí)候我們會(huì)把來自不同樣品的文庫混在一起測，那我們在建庫時(shí)就加上不同的sample index淘讥，但時(shí)候我們就能夠根據(jù)這個(gè)sample index序列區(qū)分reads不同的樣品來源了圃伶，一般如果有這個(gè)序列會(huì)以類似于I1.fq.gz的形式返給你，但實(shí)際上我們很少收到這個(gè)結(jié)果，就是因?yàn)闇y序公司下機(jī)后就會(huì)根據(jù)這個(gè)sample index把reads分好窒朋，所以你就只會(huì)拿到你的序列搀罢。
下一個(gè)名詞：雙端測序，為什么會(huì)有這個(gè)雙端測序侥猩，實(shí)際上很簡單榔至，如果一條DNA序列很長，我們可能沒辦法通過一條reads把它全部測完欺劳，但同時(shí)我們又要精確定位其在基因組上的位置唧取，這時(shí)雙端測序就派上用場了，當(dāng)我們把這個(gè)DNA的兩端都測了之后杰标，就知道這個(gè)DNA的兩端分別在基因組的什么位置上了兵怯，這樣即使中間還有一段我沒測到也沒關(guān)系，兩端的位置已經(jīng)決定了這個(gè)DNA片段在基因組上的位置了腔剂。這就是我們常說的Read1和Read2了媒区，這里就簡單說一下Read2是怎樣產(chǎn)生的了：接著上面的圖，同樣的我們再進(jìn)行一次橋式PCR掸犬，這時(shí)候flowcell上的P5接頭也會(huì)“長出”一些序列袜漩，然后我們這次洗掉連接在P7上的序列，上下的就只有P5連接的序列了湾碎，再把Read2的測序引物加進(jìn)去就能測得Read2了宙攻。

文庫結(jié)構(gòu)——到底什么是adapter？測序引物結(jié)構(gòu)又是怎樣的介褥？

做過fastq文件比對(duì)的人都知道座掘，這個(gè)過程中非常重要的，大家掛在嘴邊的就是去接頭柔滔，第三個(gè)名詞出來了：adapter溢陪。那么到底什么是接頭？fastqc這樣的軟件又是怎樣檢測到的睛廊？cutadapt形真、fastp、trimmomatic超全、trim_galore這些軟件又是怎么去接頭的咆霜？似乎這些都是灰色地帶，下面是我的理解：
首先還是看文庫結(jié)構(gòu)：

首先聲明一個(gè)事實(shí)：

一般來說嘶朱，我們不管是read1還是read2從哪里開始測蛾坯，哪里就是我們想要的真實(shí)生物學(xué)序列了；

這實(shí)際上很好理解疏遏，我們沒有人去adapter是從fastq文件中每條read的開頭去的挂疆。那么什么是adapter呢缤言？你可以簡單理解為胆萧，在一個(gè)文庫中跌穗，非生物學(xué)序列的其余序列都屬于adapter虏辫，包括P5、P7羹唠、測序引物結(jié)合位點(diǎn)佩微。那么fastqc是怎么檢測adapter的呢哺眯？你去看看fastqc的GitHub扒俯，會(huì)發(fā)現(xiàn)它有這樣的幾個(gè)序列：

Illumina Universal Adapter                  AGATCGGAAGAG
Illumina Small RNA Adapter                  ATGGAATTCTCG
Nextera Transposase Sequence                CTGTCTCTTATA
SOLID Small RNA Adapter                     CGCCTTGGCCGT

你可能會(huì)覺得很神奇撼玄，其實(shí)fastqc判斷你的序列有沒有adapter就是在和這幾個(gè)序列做簡單的匹配罷了互纯。接踵而來的問題就是：

為什么這幾個(gè)序列就能幫我們判斷adapter的有無磕蒲，按照我們的理解來說不應(yīng)該adapter序列會(huì)很多樣嗎辣往？
這幾個(gè)序列到底在文庫的哪里站削？

首先給答案：

這幾個(gè)序列在測序引物的3’端；
由于基本上所有的引物3'端都是這些序列十偶，所以我們可以通過這幾個(gè)序列判斷adapter惦积。

聽起來很離譜狮崩，畫個(gè)圖就清楚了：

上面這個(gè)圖展示了read1產(chǎn)生的全過程睦柴，顯然紅色部分都是我們想要的生物學(xué)序列信息坦敌，直到綠色部分就不是了恬试，因?yàn)榫G色部分實(shí)際上測的是read2的測序引物結(jié)合位點(diǎn)序列了训柴。收到這樣的啟發(fā)，靈感來了：那我們判斷一下一個(gè)read里面有沒有測序引物結(jié)合位點(diǎn)就知道這個(gè)序列是不是有adapter了洗鸵。實(shí)際上就是這樣的膘滨。不信我們就來驗(yàn)證一下：
這份文庫結(jié)構(gòu)的注釋來自于近岸蛋白的CUT&Tag試劑盒：

按理來說我們的測序引物結(jié)合位點(diǎn)應(yīng)該在圖中的黃色位置火邓，按照我上面的理論铲咨，我們可以通過CTGTCTCTTATA來判斷我們讀到adapter了蜓洪，實(shí)際上呢隆檀？回顧一下fastqc的那幾個(gè)adapter的序列：

Nextera Transposase Sequence                CTGTCTCTTATA

果然粹湃，不能說完全相同为鳄，只能說一模一樣济赎，也就是說司训，現(xiàn)在市場上所有的Tn5轉(zhuǎn)座酶都必須將這段序列連接到DNA的兩端壳猜，這樣才能讓我們檢測到adapter统扳。
你可能還是不信畅姊，好吧朱嘴，那再來一個(gè)其它的例子吧：

這份文檔來自于illumina官方萍嬉，我們看看這兩個(gè)測序引物的3'端是不是可以作為我們檢測adapter的標(biāo)準(zhǔn)哈壤追，把read1的測序引物堿基互補(bǔ)配對(duì)一下（為什么就不贅述了……）：5'-AGATCGGAAGAG-3'行冰，然后看一下我們的fastqc中的這個(gè)adapter：

Illumina Universal Adapter                  AGATCGGAAGAG

這不能說完全相同悼做，只能說一模一樣吧……總該信了贿堰？

結(jié)束了上面的測試啡彬，你或許會(huì)發(fā)現(xiàn)一個(gè)問題：那按這么說庶灿，是不是read1和read2的測序引物的3'端總是會(huì)有部分是一樣的巴摺？一樣的部分就是作為判斷adapter是否存在的那條序列利职？你自己看看上面的那個(gè)圖瘦癌，不就知道了讯私，事實(shí)上就是這樣斤寇。

最后娘锁，為了讓你更信，我還把trim_galore的adapter序列也粘貼在這里碎税，這不和fastqc的一模一樣？原來紛繁復(fù)雜的illumina測序竟然這么統(tǒng)一馏锡！

今天又是摸魚??的一天雷蹂！

最后編輯于：2022.06.22 01:45:13

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市杯道，隨后出現(xiàn)的幾起案子匪煌，更是在濱河造成了極大的恐慌，老刑警劉巖党巾，帶你破解...
沈念sama閱讀 216,372評(píng)論 6贊 498
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件萎庭，死亡現(xiàn)場離奇詭異，居然都是意外死亡齿拂，警方通過查閱死者的電腦和手機(jī)驳规，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,368評(píng)論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事透罢⊥城” “怎么了？”我有些...
開封第一講書人閱讀 162,415評(píng)論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵脓恕，是天一觀的道長乃秀。經(jīng)常有香客問我，道長，這世上最難降的妖魔是什么轮傍？我笑而不...
開封第一講書人閱讀 58,157評(píng)論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任揍魂，我火速辦了婚禮，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘虫蝶。我一直安慰自己扰柠，他們只是感情好劝枣，可當(dāng)我...
茶點(diǎn)故事閱讀 67,171評(píng)論 6贊 388
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布载荔。她就那樣靜靜地躺著工扎，像睡著了一般橱健。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上蟋定，一...
開封第一講書人閱讀 51,125評(píng)論 1贊 297
城市分裂傳說
那天促王，我揣著相機(jī)與錄音阅畴，去河邊找鬼迅耘。笑死贱枣，一個(gè)胖子當(dāng)著我的面吹牛纽哥，可吹牛的內(nèi)容都是我干的只壳。我是一名探鬼主播惕艳，決...
沈念sama閱讀 40,028評(píng)論 3贊 417
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼憔恳！你這毒婦竟也來了输硝？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 38,887評(píng)論 0贊 274
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤程梦，失蹤者是張志新（化名）和其女友劉穎点把，沒想到半個(gè)月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體屿附，經(jīng)...
沈念sama閱讀 45,310評(píng)論 1贊 310
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡郎逃，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,533評(píng)論 2贊 332
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了挺份。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片衣厘。...
茶點(diǎn)故事閱讀 39,690評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出影暴，到底是詐尸還是另有隱情错邦，我是刑警寧澤，帶...
沈念sama閱讀 35,411評(píng)論 5贊 343
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布型宙，位于F島的核電站撬呢，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏妆兑。R本人自食惡果不足惜魂拦，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,004評(píng)論 3贊 325
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望搁嗓。院中可真熱鬧芯勘，春花似錦、人聲如沸腺逛。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,659評(píng)論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽棍矛。三九已至安疗，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間够委，已是汗流浹背荐类。一陣腳步聲響...
開封第一講書人閱讀 32,812評(píng)論 1贊 268
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留茁帽，地道東北人玉罐。一個(gè)月前我還...
沈念sama閱讀 47,693評(píng)論 2贊 368
代替公主和親
正文我出身青樓，卻偏偏與公主長得像潘拨，于是被迫代替她去往敵國和親吊输。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,577評(píng)論 2贊 353

基礎(chǔ)——illumina測序原理與細(xì)節(jié)（以RNA-seq為例）

An overview of TruSeq Stranded mRNA sequencing

illumina測序細(xì)節(jié)

文庫結(jié)構(gòu)——到底什么是adapter？測序引物結(jié)構(gòu)又是怎樣的介褥？

一般來說嘶朱，我們不管是read1還是read2從哪里開始測蛾坯，哪里就是我們想要的真實(shí)生物學(xué)序列了；

為什么這幾個(gè)序列就能幫我們判斷adapter的有無磕蒲，按照我們的理解來說不應(yīng)該adapter序列會(huì)很多樣嗎辣往？

這幾個(gè)序列到底在文庫的哪里站削？

這幾個(gè)序列在測序引物的3’端；

由于基本上所有的引物3'端都是這些序列十偶，所以我們可以通過這幾個(gè)序列判斷adapter惦积。

今天又是摸魚??的一天雷蹂！

推薦閱讀更多精彩內(nèi)容