1. 第一代測(cè)序(Sanger測(cè)序)
關(guān)鍵詞:雙脫氧測(cè)序、末端終止測(cè)序
1.1 正常DNA的合成過(guò)程
在模板鏈和引物存在的條件下超埋,核糖體RNA分別將四種脫氧核糖酸(dNTP)運(yùn)輸至引物末端搏讶。然后按照堿基互補(bǔ)配對(duì)原則脫水形成5'-3'磷酸二酯鍵佳鳖。
1.2 Sanger測(cè)序原理
使用鏈終止法,即向反應(yīng)體系中同時(shí)加入脫氧核糖酸(dNTP)和雙脫氧核糖(ddNTP)媒惕。兩者均可隨機(jī)整合到模板鏈上形成DNA系吩,但是ddNTP由于缺少羥基(-OH),在整合到模板鏈條上妒蔚,反應(yīng)隨機(jī)終止穿挨。利用ddNTP的這一特點(diǎn),結(jié)合檢測(cè)電泳條帶或者利用光源信號(hào)傳導(dǎo)即可獲得序列面睛。
1.3 Sanger測(cè)序優(yōu)缺點(diǎn)
優(yōu)點(diǎn):
- 方法簡(jiǎn)單絮蒿,準(zhǔn)確率高,測(cè)序片段較長(zhǎng)叁鉴,一次可達(dá)1kb。
缺點(diǎn):
- 成本高佛寿,通量低
2. 第二代測(cè)序(Illumina測(cè)序?yàn)槔?/h1>
關(guān)鍵詞:橋式PCR幌墓,可逆末端終止,高通量冀泻,邊合成邊測(cè)序
關(guān)鍵詞:橋式PCR幌墓,可逆末端終止,高通量冀泻,邊合成邊測(cè)序
Illumina公司的Solexa和Hiseq兩個(gè)系列的機(jī)器是目前全球使用量最大的第二代測(cè)序機(jī)器常侣,為了獲得完整的基因組,通常包括三個(gè)階段:測(cè)序弹渔、短序列比對(duì)和序列拼接胳施。
IIIumina測(cè)序數(shù)據(jù)的特點(diǎn):讀長(zhǎng)短、具有一定的錯(cuò)誤率肢专、深度高舞肆、reads之間具有pairend關(guān)系
2.1 測(cè)序
根據(jù)測(cè)序的流程大致分為三步,測(cè)序完成得到原始數(shù)據(jù)在進(jìn)入短序列拼接之前還會(huì)進(jìn)行質(zhì)量評(píng)估和控制等中間過(guò)程。
制備DNA基因組樣本時(shí),選擇單倍體划滋、樣品的總量和DNA濃度OD需要達(dá)到要求舶担,注意不要降解
2.1.1 第一步:構(gòu)建基因文庫(kù)
步驟一:利用超聲波將待測(cè)的DNA樣品打斷成小片段,通常為500bp左右柿赊。
步驟二:修復(fù)小片段為平末端,進(jìn)一步在平末端添加A堿基,形成黏性末端廉油。
步驟三:在粘性末端添加adapter接頭、測(cè)序引物苗傅、index標(biāo)簽等抒线。
文庫(kù):就是DNA片段的一個(gè)集合,將測(cè)序片段打斷之后就構(gòu)成了一個(gè)文庫(kù)金吗,通常片段小于1kb的文庫(kù)稱為小片段文庫(kù)(pairend)十兢,大于1kb的文庫(kù)稱為大片段文庫(kù)(matepair)趣竣。文庫(kù)的大小又被成為insert size,可用于后續(xù)的拼接旱物。
2.1.2 第二步:橋式PCR
步驟一:液體流過(guò)流動(dòng)池(Flowcell)之后遥缕,單條DNA序列會(huì)被固定到流動(dòng)池上。
步驟二:進(jìn)行多次橋式PCR擴(kuò)增宵呛。
步驟三:多余的DNA序列會(huì)被液體沖走单匣,在流動(dòng)池上留下一簇一簇相同的DNA單鏈。
橋式PCR的目的是為了增大信號(hào)源宝穗,便于檢測(cè)户秤,其詳細(xì)的原理可以參考:
Seurat_
2.1.3 第三步:測(cè)序
步驟一:向反應(yīng)體系中加入DNA聚合酶、接頭引物和帶有堿基特異熒光標(biāo)記的4種dNTP逮矛。
步驟二:合成第一個(gè)堿基后鸡号,不能正常進(jìn)行后續(xù)反應(yīng).
步驟三:清除剩余未使用的堿基和試劑。
步驟四:激發(fā)堿基熒光并收集信號(hào)须鼎。
步驟五:去除第一堿基的阻斷基團(tuán)和熒光基團(tuán)鲸伴。
步驟六:循環(huán)進(jìn)行步驟一至步驟五。
每條序列需要進(jìn)行兩次測(cè)序晋控,正向引物完成測(cè)序之后汞窗,會(huì)被液體沖走,然后利用反向引物進(jìn)行另一端的測(cè)序赡译。
2.1.4 測(cè)序飽和度評(píng)估
-
目的:推測(cè)測(cè)序所需要的最小數(shù)據(jù)量仲吏,理論上10倍數(shù)據(jù)量已經(jīng)足夠,但是實(shí)際上還存在其他誤差蝌焚,因此會(huì)高于這個(gè)數(shù)值裹唆。
理論最小值
2.1.5 數(shù)據(jù)質(zhì)控
1. 兩個(gè)指標(biāo)
- 堿基含量分布:測(cè)序后的GC含量要和基因組GC含量相同。
- 堿基質(zhì)量分布:Q20堿基百分比(一般要求在90%以上)综看,Q30堿基百分比(一般要求在85%以上)
Q20指這個(gè)位點(diǎn)的堿基的錯(cuò)誤率為百分之一品腹,Q30為千分之一。
2. 用fastqc可以生成質(zhì)量控制報(bào)告
2.1.6 測(cè)數(shù)數(shù)據(jù)處理——過(guò)濾
- 非基因組序列红碑。包括adapter接頭舞吭、測(cè)序引物、index標(biāo)簽等析珊。
- N堿基過(guò)多的reads羡鸥。通常N堿基的占比超過(guò)read的10%以上會(huì)被去除。
- 低質(zhì)量reads忠寻。以Q20為標(biāo)準(zhǔn)惧浴,低于一定的Q20比率會(huì)被去除。
- 去除duplication奕剃。兩對(duì)完全一致的reads會(huì)去除一對(duì)衷旅。
注:
- pairend的reads只要有一條reads不滿足條件捐腿,兩條reads都需要去除。
- 在RNA-seq和16s測(cè)序過(guò)程中不能去除duplication柿顶,否則會(huì)丟失一些豐度信息茄袖。
2.2 測(cè)序拓展內(nèi)容
2.2.1 大片段文庫(kù)
實(shí)際上無(wú)論是大片段文庫(kù)或者小片段文庫(kù),都無(wú)法完全測(cè)出一條read的全長(zhǎng)嘁锯。例如宪祥,Illumina構(gòu)建的小片段文庫(kù)為500bp,雙末端測(cè)序一般只會(huì)測(cè)得兩端各150bp左右的長(zhǎng)度家乘,中間的200bp是無(wú)法測(cè)得的蝗羊。但是由于最初構(gòu)建文庫(kù)時(shí)是隨機(jī)打斷的,第一條read無(wú)法測(cè)序到中間的序列仁锯,后續(xù)的reads也會(huì)測(cè)得中間的序列耀找。
1. 構(gòu)建大片段文庫(kù)的目的:
為了獲得reads之間的物理距離關(guān)系,方便后續(xù)的序列拼接业崖。
2. 大片段文庫(kù)的測(cè)序過(guò)程:
步驟一: 大片段兩端加入帶生物標(biāo)記的序列進(jìn)行環(huán)化處理涯呻。
步驟二:后續(xù)步驟和小片段文庫(kù)測(cè)序類似
3. pairend和matepair文庫(kù)區(qū)別
測(cè)序的reads方向不一致,pairend相向腻要,matepair相反。
2.2.2 測(cè)序注意事項(xiàng)
不能一次性測(cè)序完整基因組涝登,因?yàn)镻CR技術(shù)限制了讀長(zhǎng)雄家,同時(shí)從樣品中提取出的基因組很難保證完整性。
GC偏差會(huì)影響PCR胀滚,正常GC含量為35%~65%趟济。
選擇的文庫(kù)大小和reads讀長(zhǎng)要協(xié)調(diào);在Denove拼接過(guò)程中咽笼,先使用小片段文庫(kù)顷编,逐漸增大文庫(kù);
二代測(cè)序不能一直測(cè)下去剑刑,因?yàn)殡S著反應(yīng)進(jìn)行媳纬,后續(xù)的反應(yīng)條件發(fā)生了變化;同時(shí)施掏,在cluster過(guò)程中钮惠,由于堿基反應(yīng)的步調(diào)不一致現(xiàn)象(phasing),會(huì)導(dǎo)致誤差七芭。
2.3 短序列比對(duì)
短序列比對(duì)就是將過(guò)濾好的reads重新定位到基因組上素挽,這個(gè)過(guò)程也叫回貼(mapping)。
2.3.1 短序列比對(duì)的四種情況
2.3.2 短序列比對(duì)的應(yīng)用
1. 與自身基因組比對(duì)
1.1計(jì)算每個(gè)位點(diǎn)覆蓋深度
1.2 計(jì)算參考序列覆蓋比率
2. 與參考基因組比對(duì)
2.1 RNA測(cè)序計(jì)算基因表達(dá)量
2.2 變異檢測(cè)
2.3 宏基因組測(cè)序計(jì)算不同生物的豐度
2.3.3 基因差異表達(dá)計(jì)算
1. 基因結(jié)構(gòu)
2. 成熟mRNA
3. 基因表達(dá)差異的指標(biāo)
3.1 FoldChange撰糠,不同樣本中同一個(gè)基因表達(dá)水平的變化倍數(shù)酥馍,即RPKM值的差值,差值越大窗慎,變化越大物喷。
3.2 FDR矯正,F(xiàn)DR越小遮斥,差異約顯著峦失。
注:
- 轉(zhuǎn)錄起始位點(diǎn)位于啟動(dòng)區(qū)與5‘UTR非翻譯區(qū)之間,翻譯起始位點(diǎn)位于 CDS起始密碼子术吗。
- RPKM值消除了基因長(zhǎng)度和測(cè)序量差異對(duì)計(jì)算基因表達(dá)的影響尉辑,可直接用于比較不同樣品間的基因表達(dá)差異(可變剪切用FPKM值)。
2.3.4 變異檢測(cè)
????單堿基的變換:轉(zhuǎn)換较屿、顛換隧魄、缺失、插入
2.3.5 物種組成和豐度計(jì)算
步驟一:16s序列長(zhǎng)度為1.5kb左右隘蝎,不能一次性測(cè)通购啄,采用雙末端測(cè)序得到不同的reads,質(zhì)控過(guò)濾嘱么,不能去除duplication狮含。
步驟二:將兩條reads拼接成tags
步驟三:將不同的tags聚類成不同的OUT
步驟四:與16s數(shù)據(jù)庫(kù)進(jìn)行比對(duì),設(shè)置閾值曼振。
2.4 序列拼接
????又稱為de nove拼接几迄,將測(cè)序得到的reads輸入給拼接軟件,利用reads間的overlap進(jìn)行拼接冰评。
????目前序列拼接的算法有兩種:一種是Overlap-Layout-Conesensus(常用于sanger等長(zhǎng)片段拼接)映胁,另一種是De bruijn graph(常用于illumina等短序列拼接)。但是本質(zhì)都是基于序列間的overlap來(lái)進(jìn)行拼接甲雅。
常見名詞:
- reads解孙,測(cè)序直接得到的片段
- pairend和matepair,文庫(kù)大小
- insertsize务荆,物理長(zhǎng)度
- kmer妆距,將reads切割成更小的固定片段
- contig,通過(guò)kmer之間的overlap連接成更長(zhǎng)的片段(有時(shí)也指reads連接成contig)
- scaffold函匕,contigs之間通過(guò)pairend關(guān)系娱据,連接成更長(zhǎng)的片段
2.4.1 kmer值估計(jì)基因組大小
1. kmer定義
取reads的kmer就取兩次,正向取一次,反向互補(bǔ)會(huì)再取一次中剩。
2. 利用kmer的分布圖估計(jì)基因組大小
2.4.2 基于德布萊英圖(De bruijn graph)算法拼接
1. 構(gòu)圖(gregraph)
即切kmer(13-127之間的奇數(shù))忌穿,去除頻數(shù)為1的kmer(kmer頻數(shù)為1,那么相應(yīng)的reads也只測(cè)得一次结啼,這在高通量測(cè)序當(dāng)中是幾乎不可能的)
2. 構(gòu)建contig
利用不同kmer大小的片段間的overlap形成一個(gè)德布萊英圖掠剑,然后簡(jiǎn)化該圖,理論上該圖只有一個(gè)頭部和尾部郊愧,但是由于測(cè)序過(guò)程中朴译,存在重復(fù)區(qū)域等情況。實(shí)際形成的德布萊英圖會(huì)有很多的頭部和尾部属铁。然后去除較短的分支眠寿,就形成了很多的contigs,contigs彼此之間沒(méi)有overlap關(guān)系焦蘑。
3. 構(gòu)建scaffold
-
構(gòu)建過(guò)程
通過(guò)reads之間的paired關(guān)系盯拱,將contig連接成更長(zhǎng)的序列,就是scaffold例嘱。首先將測(cè)序的reads重新定位到contigs上狡逢,然后記錄下pairend的比對(duì)情況。落在同一contig用于計(jì)算insertsize拼卵,落在不同contig用于構(gòu)建scaffold奢浑。(例如:reads1比對(duì)到contig1的末尾150bp,reads2比對(duì)到contig2的起始150bp腋腮。而reads1和reads2之間的insetsize是500殷费,那么contig1和contig2連接形成scaffold的過(guò)程中會(huì)有200bp的N堿基存在)
比對(duì)過(guò)程中要注意reads的方向問(wèn)題
????通常比對(duì)上不同contig的pairend要有三對(duì)以上才能確定物理位置關(guān)系,進(jìn)一步連接成scaffold低葫。
- 當(dāng)基因組中重復(fù)序列過(guò)多時(shí),pairend關(guān)系可能不足以確定contig之間的位置關(guān)系仍律,此時(shí)需要用到matepair文庫(kù)嘿悬。
- 拼接的策略:首先用小片段文庫(kù),然后逐漸加入大片段文庫(kù)水泉。但是一般情況下很難得到一條完整的基因組序列善涨。
-
特點(diǎn)
①scaffolds序列的方向并不一致,有的來(lái)自正義鏈草则,有的來(lái)自反義鏈(但都是5‘-3’)钢拧。
②scaffolds之間并沒(méi)有位置關(guān)系,只是有的軟件會(huì)按照大小順序輸出炕横。
③scaffold里面可能存在N堿基源内,但是contig序列沒(méi)有N堿基。
4. 補(bǔ)洞
基因組上的洞份殿,即gaps膜钓,是由N堿基構(gòu)成的嗽交。在由contigs形成scaffold過(guò)程中會(huì)產(chǎn)生gaps。
有關(guān)gap:
- N堿基數(shù)目由insertsize確定颂斜,但是不完全準(zhǔn)確
- N堿基來(lái)自基因組復(fù)雜區(qū)域(重復(fù)夫壁,GC異常等區(qū)域),不容易拼接出來(lái)沃疮。
- 補(bǔ)洞策略
①利用sanger測(cè)序長(zhǎng)片段補(bǔ)洞
②若N區(qū)域過(guò)大(超過(guò)2k)盒让,可以用pacbio測(cè)序長(zhǎng)片短補(bǔ)洞
③利用pairend關(guān)系補(bǔ)洞
3. 第三代測(cè)序
主要包括三種測(cè)序技術(shù),分別利用了光信號(hào)司蔬、電信號(hào)和化學(xué)信號(hào)的轉(zhuǎn)換
3.1 PacBio公司的SMAT
1. 原理概述
應(yīng)用了邊合成邊測(cè)序的思想邑茄,以SMRT芯片為測(cè)序載體,DNA聚合酶和模板結(jié)合葱她,用4色熒光標(biāo)記 4 種堿基撩扒。在堿基配對(duì)階段,不同堿基的加入吨些,會(huì)發(fā)出不同光搓谆,根據(jù)光的波長(zhǎng)與峰值可判斷進(jìn)入的堿基類型。保持酶活性豪墅,區(qū)別反應(yīng)信號(hào)與周圍游離堿基熒光背景是關(guān)鍵技術(shù)泉手。
2. 特點(diǎn)
讀長(zhǎng)長(zhǎng),測(cè)序速度快偶器,測(cè)序錯(cuò)誤率較高斩萌,達(dá)到15%,但是出錯(cuò)是隨機(jī)的屏轰,可以通過(guò)多次測(cè)序來(lái)進(jìn)行有效的糾錯(cuò)颊郎。
3.2 Oxford公司的Nanopore
1. 原理概述
根據(jù)堿基所影響的電流變化幅度的不同,設(shè)計(jì)了一種特殊的納米孔霎苗,孔內(nèi)共價(jià)結(jié)合有分子接頭姆吭。當(dāng)DNA堿基通過(guò)納米孔時(shí),它們使電荷發(fā)生變化唁盏,從而短暫地影響流過(guò)納米孔的電流強(qiáng)度内狸,靈敏的電子設(shè)備檢測(cè)到這些變化從而鑒定所通過(guò)的堿基,是一種基于電信號(hào)而不是光信號(hào)的測(cè)序技術(shù)厘擂。
2. 特點(diǎn)
讀長(zhǎng)很長(zhǎng)昆淡,達(dá)到幾十kb,甚至100kb刽严,錯(cuò)誤率在1%到4%之間昂灵,且是隨機(jī)錯(cuò)誤,通量較高,能夠直接讀取出甲基化的胞嘧啶倔既。
3.3 Ion Torrent6
1. 原理概述
該技術(shù)使用一種布滿小孔的高密度半導(dǎo)體芯片(一個(gè)小孔就是一個(gè)測(cè)序反應(yīng)池)恕曲。當(dāng)DNA聚合酶把核苷酸聚合到延伸中的DNA鏈上時(shí),會(huì)釋放出一個(gè)氫離子渤涌,從而引起反應(yīng)池中的PH發(fā)生改變佩谣,位于池下的離子感受器將感受到氫離子信號(hào)直接轉(zhuǎn)化為數(shù)字信號(hào),從而讀出DNA序列实蓬。
2. 特點(diǎn)
成本相對(duì)較低茸俭,操作簡(jiǎn)單,速度較快安皱,但是通量不高调鬓。