生物信息分析的前提是獲得了測(cè)序數(shù)據(jù)酱鸭,關(guān)于測(cè)序原始數(shù)據(jù)也涉及非常多知識(shí)及細(xì)節(jié),如果明白了測(cè)序原理及測(cè)序數(shù)據(jù)產(chǎn)生的過程蔚舀,在理解關(guān)于原始數(shù)據(jù)的各個(gè)問題上也比較容易。
回顧測(cè)序歷史礼患,目前已經(jīng)形成了三種測(cè)序方法,從上個(gè)世紀(jì)70年代的Sanger測(cè)序到90年代的二代測(cè)序,再到長度更長的三代測(cè)序领曼,都為快速宋舷、高效獲得基因序列提供了技術(shù)支持音诈。
Sanger測(cè)序
1970s年桑格開發(fā)的能完成最長1000bp序列的雙脫氧終止反應(yīng)细溅,因?yàn)樵摷夹g(shù)用于高達(dá)99.999%的測(cè)序準(zhǔn)確率,而被用于人類基因組計(jì)劃完成基因組的測(cè)序(改良的桑格法)朋贬。但是其因?yàn)橥康停ㄒ淮沃荒軠y(cè)一條序列)、成本高,而不適用于大基因組的測(cè)序赎线。
桑格法的主要思想是济似,構(gòu)建4個(gè)反應(yīng)體系蓖扑,(A, T, G, C四種堿基),分別加入引物柜去、DNA聚合酶、四種dNTP根盒、一定比例的ddNTP(帶有放射性標(biāo)記)。由于ddNTP的加入,導(dǎo)致互補(bǔ)鏈的合成被終止,當(dāng)然ddNTP的結(jié)合是隨機(jī)性的,但是在一定時(shí)間內(nèi)痰驱,ddNTP會(huì)結(jié)合完所有的位點(diǎn)叫潦。雖然會(huì)有ddNTP和dNTP結(jié)合在同一個(gè)位點(diǎn)短蜕,但是在凝膠電泳和放射自顯影試驗(yàn)中卿操,只有ddNTP會(huì)被檢測(cè)到扇雕,并通過堿基互補(bǔ)推算出待測(cè)序列。
【PCR實(shí)驗(yàn)是在1983年出現(xiàn)的移国,那么如果需要建立這四個(gè)反映體系,那不是需要多條模板鏈祝懂,那這么多的模板鏈除了擴(kuò)增還有什么方法?或者說,如何獲得這些模板鏈?】
Illumina 二代測(cè)序
二代測(cè)序有不同的平臺(tái),包括Roche 454測(cè)序儀,Illumina Solex/Hiseq 和ABI SOLID,其中以Illumina Hiseq市場(chǎng)份額較多(75%)。其開發(fā)的PE 雙端測(cè)序方法的主要特點(diǎn)是,借助橋式PCR擴(kuò)增榨为,實(shí)現(xiàn)了通量上的極大提高日川。
一些必須了解的名詞
- flowcell: 測(cè)序反應(yīng)的載體/容器,1個(gè)flowcell有8個(gè)lane职抡,每個(gè)lane包含兩列(swath),每一列有60個(gè)tile缚甩,每個(gè)tile會(huì)種下不同的cluster萨蚕,每個(gè)tile在一次循環(huán)中會(huì)拍照4次(每個(gè)堿基一次)
- lane: 測(cè)序反應(yīng)的平行泳道,試劑添加蹄胰、洗脫等過程的發(fā)生位置
- tile: 每次熒光掃描的位置岳遥,肉眼是看不到的
- 雙端測(cè)序: 可能序列比較長有四五百bp,兩邊各測(cè)120-150bp
- junction: 雙端測(cè)序中間一些沒有測(cè)到的區(qū)域
構(gòu)建文庫
超聲波將DNA分子打斷成300-800bp長序列片段(人類基因組打成300-500bp)裕寨,用酶補(bǔ)平為平末端浩蓉,然后3‘端加一個(gè)A堿基(因?yàn)榻宇^的3‘端有一個(gè)突出的T),再在兩端加上互補(bǔ)配對(duì)的adapter宾袜,再通過PCR擴(kuò)增達(dá)到一定濃度捻艳,構(gòu)成單鏈DNA文庫。
接頭主要有兩個(gè)作用庆猫,1. 實(shí)現(xiàn)橋式擴(kuò)增认轨,高效;2. 可以實(shí)現(xiàn)雙端測(cè)序
橋式PCR
進(jìn)行橋式PCR的關(guān)鍵在于待測(cè)序列5’和3’接頭設(shè)計(jì)及flowcell 的lane的與接頭互補(bǔ)的接頭月培。橋式PCR的過程可以通過擴(kuò)增正義鏈步驟理解嘁字,主要包括以下幾個(gè)步驟:
- 對(duì)模板鏈(p5-p7)進(jìn)行擴(kuò)增,獲得雙鏈互補(bǔ)鏈(p5'-p7')
- 洗脫模板鏈(強(qiáng)堿試劑作用下兩條鏈被分開杉畜,由于模版鏈沒有附著在lane上纪蜒,模版鏈被沖走,但是互補(bǔ)鏈依然穩(wěn)穩(wěn)固定在lane上)
- 形成橋式(互補(bǔ)鏈p7' 與lane上 p7互補(bǔ)此叠,并通過擴(kuò)增獲得正義鏈p7-p5纯续,與模板鏈一致)
- 循環(huán),獲得一群序列完全相同的cluster,目的在于實(shí)現(xiàn)放大單一堿基的信號(hào)強(qiáng)度猬错,滿足后期測(cè)序需求
- 解鏈窗看。橋式PCR完成后,形成了很多的橋形的互補(bǔ)雙鏈倦炒,再次強(qiáng)堿解鏈显沈。利用一種酶--甲酰胺基嘧啶糖苷酶(Fpg)選擇性的切掉lane 上p5‘ 連接的鏈,只留下了與lane p7連接的鏈即Forward Strand
總之析校,因?yàn)榻宇^的設(shè)計(jì),及互補(bǔ)配對(duì)的特性铜涉,使得最后能只保留正義鏈智玻,進(jìn)行測(cè)序。
幾點(diǎn)注意:
- lane與lane之間一般不會(huì)相互影響芙代,也就是說一般不會(huì)出現(xiàn)lane1固定的DNA又與lane2結(jié)合吊奢。
- lane上隨機(jī)分布兩種接頭,p5’(與P5互補(bǔ))纹烹,P7(與P7'互補(bǔ))页滚。
待測(cè)序列自帶了p5接頭和p7接頭;- 序列只能一開始是利用p5接頭互補(bǔ)铺呵,因?yàn)閜7接頭和lane是一樣的嘛
測(cè)序
測(cè)序的原理是裹驰,邊合成邊測(cè)序,通過每次加入一個(gè)熒光堿基片挂,并檢測(cè)熒光信號(hào)幻林,然后立即對(duì)其淬滅,接下來完成下一輪的堿基信號(hào)探測(cè)音念。雙端測(cè)序的順序是沪饺,先對(duì)正義鏈測(cè)序,然后index測(cè)序闷愤,最后反義鏈測(cè)序整葡。
正義鏈每一輪測(cè)序步驟:
- 引物結(jié)合到p5端
- 聚合酶作用完成一個(gè)堿基合成(一種特殊的dNTP【它的3‘ 羥基被疊氮基團(tuán)替代,因此每次只能添加一個(gè)dNTP讥脐;還含有熒光基團(tuán)遭居,能激發(fā)不同顏色】)
- 加入激發(fā)熒光緩沖液,用激光激發(fā)熒光信號(hào)(在dNTP被添加到合成鏈上后旬渠,所有未使用的游離dNTP和DNA聚合酶會(huì)被洗脫掉)
這一個(gè)循環(huán)就能測(cè)定flowcell上成千上萬的cluster魏滚,這就實(shí)現(xiàn)了高通量
- 下一輪測(cè)序。加入化學(xué)試劑淬滅熒光信號(hào)并使dNTP 3’ 疊氮基團(tuán)變成羥基坟漱,這樣能繼續(xù)向下進(jìn)行再加一個(gè)鼠次,并且保證這個(gè)不再發(fā)出熒光
在所有正義鏈完成測(cè)序后,合成稱為被洗脫,然后開始index測(cè)序檢測(cè)腥寇。首先對(duì)通過index1的引物結(jié)合位點(diǎn)完成index1完成測(cè)序成翩,并洗脫合成產(chǎn)物,然后再通過正義鏈的p5與lane上的p5'互補(bǔ)赦役,完成index2的測(cè)序麻敌,并洗脫產(chǎn)物。
洗脫掉index2 產(chǎn)物后掂摔,還是一個(gè)橋式擴(kuò)增术羔,得到雙鏈,再變性得到原始Forward strand 和 新的Reverse Strand乙漓, 除去測(cè)完的Forward strand级历。然后和測(cè)Forward一樣,也是先連接primer叭披,只是連接的位點(diǎn)是Primer Binding Site2寥殖,測(cè)完后得到reverse strand序列。
數(shù)據(jù)產(chǎn)生
從熒光信號(hào)的產(chǎn)生到堿基序列的識(shí)別這一過程涩蜘,主要包括圖象校正(即空間校正)嚼贡、cluster識(shí)別、熒光校正(即光學(xué)校正)同诫、phasing/prephasing(即化學(xué)校正)粤策、堿基識(shí)別、PF(Illumina默認(rèn)的數(shù)據(jù)過濾算法Pass Filtering)误窖、質(zhì)量評(píng)估等7個(gè)步驟
其中相機(jī)識(shí)別堿基的工作原理:利用了CCD相機(jī)(1)對(duì)每一個(gè)簇(cluster)進(jìn)行識(shí)別掐场,確定其坐標(biāo);(2)提取每個(gè)簇分別在A贩猎、G熊户、C、T四個(gè)波長的信號(hào)強(qiáng)度值吭服。另外拍照過程相當(dāng)耗時(shí)嚷堡,一次循環(huán)所產(chǎn)生的信號(hào)需要40分鐘左右才能拍照收集完畢。使用相機(jī)的掃描功能會(huì)更快一些艇棕。
總之蝌戒,根據(jù)設(shè)計(jì)的接頭以及引物結(jié)合位點(diǎn),一次完成正義鏈沼琉、index及反義鏈的測(cè)序北苟。當(dāng)然,獲得測(cè)序數(shù)據(jù)后的質(zhì)控又涉及其他知識(shí)打瘪,關(guān)于質(zhì)控結(jié)果的解釋也需要認(rèn)真學(xué)習(xí)友鼻。