轉(zhuǎn)自 https://yangguang8112.github.io/2017/03/09/%E6%B5%8B%E5%BA%8F%E9%94%99%E8%AF%AF%E7%8E%87/
為什么read1和read2前幾個(gè)堿基的錯(cuò)誤率較高杈女?
測(cè)序儀先測(cè)完read1全長(zhǎng)岖沛,才跳轉(zhuǎn)測(cè)read2红选,測(cè)序儀自身在剛啟動(dòng)或關(guān)閉時(shí)不太穩(wěn)定,圖像識(shí)別質(zhì)量比較差,尤其是第一個(gè)堿基與最后一個(gè)堿基,測(cè)序質(zhì)量最差,緊挨著的幾個(gè)堿基測(cè)序質(zhì)量也偏高臣咖,一是測(cè)序儀從剛開始的不穩(wěn)定到穩(wěn)定,有一個(gè)過渡的過程漱牵。另外接頭空載夺蛇,也會(huì)導(dǎo)致錯(cuò)誤率上升。(ILLUMILA工程師的說法)
這是因?yàn)殡S機(jī)引物擴(kuò)增的偏好性導(dǎo)致的酣胀。隨機(jī)引物擴(kuò)增偏好使得前邊一些堿基的堿基含量不平衡刁赦,因而在base-calling的時(shí)候算法不準(zhǔn)確,導(dǎo)致了錯(cuò)誤率高闻镶。 所謂的開機(jī)儀器不穩(wěn)定其實(shí)解釋不了read2開始?jí)A基錯(cuò)誤率也高的問題甚脉。 DNA文庫(kù)沒有這種隨機(jī)引物反轉(zhuǎn)的過程,因而起始的幾個(gè)堿基的錯(cuò)誤率就沒有明顯高铆农。 也是同樣的道理牺氨,WGBS文庫(kù)因?yàn)閴A基含量的不平衡,而導(dǎo)致錯(cuò)誤率更高墩剖,在測(cè)序的時(shí)候就需要加入平衡文庫(kù)猴凹。
隨著測(cè)序的進(jìn)行,flowcell可能會(huì)受到熒光的損害之類的涛碑,因而測(cè)read2的時(shí)候flowcell已經(jīng)和read1的時(shí)候不同了精堕,因此read2的錯(cuò)誤率會(huì)更高一些。當(dāng)然熒光損害的說法也不太能找到根據(jù)蒲障,而測(cè)過read1之后,可能flowcell變得更臟了卻是很好理解的瘫证。
為什么隨著read延長(zhǎng)揉阎,測(cè)序錯(cuò)誤率呈現(xiàn)升高趨勢(shì)?read2錯(cuò)誤率要普遍高于read1錯(cuò)誤率背捌?
測(cè)序過程中毙籽,每個(gè)cycle在熒光基團(tuán)淬滅,去3’端保護(hù)基團(tuán)時(shí)毡庆,沒有完全去除坑赡,導(dǎo)致在延伸過程滯留烙如,或者是加入了無3’端保護(hù)的堿基,導(dǎo)致延伸超前毅否,滯留和超前引起延伸步調(diào)不一致亚铁,這是一個(gè)累積的過程,越是往后螟加,超前或滯后的累積越多徘溢,測(cè)序錯(cuò)誤率也就越高。另外捆探,整個(gè)測(cè)序過程耗時(shí)較長(zhǎng)然爆,酶活性及試劑的有效性會(huì)隨著時(shí)間的延長(zhǎng)而降低,測(cè)序過程先測(cè)read1黍图,后測(cè)read2曾雕,所以read2的錯(cuò)誤率要稍高于read1。另外助被,若待測(cè)片段中存在反向互補(bǔ)序列剖张,容易發(fā)生折疊,導(dǎo)致堿基在合成時(shí)錯(cuò)配(測(cè)序原理為邊合成邊測(cè)序)恰起。對(duì)于特異性序列GGC修械,若后面的堿基是G,GGC這種結(jié)構(gòu)引起聚合酶偏好性的改變检盼,會(huì)使錯(cuò)誤率增高肯污。
參考文獻(xiàn)
Metzker M L. Sequencing technologies—the next generation[J]. Nature reviews genetics, 2010, 11(1): 31-46.
Nakamura K, Oshima T, Morimoto T, et al. Sequence-specific error profile of Illumina sequencers[J]. Nucleic acids research, 2011: gkr344.
Dohm J C, Lottaz C, Borodina T, et al. Substantial biases in ultra-short read data sets from high-throughput DNA sequencing[J]. Nucleic acids research, 2008, 36(16): e105-e105.