盡管測(cè)序技術(shù)在不斷發(fā)展,但不論是哪種測(cè)序平臺(tái)酌予,測(cè)序過(guò)程中都不可避免地存在一些錯(cuò)誤永票。在2014年,《Nature Review Genetics》發(fā)表了一篇很有意思的綜述驮俗,談?wù)摿?strong>二代測(cè)序?qū)嶒?yàn)中的三類錯(cuò)誤來(lái)源懂缕,以及如何利用重復(fù)來(lái)減少這些錯(cuò)誤。文章的作者之一就是著名的遺傳學(xué)家George Church王凑。
在實(shí)驗(yàn)過(guò)程中使用重復(fù)是經(jīng)過(guò)時(shí)間檢驗(yàn)的法則搪柑,然而,由于成本較高索烹,以及深度測(cè)序已提供一種類型的重復(fù)這一事實(shí)工碾,很多實(shí)驗(yàn)室忽略了重復(fù)的重要性。但“讀取深度”的范圍有限百姓,而其他類型的重復(fù)渊额,如技術(shù)重復(fù)、生物學(xué)重復(fù)及跨平臺(tái)的重復(fù)也非常有用瓣戚。
2011年7月發(fā)表在《Nature Biotechnology》上的一篇文章就曾為研究人員以及雜志審稿人敲響了警鐘端圈。文章指出,測(cè)序技術(shù)并不能消除生物學(xué)差異子库。和芯片技術(shù)一樣舱权,新一代測(cè)序技術(shù)也需要生物學(xué)重復(fù)。
在測(cè)序過(guò)程中仑嗅,由于我們能夠?qū)悠愤M(jìn)行多重分析宴倍,故良好的實(shí)驗(yàn)設(shè)計(jì)能夠利用技術(shù)重復(fù),對(duì)同一個(gè)樣品進(jìn)行多次測(cè)序仓技。目前一些研究使用技術(shù)重復(fù)鸵贬,將數(shù)據(jù)集中起來(lái)用于進(jìn)一步分析。
也有一些研究綜合多個(gè)測(cè)序技術(shù)脖捻,來(lái)改善變異檢出阔逼。例如,Illumina的短讀長(zhǎng)搭配PacBio的長(zhǎng)讀長(zhǎng)地沮,這就是個(gè)跨平臺(tái)重復(fù)的很好例子嗜浮。2013年11月羡亩,《PNAS》在線版上發(fā)表了一篇文章,就是將Illumina與PacBio的測(cè)序技術(shù)結(jié)合起來(lái)危融,來(lái)解決異構(gòu)體鑒定和定量的問(wèn)題畏铆。
生物學(xué)重復(fù)是指對(duì)同一條件下同一宿主的多個(gè)生物學(xué)樣品進(jìn)行測(cè)序,這也是差異表達(dá)分析的必需吉殃。這篇綜述就詳細(xì)介紹了利用不同組織的生物學(xué)重復(fù)來(lái)校正變異檢出中的錯(cuò)誤辞居。
它深入研究了三個(gè)來(lái)自Complete Genomics的全基因組序列數(shù)據(jù)。作者將SNP歸為一致或不一致蛋勺,這取決于所有重復(fù)是否一致瓦灶。利用多個(gè)打分方案,如讀取深度迫卢、基因表達(dá)得分和基因組質(zhì)量得分倚搬,作者利用ROC樣的曲線分析了真陽(yáng)性和真陰性的比例。有趣的是乾蛤,相對(duì)于基因組質(zhì)量得分和表達(dá)得分每界,以讀取深度作為質(zhì)量得分卻表現(xiàn)不佳。
當(dāng)然家卖,光靠重復(fù)也不能解決所有的測(cè)序錯(cuò)誤眨层。對(duì)于參考基因組不完整、插入上荡、缺失或重復(fù)的錯(cuò)誤趴樱,我們還要另想辦法解決。
此外酪捡,這篇文章還歸類了錯(cuò)誤的實(shí)驗(yàn)來(lái)源以及最早發(fā)現(xiàn)錯(cuò)誤的文章叁征。正如大家想象的一樣,測(cè)序過(guò)程中的每一步都有可能混入錯(cuò)誤逛薇,從樣品制備到數(shù)據(jù)分析捺疼,因此大家一定要小心。
測(cè)序錯(cuò)誤主要有三大類永罚,分別來(lái)自樣品制備啤呼、文庫(kù)制備,以及測(cè)序和成像呢袱。
來(lái)源于樣品制備的測(cè)序錯(cuò)誤
1. 用戶錯(cuò)誤官扣;例如,貼錯(cuò)標(biāo)簽羞福。雖然這是個(gè)低級(jí)錯(cuò)誤惕蹄,但肯定不會(huì)沒(méi)犯過(guò)。在芯片分析中,貼錯(cuò)標(biāo)簽和樣品搞混可都是真事焊唬,有文獻(xiàn)可查恋昼。
2. DNA或RNA的降解;例如赶促,組織自溶,福爾馬林固定石蠟包埋(FFPE)組織制備過(guò)程中的核酸降解和交聯(lián)挟炬。
3. 異源序列的污染鸥滨;例如,那些支原體和異種移植的宿主谤祖。
4. DNA起始量低婿滓。早在2005年人們就發(fā)現(xiàn),在PCR過(guò)程中粥喜,DNA起始量低的模板會(huì)以序列依賴的方式產(chǎn)生虛假的突變凸主,主要是從G轉(zhuǎn)變?yōu)锳。
來(lái)源于文庫(kù)制備的測(cè)序錯(cuò)誤
1. 用戶錯(cuò)誤额湘;例如卿吐,一個(gè)樣品的DNA殘留到下一個(gè),之前反應(yīng)的污染锋华。
2. PCR擴(kuò)增錯(cuò)誤嗡官。這個(gè)同上面第4點(diǎn)。
3. 引物偏向毯焕;例如衍腥,結(jié)合偏向,甲基化偏向纳猫,錯(cuò)配導(dǎo)致的偏向婆咸,非特異性結(jié)合和引物二聚體的形成,發(fā)夾結(jié)構(gòu)和干擾環(huán)芜辕,熔解溫度太高或太低引入的偏向尚骄。
4. 3’短捕獲偏向,在高通量RNA測(cè)序的poly(A)富集過(guò)程中引入物遇。
5. 獨(dú)家突變乖仇;例如,那些由重復(fù)區(qū)域或獨(dú)家變異的錯(cuò)配而引入的突變询兴。
6. 機(jī)器故障乃沙;例如,PCR循環(huán)溫度不正確诗舰。
7. 嵌合讀取警儒。
8. 條形碼和/或接頭錯(cuò)誤;例如,接頭污染蜀铲,缺乏條形碼多樣性和不兼容的條形碼边琉。
來(lái)源于測(cè)序和成像的測(cè)序錯(cuò)誤
1. 用戶錯(cuò)誤;例如记劝,流動(dòng)槽過(guò)載引起的簇crosstalk变姨。
2. 移相;例如厌丑,不完整的延伸以及多個(gè)核苷酸而不是單個(gè)核苷酸的添加定欧。
3. “Dead”熒光基團(tuán),受損的核苷酸以及重疊信號(hào)怒竿。
4. 序列背景砍鸠;例如,富含GC耕驰,同源和低復(fù)雜度的區(qū)域爷辱,及均聚物。
5. 機(jī)器故障朦肘;例如饭弓,激光器、硬盤厚骗、軟件和流體系統(tǒng)出故障示启。
6. 鏈的偏向。
由此可見(jiàn)领舰,測(cè)序錯(cuò)誤可能來(lái)源于實(shí)驗(yàn)的每一步夫嗓。除了設(shè)計(jì)各種重復(fù),大家在操作過(guò)程中也定要留心冲秽,避免讓錯(cuò)誤有空子可鉆舍咖。