遇到了一個16S的課題,于是開始認(rèn)真學(xué)習(xí)ASV和OTU的差別腔剂,順手整理一下媒区。
擴(kuò)增子測序和鳥槍法測序已經(jīng)成為微生物組領(lǐng)域最常見的研究手段。盡管鳥槍法測序可以為我們提供更高分辨率和更全面的物種信息以及基因信息,但是該方法的成本高昂袜漩,對運算資源和樣本的要求也更高绪爸。比如,生物量較低的樣本通常難以滿足鳥槍法測序?qū)颖綝NA量的要求宙攻,往往會通過全基因組擴(kuò)增法(WGA)提高DNA量奠货,然而WGA容易引入誤差,對樣本測序結(jié)果會造成一定的影響座掘。因此递惋,當(dāng)前仍有許多研究采用16S或ITS等方法來探究不同地方的微生物組。
然而溢陪,使用擴(kuò)增子測序法得到的結(jié)果萍虽,也就是當(dāng)我們靶向檢測某段基因序列的時候,更容易受到測序錯誤引起的SNV的影響形真,從而導(dǎo)致序列分類錯誤杉编,最終造成檢測到相似、但不正確的微生物咆霜,或錯誤地以為發(fā)現(xiàn)了新的微生物邓馒。而在全基因組測序的情況下,這種由于測序錯誤引起的SNV的影響就比較小蛾坯,通常不會影響序列最終的比對結(jié)果光酣。
針對擴(kuò)增子測序的這一問題,目前有兩種常用的分析策略——OTU和ASV偿衰,來降低測序錯誤造成的影響挂疆。近年來改览,我們可以發(fā)現(xiàn)下翎,越來越多的文章開始采用ASV,而拋棄OTU宝当。那么视事,ASV和OTU之間到底有什么差別呢?
首先從擴(kuò)增子測序(以16S rDNA測序為例)說起庆揩。
下述內(nèi)容主要來源于ZYMO RESEARCH的視頻:https://www.zymoresearch.com/blogs/blog/microbiome-informatics-otu-vs-asv
Target Sequencing
擴(kuò)增子測序是Target Sequencing的一種俐东,其目的是通過對細(xì)菌的16S rDNA區(qū)域進(jìn)行擴(kuò)增測序,來區(qū)分不同的物種订晌。那么為何要選擇16S rDNA呢虏辫?或者說我們應(yīng)該選擇怎樣的區(qū)域,才能確定一個樣本的物種組成呢锈拨?
第一砌庄,考慮到要檢測不同物種,那么被檢測的區(qū)域一定是能夠特異性代表某一物種的區(qū)域,也就是高變區(qū)域娄昆。
第二佩微,考慮到要用同樣的引物擴(kuò)增不同物種,所以這個高變區(qū)域兩端要具有一段在不同物種間高度保守的區(qū)域萌焰。
第三哺眯,最好對這一區(qū)域已經(jīng)有比較充分的研究和理解,這樣也能保證有相應(yīng)的數(shù)據(jù)庫納入被測區(qū)域的序列扒俯,以進(jìn)行物種注釋奶卓。
總結(jié)而言,就是以下4點:
(1) Sequencable highly conserved regions surrounding variable regions.
(2) Present in potential target species.
(3) Reasonably well-characterized and understood.
(4) Large existing database of reference sequences already avaliable.
而16S rDNA就是滿足上述要求的一段區(qū)域陵珍。其產(chǎn)生的RNA寝杖,也就是16S rRNA實際上是原核生物的核糖體中30S亞基的組成部分。
然而互纯,16S rDNA測序米面臨著一些挑戰(zhàn)瑟幕,其中一個重要的挑戰(zhàn)來源于測序的不完美。雖然二代測序的準(zhǔn)確率已經(jīng)非常高了留潦,但是依然無法做到100%的準(zhǔn)確性只盹。而三代測序如Nanopore測序的準(zhǔn)確性就更加低。而且這些錯誤并不是隨機(jī)分布的兔院,往往在某些區(qū)域更容易出現(xiàn)錯誤殖卑。
而這些由測序?qū)е碌腻e誤,可能會導(dǎo)致物種注釋錯誤坊萝,甚至讓我們誤以為發(fā)現(xiàn)了新物種孵稽。為了應(yīng)對這種錯誤,研究人員先后提出了OTU和ASV兩種手段十偶。
什么是OTU
接下來讓我們先聊一聊OTU菩鲜。OTU本質(zhì)上是就是一種聚類的方式,具體操作有3種策略:
(1)De Novo: 不依賴于數(shù)據(jù)庫惦积,基于自有數(shù)據(jù)進(jìn)行聚類接校。不依賴于數(shù)據(jù)庫,當(dāng)樣本數(shù)據(jù)發(fā)生變化時狮崩,結(jié)果可能會發(fā)生明顯變化蛛勉。
(2)Open Reference:依賴于數(shù)據(jù)庫,將自有數(shù)據(jù)與數(shù)據(jù)庫提供的代表性序列進(jìn)行聚類睦柴,可以與其聚成一類的被視為統(tǒng)一物種诽凌,無法與其聚成一類給予新的標(biāo)識。
(3)Closed Reference:依賴于數(shù)據(jù)庫坦敌,將自有數(shù)據(jù)與數(shù)據(jù)庫提供的代表性序列進(jìn)行聚類侣诵,可以與其聚成一類的被視為統(tǒng)一物種招刹,無法與其聚成一類的數(shù)據(jù)被丟棄。速度快窝趣,但是結(jié)果取決于數(shù)據(jù)庫的質(zhì)量疯暑。
通常在聚類時,將identity設(shè)置為97%及以上哑舒。然后聚成一類的序列就被視作為一個OTU妇拯。
測序錯誤?
但是洗鸵,如果存在測序錯誤呢越锈?
假如我們發(fā)現(xiàn)有這樣三段序列,它們之間只有幾個堿基的差異膘滨,測序獲得的Count數(shù)上也顯著不同:中間的棕色測到了10,000次甘凭,紫色的15次,粉色的2次火邓。
那么結(jié)合測序的準(zhǔn)確率丹弱,我們可以建立error model,獲得一個期望值铲咨,并計算pvalue躲胳,以判斷哪些是真實存在的序列,哪些是測序錯誤導(dǎo)致的纤勒。
在判斷哪些是測序錯誤的序列之后坯苹,我們就可以將這些序列從我們的數(shù)據(jù)中剔除,獲得真實準(zhǔn)確的序列摇天。
而上述過程其實就是ASV的核心粹湃。
什么是ASV
那么ASV和OTU之間有什么異同呢?
實際上泉坐,簡單來講ASV就是在去除了錯誤序列之后为鳄,將Identity的標(biāo)準(zhǔn)設(shè)為100%進(jìn)行聚類。因為不存在測序錯誤的情況下坚冀,即你的數(shù)據(jù)全都是真實的济赎,那么也就意味著只有相同序列才是來自于同一個物種的鉴逞,所以此時的identity應(yīng)該設(shè)置為100%记某。
ASV相比于OTU具有多個優(yōu)點:
(1)因為identity為100%,所以當(dāng)你增加樣本時构捡,或者與其他研究的ASV數(shù)據(jù)結(jié)果進(jìn)行比較時液南,結(jié)果具有一致性和可比性。
(2)只有在進(jìn)行物種注釋的時候才需要參考基因組勾徽。
(3)每一個ASV對應(yīng)一個準(zhǔn)確的序列滑凉。當(dāng)不同物種對應(yīng)同一個ASV的時候,意味著它們之間這一段序列具有一致性,即共有這一段序列畅姊。
(4)更容易檢測嵌合體咒钟。
不過ASV也并非完全沒有問題,比如樣本中存在某些極低豐度的物種若未,可能會被當(dāng)成測序錯誤而被剔除朱嘴。
此外,ASV好用重要前提是你的數(shù)據(jù)能夠建立一個合適的error model粗合,準(zhǔn)確檢測到錯誤的序列萍嬉。
今天就講到這里啦~如有什么錯誤,歡迎大家指正隙疚。
參考文獻(xiàn):
- Blaxter M, Mann J, Chapman T, et al. Defining operational taxonomic units using DNA barcode data. Philos Trans R Soc Lond B Biol Sci. Oct 29 2005;360(1462):1935-43. doi:10.1098/rstb.2005.1725
- Kunin V, Engelbrektson A, Ochman H, Hugenholtz P. Wrinkles in the rare biosphere: pyrosequencing errors can lead to artificial inflation of diversity estimates. Environ Microbiol. Jan 2010;12(1):118-23. doi:10.1111/j.1462-2920.2009.02051.x
- Callahan BJ, Wong J, Heiner C, et al. High-throughput amplicon sequencing of the full-length 16S rRNA gene with single-nucleotide resolution. Nucleic Acids Research. 2019;47(18):e103-e103. doi:10.1093/nar/gkz569
- Callahan BJ, McMurdie PJ, Holmes SP. Exact sequence variants should replace operational taxonomic units in marker-gene data analysis. The ISME Journal. 2017/12/01 2017;11(12):2639-2643. doi:10.1038/ismej.2017.119
- Caruso V, Song X, Asquith M, Karstens L. Performance of Microbiome Sequence Inference Methods in Environments with Varying Biomass. mSystems. 2019;4(1):e00163-18. doi:10.1128/mSystems.00163-18
- Gevers D, Knight R, Petrosino JF, et al. The Human Microbiome Project: a community resource for the healthy human microbiome. PLoS Biol. 2012;10(8):e1001377-e1001377. doi:10.1371/journal.pbio.1001377
- Edgar RC. Accuracy of microbial community diversity estimated by closed- and open-reference OTUs. PeerJ. 2017;5:e3889. doi:10.7717/peerj.3889
- Callahan BJ, McMurdie PJ, Rosen MJ, Han AW, Johnson AJ, Holmes SP. DADA2: High-resolution sample inference from Illumina amplicon data. Nat Methods. Jul 2016;13(7):581-3. doi:10.1038/nmeth.3869
- Nearing JT, Douglas GM, Comeau AM, Langille MGI. Denoising the Denoisers: an independent evaluation of microbiome sequence error-correction approaches. PeerJ. 2018;6:e5364-e5364. doi:10.7717/peerj.5364
- Amir A, McDonald D, Navas-Molina JA, et al. Deblur Rapidly Resolves Single-Nucleotide Community Sequence Patterns. mSystems. Mar-Apr 2017;2(2)doi:10.1128/mSystems.00191-16
- Edgar RC. UNOISE2: improved error-correction for Illumina 16S and ITS amplicon sequencing. bioRxiv. 2016:081257. doi:10.1101/081257