ASV和OTU有什么不同杰标?哪個更好兵怯?

遇到了一個16S的課題,于是開始認(rèn)真學(xué)習(xí)ASV和OTU的差別腔剂,順手整理一下媒区。

擴(kuò)增子測序和鳥槍法測序已經(jīng)成為微生物組領(lǐng)域最常見的研究手段。盡管鳥槍法測序可以為我們提供更高分辨率和更全面的物種信息以及基因信息,但是該方法的成本高昂袜漩,對運算資源和樣本的要求也更高绪爸。比如,生物量較低的樣本通常難以滿足鳥槍法測序?qū)颖綝NA量的要求宙攻,往往會通過全基因組擴(kuò)增法(WGA)提高DNA量奠货,然而WGA容易引入誤差,對樣本測序結(jié)果會造成一定的影響座掘。因此递惋,當(dāng)前仍有許多研究采用16S或ITS等方法來探究不同地方的微生物組。

然而溢陪,使用擴(kuò)增子測序法得到的結(jié)果萍虽,也就是當(dāng)我們靶向檢測某段基因序列的時候,更容易受到測序錯誤引起的SNV的影響形真,從而導(dǎo)致序列分類錯誤杉编,最終造成檢測到相似、但不正確的微生物咆霜,或錯誤地以為發(fā)現(xiàn)了新的微生物邓馒。而在全基因組測序的情況下,這種由于測序錯誤引起的SNV的影響就比較小蛾坯,通常不會影響序列最終的比對結(jié)果光酣。

針對擴(kuò)增子測序的這一問題,目前有兩種常用的分析策略——OTU和ASV偿衰,來降低測序錯誤造成的影響挂疆。近年來改览,我們可以發(fā)現(xiàn)下翎,越來越多的文章開始采用ASV,而拋棄OTU宝当。那么视事,ASV和OTU之間到底有什么差別呢?

首先從擴(kuò)增子測序(以16S rDNA測序為例)說起庆揩。

下述內(nèi)容主要來源于ZYMO RESEARCH的視頻:https://www.zymoresearch.com/blogs/blog/microbiome-informatics-otu-vs-asv

Target Sequencing

擴(kuò)增子測序是Target Sequencing的一種俐东,其目的是通過對細(xì)菌的16S rDNA區(qū)域進(jìn)行擴(kuò)增測序,來區(qū)分不同的物種订晌。那么為何要選擇16S rDNA呢虏辫?或者說我們應(yīng)該選擇怎樣的區(qū)域,才能確定一個樣本的物種組成呢锈拨?


圖片來源:ZYMO RESEARCH

第一砌庄,考慮到要檢測不同物種,那么被檢測的區(qū)域一定是能夠特異性代表某一物種的區(qū)域,也就是高變區(qū)域娄昆。
第二佩微,考慮到要用同樣的引物擴(kuò)增不同物種,所以這個高變區(qū)域兩端要具有一段在不同物種間高度保守的區(qū)域萌焰。
第三哺眯,最好對這一區(qū)域已經(jīng)有比較充分的研究和理解,這樣也能保證有相應(yīng)的數(shù)據(jù)庫納入被測區(qū)域的序列扒俯,以進(jìn)行物種注釋奶卓。

總結(jié)而言,就是以下4點:
(1) Sequencable highly conserved regions surrounding variable regions.
(2) Present in potential target species.
(3) Reasonably well-characterized and understood.
(4) Large existing database of reference sequences already avaliable.

而16S rDNA就是滿足上述要求的一段區(qū)域陵珍。其產(chǎn)生的RNA寝杖,也就是16S rRNA實際上是原核生物的核糖體中30S亞基的組成部分。

然而互纯,16S rDNA測序米面臨著一些挑戰(zhàn)瑟幕,其中一個重要的挑戰(zhàn)來源于測序的不完美。雖然二代測序的準(zhǔn)確率已經(jīng)非常高了留潦,但是依然無法做到100%的準(zhǔn)確性只盹。而三代測序如Nanopore測序的準(zhǔn)確性就更加低。而且這些錯誤并不是隨機(jī)分布的兔院,往往在某些區(qū)域更容易出現(xiàn)錯誤殖卑。
而這些由測序?qū)е碌腻e誤,可能會導(dǎo)致物種注釋錯誤坊萝,甚至讓我們誤以為發(fā)現(xiàn)了新物種孵稽。為了應(yīng)對這種錯誤,研究人員先后提出了OTU和ASV兩種手段十偶。

什么是OTU

接下來讓我們先聊一聊OTU菩鲜。OTU本質(zhì)上是就是一種聚類的方式,具體操作有3種策略:
(1)De Novo: 不依賴于數(shù)據(jù)庫惦积,基于自有數(shù)據(jù)進(jìn)行聚類接校。不依賴于數(shù)據(jù)庫,當(dāng)樣本數(shù)據(jù)發(fā)生變化時狮崩,結(jié)果可能會發(fā)生明顯變化蛛勉。
(2)Open Reference:依賴于數(shù)據(jù)庫,將自有數(shù)據(jù)與數(shù)據(jù)庫提供的代表性序列進(jìn)行聚類睦柴,可以與其聚成一類的被視為統(tǒng)一物種诽凌,無法與其聚成一類給予新的標(biāo)識。
(3)Closed Reference:依賴于數(shù)據(jù)庫坦敌,將自有數(shù)據(jù)與數(shù)據(jù)庫提供的代表性序列進(jìn)行聚類侣诵,可以與其聚成一類的被視為統(tǒng)一物種招刹,無法與其聚成一類的數(shù)據(jù)被丟棄。速度快窝趣,但是結(jié)果取決于數(shù)據(jù)庫的質(zhì)量疯暑。

圖片來源:ZYMO RESEARCH

通常在聚類時,將identity設(shè)置為97%及以上哑舒。然后聚成一類的序列就被視作為一個OTU妇拯。

測序錯誤?

但是洗鸵,如果存在測序錯誤呢越锈?
假如我們發(fā)現(xiàn)有這樣三段序列,它們之間只有幾個堿基的差異膘滨,測序獲得的Count數(shù)上也顯著不同:中間的棕色測到了10,000次甘凭,紫色的15次,粉色的2次火邓。


圖片來源:ZYMO RESEARCH

那么結(jié)合測序的準(zhǔn)確率丹弱,我們可以建立error model,獲得一個期望值铲咨,并計算pvalue躲胳,以判斷哪些是真實存在的序列,哪些是測序錯誤導(dǎo)致的纤勒。

圖片來源:ZYMO RESEARCH

在判斷哪些是測序錯誤的序列之后坯苹,我們就可以將這些序列從我們的數(shù)據(jù)中剔除,獲得真實準(zhǔn)確的序列摇天。

而上述過程其實就是ASV的核心粹湃。

什么是ASV

那么ASV和OTU之間有什么異同呢?

圖片來源:ZYMO RESEARCH

實際上泉坐,簡單來講ASV就是在去除了錯誤序列之后为鳄,將Identity的標(biāo)準(zhǔn)設(shè)為100%進(jìn)行聚類。因為不存在測序錯誤的情況下坚冀,即你的數(shù)據(jù)全都是真實的济赎,那么也就意味著只有相同序列才是來自于同一個物種的鉴逞,所以此時的identity應(yīng)該設(shè)置為100%记某。

ASV相比于OTU具有多個優(yōu)點:
(1)因為identity為100%,所以當(dāng)你增加樣本時构捡,或者與其他研究的ASV數(shù)據(jù)結(jié)果進(jìn)行比較時液南,結(jié)果具有一致性和可比性。
(2)只有在進(jìn)行物種注釋的時候才需要參考基因組勾徽。
(3)每一個ASV對應(yīng)一個準(zhǔn)確的序列滑凉。當(dāng)不同物種對應(yīng)同一個ASV的時候,意味著它們之間這一段序列具有一致性,即共有這一段序列畅姊。
(4)更容易檢測嵌合體咒钟。

不過ASV也并非完全沒有問題,比如樣本中存在某些極低豐度的物種若未,可能會被當(dāng)成測序錯誤而被剔除朱嘴。

此外,ASV好用重要前提是你的數(shù)據(jù)能夠建立一個合適的error model粗合,準(zhǔn)確檢測到錯誤的序列萍嬉。

今天就講到這里啦~如有什么錯誤,歡迎大家指正隙疚。

參考文獻(xiàn):

  1. Blaxter M, Mann J, Chapman T, et al. Defining operational taxonomic units using DNA barcode data. Philos Trans R Soc Lond B Biol Sci. Oct 29 2005;360(1462):1935-43. doi:10.1098/rstb.2005.1725
  2. Kunin V, Engelbrektson A, Ochman H, Hugenholtz P. Wrinkles in the rare biosphere: pyrosequencing errors can lead to artificial inflation of diversity estimates. Environ Microbiol. Jan 2010;12(1):118-23. doi:10.1111/j.1462-2920.2009.02051.x
  3. Callahan BJ, Wong J, Heiner C, et al. High-throughput amplicon sequencing of the full-length 16S rRNA gene with single-nucleotide resolution. Nucleic Acids Research. 2019;47(18):e103-e103. doi:10.1093/nar/gkz569
  4. Callahan BJ, McMurdie PJ, Holmes SP. Exact sequence variants should replace operational taxonomic units in marker-gene data analysis. The ISME Journal. 2017/12/01 2017;11(12):2639-2643. doi:10.1038/ismej.2017.119
  5. Caruso V, Song X, Asquith M, Karstens L. Performance of Microbiome Sequence Inference Methods in Environments with Varying Biomass. mSystems. 2019;4(1):e00163-18. doi:10.1128/mSystems.00163-18
  6. Gevers D, Knight R, Petrosino JF, et al. The Human Microbiome Project: a community resource for the healthy human microbiome. PLoS Biol. 2012;10(8):e1001377-e1001377. doi:10.1371/journal.pbio.1001377
  7. Edgar RC. Accuracy of microbial community diversity estimated by closed- and open-reference OTUs. PeerJ. 2017;5:e3889. doi:10.7717/peerj.3889
  8. Callahan BJ, McMurdie PJ, Rosen MJ, Han AW, Johnson AJ, Holmes SP. DADA2: High-resolution sample inference from Illumina amplicon data. Nat Methods. Jul 2016;13(7):581-3. doi:10.1038/nmeth.3869
  9. Nearing JT, Douglas GM, Comeau AM, Langille MGI. Denoising the Denoisers: an independent evaluation of microbiome sequence error-correction approaches. PeerJ. 2018;6:e5364-e5364. doi:10.7717/peerj.5364
  10. Amir A, McDonald D, Navas-Molina JA, et al. Deblur Rapidly Resolves Single-Nucleotide Community Sequence Patterns. mSystems. Mar-Apr 2017;2(2)doi:10.1128/mSystems.00191-16
  11. Edgar RC. UNOISE2: improved error-correction for Illumina 16S and ITS amplicon sequencing. bioRxiv. 2016:081257. doi:10.1101/081257
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末壤追,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子供屉,更是在濱河造成了極大的恐慌行冰,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,682評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件伶丐,死亡現(xiàn)場離奇詭異资柔,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)撵割,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,277評論 3 395
  • 文/潘曉璐 我一進(jìn)店門贿堰,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人啡彬,你說我怎么就攤上這事羹与。” “怎么了庶灿?”我有些...
    開封第一講書人閱讀 165,083評論 0 355
  • 文/不壞的土叔 我叫張陵纵搁,是天一觀的道長。 經(jīng)常有香客問我往踢,道長腾誉,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,763評論 1 295
  • 正文 為了忘掉前任峻呕,我火速辦了婚禮利职,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘瘦癌。我一直安慰自己猪贪,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 67,785評論 6 392
  • 文/花漫 我一把揭開白布讯私。 她就那樣靜靜地躺著热押,像睡著了一般西傀。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上桶癣,一...
    開封第一講書人閱讀 51,624評論 1 305
  • 那天拥褂,我揣著相機(jī)與錄音,去河邊找鬼牙寞。 笑死肿仑,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的碎税。 我是一名探鬼主播尤慰,決...
    沈念sama閱讀 40,358評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼雷蹂!你這毒婦竟也來了伟端?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,261評論 0 276
  • 序言:老撾萬榮一對情侶失蹤匪煌,失蹤者是張志新(化名)和其女友劉穎责蝠,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體萎庭,經(jīng)...
    沈念sama閱讀 45,722評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡霜医,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,900評論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了驳规。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片肴敛。...
    茶點故事閱讀 40,030評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖吗购,靈堂內(nèi)的尸體忽然破棺而出医男,到底是詐尸還是另有隱情,我是刑警寧澤捻勉,帶...
    沈念sama閱讀 35,737評論 5 346
  • 正文 年R本政府宣布镀梭,位于F島的核電站,受9級特大地震影響踱启,放射性物質(zhì)發(fā)生泄漏报账。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,360評論 3 330
  • 文/蒙蒙 一埠偿、第九天 我趴在偏房一處隱蔽的房頂上張望透罢。 院中可真熱鬧,春花似錦胚想、人聲如沸琐凭。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,941評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽统屈。三九已至,卻和暖如春牙躺,著一層夾襖步出監(jiān)牢的瞬間愁憔,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,057評論 1 270
  • 我被黑心中介騙來泰國打工孽拷, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留吨掌,地道東北人。 一個月前我還...
    沈念sama閱讀 48,237評論 3 371
  • 正文 我出身青樓脓恕,卻偏偏與公主長得像膜宋,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子炼幔,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,976評論 2 355

推薦閱讀更多精彩內(nèi)容