QIIME提供了3種OTU分類流程赁遗, 分別為de novo, closed-reference 和 open-reference巩那。
De novo OTU picking
pick_de_novo_otus.py 是 De novo OTU 分類方法的主要接口招驴, 主要包括: OTU分類载碌, 物種注釋赞弥, 序列比對 和 構建進化樹冰评。
優(yōu)點:
- 可以對所有reads聚類伐债;
缺點:
- 不支持并行预侯,數據集比較大時運算速度比較慢。
以下情況必須使用 De novo OTU picking:
- 針對需要分類的reads沒有相應的參考序列峰锁,比如說不常使用的marker gene萎馅。
以下情況不能使用 De novo OTU picking:
- 你比較的是非重疊擴增子,比如說16S rRNA的 V2 和 V4 區(qū)域虹蒋。
- 數據集很大糜芳。
Closed-reference OTU picking
pick_closed_reference_otus.py 是 Closed-reference OTU picking 分類方法的主要接口, 比對上的 reads 被聚類到參考序列中魄衅, 沒有比對上的 reads 被扔掉峭竣, 不參與后續(xù)分析。如果參考數據庫中包含物種分類信息晃虫,會自動對OTUs進行物種注釋皆撩。
優(yōu)點:
- 速度快, 因為能夠并行
- 建樹 和 物種注釋 更準確
缺點:
- 不能發(fā)現參考數據庫以外的新物種哲银。你只能關注已知物種的多樣性扛吞。當你基于16S區(qū)域研究人體微生物時, Greengenes數據庫覆蓋了大部分的微生物荆责,你可能只會拋棄掉1-10%的reads滥比;但當你研究未知環(huán)境中的微生物時,可能會拋棄掉50-80%的reads做院。
以下情況必須使用 Closed-reference OTU picking:
- 你比較的是非重疊擴增子盲泛,比如說16S rRNA的 V2 和 V4 區(qū)域濒持。你的參考序列必須覆蓋這兩個區(qū)域。
以下情況不能使用 Closed-reference OTU picking:
- 針對需要分類的reads沒有相應的參考序列查乒,比如說不常使用的marker gene弥喉。
Open-reference OTU picking
pick_open_reference_otus.py是 Open-reference OTU picking 分類方法的主要接口, 比對上的 reads 被聚類到參考序列中玛迄, 沒有比對上的 reads 進行 De novo OTU picking由境。
Open-reference OTU picking 是更好的OTU分類策略。
優(yōu)點:
- 所有reads都可以被聚類
- 速度 (參考數據庫中包括大多數物種時)
缺點:
- 速度 (參考數據庫中不包括大部分物種時)
多步OTU分類
當數據量比較大時蓖议,我們可以采用多步OTU分類策略虏杰,首先使用快速、粗糙的OTU分類方法(比如PrefixSuffix)勒虾, 然后在使用慢的纺阔、準確的OTU聚類方法(比如cdhit)。
具體步驟可以參考Multi-step OTU picking.