經(jīng)過前面的分析步驟野崇,我們得到了特征表称开,代表序列及進(jìn)化樹文件,并更改了其名稱舞骆;接下來就讓我們根據(jù)silva 138
數(shù)據(jù)庫訓(xùn)練特征分類器來對代表序列進(jìn)行注釋:
1.導(dǎo)入?yún)⒖夹蛄袛?shù)據(jù)庫
time qiime tools import \
--type 'FeatureData[Sequence]' \
--input-path silva.16s_bacteria.fasta \
--output-path silva.16s_bacteria.qza
2.導(dǎo)入物種分類注釋數(shù)據(jù)庫
time qiime tools import \
--type 'FeatureData[Taxonomy]' \
--input-format HeaderlessTSVTaxonomyFormat \
--input-path silva.16s_bacteria.tax \
--output-path ref_silva.16s_bacteria.tax.qza
3. 訓(xùn)練分類器
time qiime feature-classifier fit-classifier-naive-bayes \
--i-reference-reads silva.16s_bacteria.qza \
--i-reference-taxonomy ref_silva.16s_bacteria.tax.qza \
--o-classifier classifier.qza
注:此步驟特別耗費(fèi)時(shí)間钥弯,在132G的服務(wù)器上運(yùn)行此程序耗時(shí)64h径荔,無特殊需求可直接使用官網(wǎng)提供訓(xùn)練好的數(shù)據(jù)庫:
https://data.qiime2.org/2020.8/common/silva-138-99-nb-classifier.qza
4. 數(shù)據(jù)注釋
這一步輸入我們得到的代表序列文件,對其進(jìn)行分類注釋
time qiime feature-classifier classify-sklearn \
--i-classifier classifier.qza \
--i-reads rep-seqs.qza \
--o-classification taxonomy.qza
注:128G服務(wù)器41個(gè)樣本用時(shí)3h脆霎,個(gè)人8G電腦請不要嘗試
同時(shí)也可以用blast比對的方法來進(jìn)行數(shù)據(jù)注釋总处,
參考:http://www.reibang.com/p/85e7930f710d
5. 可視化注釋的結(jié)果
time qiime metadata tabulate \
--m-input-file taxonomy.qza \
--o-visualization taxonomy.qzv