在qiime2中進(jìn)行任何數(shù)據(jù)分析的第一步永遠(yuǎn)是將數(shù)據(jù)導(dǎo)入qiime2并儲(chǔ)存為qiime對(duì)象(.qza)。qiime2 接受導(dǎo)入的數(shù)據(jù)類型很多,包括從剛下機(jī)到分析過程中產(chǎn)生的任何常用數(shù)據(jù)格式和類型痢甘,如果遇到下面沒有提到的數(shù)據(jù)類型或格式悯仙,可以去 QIIME 2 Forum 尋找?guī)椭?/p>
Data with sequence quality information
EMP Protocol format
EMP單端測(cè)序
標(biāo)準(zhǔn)的EMP單端測(cè)序文件應(yīng)該包括兩個(gè)fastq.gz:測(cè)序reads和barcode reads稻扬。這種格式下的的序列是混合的,例如:所有樣品的raw data混合在一個(gè).gz文件中纪吮。而文件中的records順序是聯(lián)系barcode和測(cè)序結(jié)果的橋梁,也是分離混合數(shù)據(jù)的關(guān)鍵萎胰。
將兩個(gè).gz文件放到一個(gè)文件夾如:emp-single-end-sequences中碾盟。
qiime tools import \
--type EMPSingleEndSequences \
--input-path emp-single-end-sequences \
--output-path emp-single-end-sequences.qza
EMP雙端測(cè)序
標(biāo)準(zhǔn)的EMP雙端測(cè)序文件應(yīng)該包含三個(gè)fastq.gz:forward sequence reads, reverse sequence reads 和 barcode reads。這種格式下的的序列也是混合的技竟,例如:所有樣品的raw data混合在 forward 和 reverse .gz文件中冰肴。而文件中的records順序是聯(lián)系barcode和測(cè)序結(jié)果的橋梁,也是分離混合數(shù)據(jù)的關(guān)鍵榔组。
將三個(gè).gz文件放到一個(gè)文件夾如:emp-paired-end-sequences中熙尉。
qiime tools import \
--type EMPPairedEndSequences \
--input-path emp-paired-end-sequences \
--output-path emp-paired-end-sequences.qza
Casava 1.8 demultiplexed
Casava 1.8 單端測(cè)序
Casava 1.8單端測(cè)序結(jié)果是一個(gè).zip文件夾,里面包含一系列的fastq.gz文件搓扯,每一個(gè)sample對(duì)應(yīng)一個(gè).gz文件检痰。
下劃線分割的各區(qū)域從左往右包括:
樣品編號(hào);
barcode序列或編號(hào)锨推;
lane編號(hào)铅歼;
序列方向(由于是單端測(cè)序,所以只有R1)
設(shè)定編號(hào)换可。
# 解壓zip文件
unzip -q casava-18-single-end-demultiplexed.zip
?
# importing data
qiime tools import \
--type 'SampleData[SequencesWithQuality]' \
--input-path casava-18-single-end-demultiplexed \
--input-format CasavaOneEightSingleLanePerSampleDirFmt \
--output-path demux-single-end.qza
Casava 1.8 雙端測(cè)序
與單端測(cè)序結(jié)果相似椎椰,但對(duì)任一sample,雙端測(cè)序結(jié)果包括兩個(gè)fastq.gz文件沾鳄,由R1和R2區(qū)分read 方向慨飘。
# 解壓zip文件
unzip -q casava-18-paired-end-demultiplexed.zip
?
#importing data
qiime tools import \
--type 'SampleData[PairedEndSequencesWithQuality]' \
--input-path casava-18-paired-end-demultiplexed \
--input-format CasavaOneEightSingleLanePerSampleDirFmt \
--output-path demux-paired-end.qza
“Fastq manifest” formats
如果測(cè)序結(jié)果既不是EMP又不是Casava格式,我們就需要先自己創(chuàng)建一個(gè) “manifest file”洞渔, 然后再用import 工具導(dǎo)入套媚。
-
創(chuàng)建一個(gè)名為 “manifest file” 的文本文件缚态,指明諸如:sample-id, forward-absolute-filepath, reverse-absolute-filepath等信息,用tab鍵分割;絕對(duì)路徑可以包含如$HOME/PWD等環(huán)境變量堤瘤。
單端測(cè)序:
雙端測(cè)序:
Fastq數(shù)據(jù)有四種常用格式變體 玫芦,導(dǎo)入時(shí)必須在--input-format 中指定。下面提供SingleEndFastqManifestPhred33V2 的導(dǎo)入方法本辐,其他類似桥帆。
SingleEndFastqManifestPhred33V2
# 解壓序列文件
unzip -q se-33.zip
# 可以利用pwd獲得其絕對(duì)路徑,用R腳本批量構(gòu)建manifest
?
# importing data
qiime tools import \
--type 'SampleData[SequencesWithQuality]' \
--input-path se-33-manifest \
--output-path single-end-demux.qza \
--input-format SingleEndFastqManifestPhred33V2
Sequences without quality information
qiime2目前支持seqs.fna文件導(dǎo)入慎皱,該文件每個(gè)record都有兩行:header 和 sequence的fasta文件老虫;每條序列只能是一行,不能拆分為多行茫多;每條序列的ID必須遵循 <sample-id>_<seq-id> 格式祈匙。 <sample-id> 是序列所屬樣本的標(biāo)識(shí)符, <seq-id> 是其樣本中序列的標(biāo)識(shí)符天揖。
# importing data
qiime tools import \
--input-path seqs.fna \
--output-path seqs.qza \
--type 'SampleData[Sequences]'
?
# 去重復(fù) (dereplicate)
qiime vsearch dereplicate-sequences \
--i-sequences seqs.qza \
--o-dereplicated-table table.qza \
--o-dereplicated-sequences rep-seqs.qza
Per-feature unaligned sequence data (representative FASTA sequences)
這類數(shù)據(jù)結(jié)構(gòu)上和上面的seqs.fna文件相似夺欲,但它是unaligned (i.e., do not contain - or . characters) ,并且包含未知序列(N)今膊,有些插件不支持分析含N的序列些阅。:
qiime tools import \
--input-path sequences.fna \
--output-path sequences.qza \
--type 'FeatureData[Sequence]'
Per-feature aligned sequence data ( aligned representative FASTA sequences)
該類文件與上述的seqs.fna文件相似,但其序列是一一對(duì)齊并長(zhǎng)度相同的斑唬,同樣也可以包含未知堿基N市埋,有些插件不支持分析含N的序列。
qiime tools import \
--input-path aligned-sequences.fna \
--output-path aligned-sequences.qza \
--type 'FeatureData[AlignedSequence]'
Feature table data
BIOM v1.0.0
qiime tools import \
--input-path feature-table-v100.biom \
--type 'FeatureTable[Frequency]' \
--input-format BIOMV100Format \
--output-path feature-table-1.qza
BIOM v2.1.0
qiime tools import \
--input-path feature-table-v210.biom \
--type 'FeatureTable[Frequency]' \
--input-format BIOMV210Format \
--output-path feature-table-2.qza
Phylogenetic trees
qiime2 支持newick 樹文件輸入恕刘。
qiime tools import \
--input-path unrooted-tree.tre \
--output-path unrooted-tree.qza \
--type 'Phylogeny[Unrooted]'
Other data types
# 查看其它qiime2 支持的格式
qiime tools import \
--show-importable-formats
# 查看其它qiime2 支持的類型
qiime tools import \
--show-importable-types
QIIME 2 Forum
遇到的問題很可能以前有人已經(jīng)遇到過缤谎,并且在獲得了很好的技術(shù)支持并解決了。如果沒有雪营,上面也有很多熱心的人提供幫助和思路弓千。