Qiime2 數(shù)據(jù)導(dǎo)入

在qiime2中進(jìn)行任何數(shù)據(jù)分析的第一步永遠(yuǎn)是將數(shù)據(jù)導(dǎo)入qiime2并儲(chǔ)存為qiime對(duì)象(.qza)。qiime2 接受導(dǎo)入的數(shù)據(jù)類型很多,包括從剛下機(jī)到分析過程中產(chǎn)生的任何常用數(shù)據(jù)格式和類型痢甘,如果遇到下面沒有提到的數(shù)據(jù)類型或格式悯仙,可以去 QIIME 2 Forum 尋找?guī)椭?/p>

Data with sequence quality information

EMP Protocol format

EMP單端測(cè)序

標(biāo)準(zhǔn)的EMP單端測(cè)序文件應(yīng)該包括兩個(gè)fastq.gz:測(cè)序reads和barcode reads稻扬。這種格式下的的序列是混合的,例如:所有樣品的raw data混合在一個(gè).gz文件中纪吮。而文件中的records順序是聯(lián)系barcode和測(cè)序結(jié)果的橋梁,也是分離混合數(shù)據(jù)的關(guān)鍵萎胰。

將兩個(gè).gz文件放到一個(gè)文件夾如:emp-single-end-sequences中碾盟。

qiime tools import \
 --type EMPSingleEndSequences \
 --input-path emp-single-end-sequences \
 --output-path emp-single-end-sequences.qza

EMP雙端測(cè)序

標(biāo)準(zhǔn)的EMP雙端測(cè)序文件應(yīng)該包含三個(gè)fastq.gz:forward sequence reads, reverse sequence reads 和 barcode reads。這種格式下的的序列也是混合的技竟,例如:所有樣品的raw data混合在 forward 和 reverse .gz文件中冰肴。而文件中的records順序是聯(lián)系barcode和測(cè)序結(jié)果的橋梁,也是分離混合數(shù)據(jù)的關(guān)鍵榔组。

將三個(gè).gz文件放到一個(gè)文件夾如:emp-paired-end-sequences中熙尉。

qiime tools import \
 --type EMPPairedEndSequences \
 --input-path emp-paired-end-sequences \
 --output-path emp-paired-end-sequences.qza

Casava 1.8 demultiplexed

Casava 1.8 單端測(cè)序

Casava 1.8單端測(cè)序結(jié)果是一個(gè).zip文件夾,里面包含一系列的fastq.gz文件搓扯,每一個(gè)sample對(duì)應(yīng)一個(gè).gz文件检痰。


Casava 1.8 demultiplexed.png

下劃線分割的各區(qū)域從左往右包括:

  1. 樣品編號(hào);

  2. barcode序列或編號(hào)锨推;

  3. lane編號(hào)铅歼;

  4. 序列方向(由于是單端測(cè)序,所以只有R1)

  5. 設(shè)定編號(hào)换可。

# 解壓zip文件
unzip -q casava-18-single-end-demultiplexed.zip
?
# importing data
qiime tools import \
 --type 'SampleData[SequencesWithQuality]' \
 --input-path casava-18-single-end-demultiplexed \
 --input-format CasavaOneEightSingleLanePerSampleDirFmt \
 --output-path demux-single-end.qza

Casava 1.8 雙端測(cè)序

與單端測(cè)序結(jié)果相似椎椰,但對(duì)任一sample,雙端測(cè)序結(jié)果包括兩個(gè)fastq.gz文件沾鳄,由R1和R2區(qū)分read 方向慨飘。

# 解壓zip文件
unzip -q casava-18-paired-end-demultiplexed.zip
?
#importing data
qiime tools import \
 --type 'SampleData[PairedEndSequencesWithQuality]' \
 --input-path casava-18-paired-end-demultiplexed \
 --input-format CasavaOneEightSingleLanePerSampleDirFmt \
 --output-path demux-paired-end.qza

“Fastq manifest” formats

如果測(cè)序結(jié)果既不是EMP又不是Casava格式,我們就需要先自己創(chuàng)建一個(gè) “manifest file”洞渔, 然后再用import 工具導(dǎo)入套媚。

  1. 創(chuàng)建一個(gè)名為 “manifest file” 的文本文件缚态,指明諸如:sample-id, forward-absolute-filepath, reverse-absolute-filepath等信息,用tab鍵分割;絕對(duì)路徑可以包含如$HOME/PWD等環(huán)境變量堤瘤。

    單端測(cè)序:


    單.png

    雙端測(cè)序:


    雙.png

Fastq數(shù)據(jù)有四種常用格式變體 玫芦,導(dǎo)入時(shí)必須在--input-format 中指定。下面提供SingleEndFastqManifestPhred33V2 的導(dǎo)入方法本辐,其他類似桥帆。

SingleEndFastqManifestPhred33V2

# 解壓序列文件
unzip -q se-33.zip
# 可以利用pwd獲得其絕對(duì)路徑,用R腳本批量構(gòu)建manifest
?
# importing data
qiime tools import \
 --type 'SampleData[SequencesWithQuality]' \
 --input-path se-33-manifest \
 --output-path single-end-demux.qza \
 --input-format SingleEndFastqManifestPhred33V2

Sequences without quality information

qiime2目前支持seqs.fna文件導(dǎo)入慎皱,該文件每個(gè)record都有兩行:header 和 sequence的fasta文件老虫;每條序列只能是一行,不能拆分為多行茫多;每條序列的ID必須遵循 <sample-id>_<seq-id> 格式祈匙。 <sample-id> 是序列所屬樣本的標(biāo)識(shí)符, <seq-id> 是其樣本中序列的標(biāo)識(shí)符天揖。


seqs_fna.png
# importing data
qiime tools import \
 --input-path seqs.fna \
 --output-path seqs.qza \
 --type 'SampleData[Sequences]'
?
# 去重復(fù) (dereplicate)
qiime vsearch dereplicate-sequences \
 --i-sequences seqs.qza \
 --o-dereplicated-table table.qza \
 --o-dereplicated-sequences rep-seqs.qza

Per-feature unaligned sequence data (representative FASTA sequences)

這類數(shù)據(jù)結(jié)構(gòu)上和上面的seqs.fna文件相似夺欲,但它是unaligned (i.e., do not contain - or . characters) ,并且包含未知序列(N)今膊,有些插件不支持分析含N的序列些阅。:

qiime tools import \
 --input-path sequences.fna \
 --output-path sequences.qza \
 --type 'FeatureData[Sequence]'

Per-feature aligned sequence data ( aligned representative FASTA sequences)

該類文件與上述的seqs.fna文件相似,但其序列是一一對(duì)齊并長(zhǎng)度相同的斑唬,同樣也可以包含未知堿基N市埋,有些插件不支持分析含N的序列。

aliend.png
qiime tools import \
 --input-path aligned-sequences.fna \
 --output-path aligned-sequences.qza \
 --type 'FeatureData[AlignedSequence]'

Feature table data

BIOM v1.0.0

qiime tools import \
 --input-path feature-table-v100.biom \
 --type 'FeatureTable[Frequency]' \
 --input-format BIOMV100Format \
 --output-path feature-table-1.qza

BIOM v2.1.0

qiime tools import \
 --input-path feature-table-v210.biom \
 --type 'FeatureTable[Frequency]' \
 --input-format BIOMV210Format \
 --output-path feature-table-2.qza

Phylogenetic trees

qiime2 支持newick 樹文件輸入恕刘。

qiime tools import \
 --input-path unrooted-tree.tre \
 --output-path unrooted-tree.qza \
 --type 'Phylogeny[Unrooted]'

Other data types

# 查看其它qiime2 支持的格式
qiime tools import \
 --show-importable-formats
# 查看其它qiime2 支持的類型
qiime tools import \
 --show-importable-types

QIIME 2 Forum

遇到的問題很可能以前有人已經(jīng)遇到過缤谎,并且在獲得了很好的技術(shù)支持并解決了。如果沒有雪营,上面也有很多熱心的人提供幫助和思路弓千。

importing-data 官方指南

qiime 2 官方文檔中文版

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市献起,隨后出現(xiàn)的幾起案子洋访,更是在濱河造成了極大的恐慌,老刑警劉巖谴餐,帶你破解...
    沈念sama閱讀 216,997評(píng)論 6 502
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件姻政,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡岂嗓,警方通過查閱死者的電腦和手機(jī)汁展,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,603評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人食绿,你說(shuō)我怎么就攤上這事侈咕。” “怎么了器紧?”我有些...
    開封第一講書人閱讀 163,359評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵耀销,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我铲汪,道長(zhǎng)熊尉,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,309評(píng)論 1 292
  • 正文 為了忘掉前任掌腰,我火速辦了婚禮狰住,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘齿梁。我一直安慰自己催植,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,346評(píng)論 6 390
  • 文/花漫 我一把揭開白布士飒。 她就那樣靜靜地躺著查邢,像睡著了一般。 火紅的嫁衣襯著肌膚如雪酵幕。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,258評(píng)論 1 300
  • 那天缓苛,我揣著相機(jī)與錄音芳撒,去河邊找鬼。 笑死未桥,一個(gè)胖子當(dāng)著我的面吹牛笔刹,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播冬耿,決...
    沈念sama閱讀 40,122評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼舌菜,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了亦镶?” 一聲冷哼從身側(cè)響起日月,我...
    開封第一講書人閱讀 38,970評(píng)論 0 275
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎缤骨,沒想到半個(gè)月后爱咬,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,403評(píng)論 1 313
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡绊起,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,596評(píng)論 3 334
  • 正文 我和宋清朗相戀三年精拟,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,769評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡蜂绎,死狀恐怖栅表,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情师枣,我是刑警寧澤谨读,帶...
    沈念sama閱讀 35,464評(píng)論 5 344
  • 正文 年R本政府宣布,位于F島的核電站坛吁,受9級(jí)特大地震影響劳殖,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜拨脉,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,075評(píng)論 3 327
  • 文/蒙蒙 一哆姻、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧玫膀,春花似錦矛缨、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,705評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至解阅,卻和暖如春落竹,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背货抄。 一陣腳步聲響...
    開封第一講書人閱讀 32,848評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工述召, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人蟹地。 一個(gè)月前我還...
    沈念sama閱讀 47,831評(píng)論 2 370
  • 正文 我出身青樓积暖,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親怪与。 傳聞我的和親對(duì)象是個(gè)殘疾皇子夺刑,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,678評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容