一、數(shù)據(jù)準備
1、Mapping文件
Mapping文件為描述測序樣本信息的文件星立,“數(shù)據(jù)的數(shù)據(jù)”,文件格式為.txt葬凳,需手動建立绰垂,其基本格式如下:
其中前三列與最后一列為必備列,分別為樣品名火焰,Barcode序列劲装,引物序列,以及樣品描述信息荐健,其余列可自行添加用于樣品分組酱畅。
準備好的Mapping文件需使用validate_mapping_file.py檢驗其正確性:
validate_mapping_file.py -m Fasting_Map.txt -o validate_mapping_file_output
2、測序結(jié)果文件
一般情況下江场,我們得到的是測序公司提供的已分割好的數(shù)據(jù)纺酸,測序公司會提供已拼接完成的.fastq格式文件,每個樣品單獨一個文件址否。
將測序文件單獨放在某一文件夾下餐蔬,進行初步的質(zhì)控、文件合并以及格式整理以用作下一步分析佑附,該步驟通過multiple_split_libraries_fastq.py命令實現(xiàn)樊诺。
multiple_split_libraries_fastq.py -i input_files -o output_folder --demultiplexing_method sampleid_by_file --read_indicator _R1_ --sampleid_indicator _
其中--read_indicator參數(shù)為序列文件名中代表性的特征字符,用于區(qū)分該文件夾下其他文件音同;--sampleid_indicator參數(shù)為序列文件名中某一字符词爬,其用途為該字符前面的字符將作為后續(xù)分析的樣品ID,例如sample1_L001_R1_001.fastq.gz权均,_R1_為表征該文件為序列文件的特征字符顿膨, _之前的sample1作為該文件對應樣品的樣品ID。
該步驟運行結(jié)果可得到一個.fasta格式文件叽赊,包含所有樣品所有序列恋沃,其序列名基本格式為
><sample_id>_<unique_seq_id>
二、OTU劃分
可以利用上步得到的.fasta格式文件直接劃分OTU必指,可使用pick_de_novo_otus.py命令:
pick_de_novo_otus.py -i $PWD/seqs.fna -o $PWD/uclust_otus/
該命令為一workflow囊咏,具體包含以下7條命令:
1、pick_otus.py
pick_otus.py -i seqs.fasta -o picked_otus_defaul
第一步為OTU劃分塔橡,-m參數(shù)設置劃分方法梅割,默認采用uclust方法,-s設置相似度閾值谱邪,默認值為0.97炮捧。該步驟所得結(jié)果文件為:seqs_otus.txt與seqs_otus.log文件。seqs_otus.log為日志文件惦银,記錄相關(guān)參數(shù)咆课,seqs_otus.txt文件每行包含OTU_ID以及該OTU下包含的序列名,基本格式如下:
2扯俱、pick_rep_set.py
pick_rep_set.py -i seqs_otus.txt -f seqs.fasta -o rep_set1.fasta
第二步為挑選出每個OTU的代表序列书蚪,所有OTU均有一條代表序列,合并為一個文件迅栅,序列名為>OTU_ID sequence_ID文件基本形式如下:
3殊校、align_seqs.py
align_seqs.py -i $PWD/unaligned.fna -t $PWD/core_set_aligned.fasta.imputed -o $PWD/pynast_aligned_defaults/
第三步是對上一步得到的代表序列進行對齊操作(Alignment),得到一個已對齊的.fasta文件读存,-m參數(shù)設置方法为流,默認方法為PyNAST呕屎。
4、assign_taxonomy.py
assign_taxonomy.py -i repr_set_seqs.fasta -r ref_seq_set.fna -t id_to_taxonomy.txt
第四步是進化分類敬察,根據(jù)上步得到的代表序列秀睛,確定每個OTU的進化分類,-m參數(shù)設置方法莲祸,默認采用uclust consensus taxonomy assigner 蹂安,也可以設置采用RDP方法進行分類。該步可得到一log文件和Assignment文件锐帜,其形式如下:
5田盈、filter_alignment.py
filter_alignment.py -i seqs_rep_set_aligned.fasta -o filtered_alignment/
第五步是對第三步得到的Alignment文件進行剪切,去掉alignment序列中的空格(Gaps)缴阎,用于下一步構(gòu)建進化樹允瞧。
6、make_phylogeny.py
make_phylogeny.py -i $PWD/aligned.fasta -o $PWD/rep_phylo.tre
利用上步得到的文件構(gòu)建進化樹蛮拔,-m參數(shù)設置建樹方法瓷式,默認采用fasttree。
7语泽、make_otu_table.py
make_otu_table.py -i otu_map.txt -t tax_assignments.txt -o otu_table.biom
最后一步是生成.biom格式的OTU table贸典,OTU table每一列為一樣品,每一行為一OTU以及該OTU在各樣品中出現(xiàn)的次數(shù)踱卵。輸入文件為第一步得到的文件廊驼。
由于在下一步驟中還需進行質(zhì)量控制,所以主要用于下游統(tǒng)計分析的第5惋砂、6兩步可以暫時跳過妒挎。