Mothur分析Illumina微生物組數(shù)據(jù)(一)

數(shù)據(jù)來源:Development of a dual-index sequencing strategy and curation pipeline for analyzing amplicon sequence data on the MiSeq Illumina sequencing platform. Applied and Environmental Microbiology. 79(17):5112-20.
教程參考:MiSeq SOP[https://www.mothur.org/wiki/MiSeq_SOP]

科學問題

腸道微生物的正常變化對宿主健康的影響媒殉。在這個教程中作者截取了部分數(shù)據(jù)毙死,試圖回答的問題是斷奶的前10天快速增加的體重是否對微生物組結(jié)構(gòu)有影響以及與斷奶140天到150天微生物組的比較陕习。

數(shù)據(jù)集

數(shù)據(jù)集中包含41個文件脉让,對于10個時間節(jié)點的雌鼠3和1個對照呜叫。F3D0表示femal 3 on day 0 (斷奶的時間)苍日。

首先進入MiSeq_SOP文件府喳,然后在mothur中輸入:

    set.dir(input=你的文件夾位置)
    make.file(inputdir=., type=fastq, prefix=stability)

1、Reducing sequencing and PCR errors

第一步是合并每個樣品雙端測序的文件和所有樣品的數(shù)據(jù)乒省。這一步的命令是用make.contigs巧颈。該命令提取reads和相應(yīng)的得分,將反向read反向互補后一起拼接成contigs.
make.contigs(file=stability.files)
代碼結(jié)果會顯示每個樣品的序列數(shù)目袖扛,同時每個樣品文件分別會生成stability.trim.contigs.fasta和stability.contigs.groups文件砸泛。
可用summary.seqs查看結(jié)果:
summary.seqs(fasta=stability.trim.contigs.fasta)
雙端測序的長度一般只有250bp,所以進一步用screen.seqs去除那些長度明顯不對的序列:
screen.seqs(fasta=stability.trim.contigs.fasta, group=stability.contigs.groups, maxambig=0, maxlength=275)

2攻锰、Processing improved sequences

去除重復序列:
unique.seqs(fasta=stability.trim.contigs.good.fasta)
計算每個唯一序列出現(xiàn)在每個組中的次數(shù):
count.seqs(name=stability.trim.contigs.good.names, group=stability.contigs.good.groups)
統(tǒng)計序列信息:
summary.seqs(count=stability.trim.contigs.good.count_table)
將序列比對到參考序列晾嘶,這里用的是silva.bacteria.fasta妓雾,SILVA 有50000列娶吞,包含了18S rRNA和16S rRNA序列。作者認為這個數(shù)據(jù)庫比greengenes要好械姻。
pcr.seqs(fasta=silva.bacteria.fasta, start=11894, end=25319, keepdots=F, processors=8)
重新對文件命名:
rename.file(input=silva.bacteria.pcr.fasta, new=silva.v4.fasta)
比對到處理好的文件:
align.seqs(fasta=stability.trim.contigs.good.unique.fasta, reference=silva.v4.fasta)
查看比對信息:
summary.seqs(fasta=stability.trim.contigs.good.unique.align, count=stability.trim.contigs.good.count_table)
發(fā)現(xiàn)有些序列的起始和終止位置不正常妒蛇,所以繼續(xù)處理序列:
screen.seqs(fasta=stability.trim.contigs.good.unique.align, count=stability.trim.contigs.good.count_table, summary=stability.trim.contigs.good.unique.summary, start=1968, end=11550, maxhomop=8)
保留了1968到11550之間的序列,同時保證相同的多聚核苷酸不超過8楷拳。
去除序列首尾的gap characters:
filter.seqs(fasta=stability.trim.contigs.good.unique.good.align, vertical=T, trump=.)
重新去重:
unique.seqs(fasta=stability.trim.contigs.good.unique.good.filter.fasta, count=stability.trim.contigs.good.good.count_table)
接下來對序列進行預聚類绣夺,這樣進一步降噪:
pre.cluster(fasta=stability.trim.contigs.good.unique.good.filter.unique.fasta, count=stability.tirm.contigs.good.unique.good.filter.count_table, diffs=2)
這里會對序列進行分組,然后排序欢揖,在兩兩比較陶耍,如果序列中有2個堿基不同,則會將其合并她混。
去除嵌合體(chimeras):

chimera.vsearch(fasta=stability.trim.contigs.good.unique.precluster.fasta, count=stability.trim.contigs.good.unique.good.filter.unique.precluster.count_table, dereplicate=t)
remove.seqs(fasta=stability.trim.contigs.good.unique.good.filter.unique.precluster.fasta, accnos=stability.trim.contigs.good.unique.good.filter.unique.precluster.denovo.vsearch.accnos)

去除質(zhì)體中的序列烈钞,比如mitochondria等:

classify.seqs(fasta=stability.trim.contigs.good.unique.good.filter.unique.precluster.pick.fasta, count=stability.trim.contigs.good.unique.good.filter.unique.precluster.denono.vsearch.pick.count_table, reference=trainset9_032012.pds.fasta, taxonomy=trainset9_032012.pds.tax, cutoff=80)
remove.lineage(fasta=stability.trim.contigs.good.unique.good.filter.unique.precluster.pick.fasta, count=stability.trim.contigs.good.unique.good.filter.unique.precluster.denovo.vsearch.pick.count_table, taxonomy=stability.trim.contigs.good.unique.good.filter.unique.precluster.pick.pds.wang.taxonomy, taxon=Chloroplast-Mitochondria-unknown-Archaea-Eukaryota)

此步也可以在phyloseq中進行。
在進行后續(xù)的OTU和phylotypes注釋時需要將序列文件中對照的序列去除:
remove.groups(count=stability.trim.contigs.good.unique.good.filter.unique.precluster.denovo.vsearch.pick.pick.count_table, fasta=stability.trim.contigs.good.unique.good.filter.unique.precluster.pick.pick.fasta, taxonomy=stability.trim.contigs.good.unique.good.filter.unique.precluster.pick.pds.wang.pick.taxonomy, groups=Mock)

OTUs

cluster.split(fasta=stability.trim.contigs.good.unique.good.filter.unique.precluster.pick.pick.pick.fasta, count=stability.trim.contigs.good.unique.good.filter.unque.precluster.denovo.vsearch.pick.pick.pick.count_table, taxonomy=stability.trim.contigs.good.unique.good.filter.unique.precluster.pick.pds.wang.pick.pick.taxonomy, splitmethod=classify, taxlevel=4, cutoff=0.03)

每個group中每個OTU的序列數(shù)目:
make.shared(list=stability.trim.contigs.good.unique.good.filter.unique.precluster.pick.pick.pick.opti_mcc.list, count=stability.trim.contigs.good.unique.good.filter.unique.precluster.denovo.vsearch.pick.pick.pick.count_table, label=0.03)

Phylotypes

phylotype(taxonomy=stability.trim.contigs.good.unique.good.filter.unique.precluster.pick.pds.wang.pick.pick.taxonomy)
上面會列出從屬到界坤按,如果只要屬水平的文件:
make.shared(list=stability.trim.contigs.good.unique.good.filter.unique.precluster.pick.pds.wang.pick.pick.tx.list, count=stability.trim.contigs.good.unique.good.filter.unique.precluster.denovo.vsearch.pick.pick.pick.count_table, label=1)
然后對這些OUTs分類到phylotypes:
classify.otu(list=stability.trim.contigs.good.unique.good.filter.unique.precluster.pick.pds.wang.pick.pick.tx.list, count=stability.trim.contigs.good.unique.good.filter.unique.precluster.denovo.vsearch.pick.pick.pick.count_table, taxonomy=stability.trim.contigs.good.filter.unique.precluster.pick.pds.wang.pick.pick.taxonomy.label=1)

Phylogenetic

dist.seqs(fasta=stability.trim.contigs.good.unique.good.filter.unique.precluster.pick.pick.pick.fasta, output=lt)
clearcut(phylip=stability.trim.contigs.good.unique.good.filter.unique.precluster.pick.pick.pick.phylip.dist)

這里生成的樹是用的全部的序列毯欣,而且節(jié)點的名稱和OTUs里的不同,導致不能在phyloseq里使用臭脓。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末酗钞,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子来累,更是在濱河造成了極大的恐慌砚作,老刑警劉巖,帶你破解...
    沈念sama閱讀 221,820評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件嘹锁,死亡現(xiàn)場離奇詭異偎巢,居然都是意外死亡,警方通過查閱死者的電腦和手機兼耀,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,648評論 3 399
  • 文/潘曉璐 我一進店門压昼,熙熙樓的掌柜王于貴愁眉苦臉地迎上來求冷,“玉大人,你說我怎么就攤上這事窍霞〗程猓” “怎么了?”我有些...
    開封第一講書人閱讀 168,324評論 0 360
  • 文/不壞的土叔 我叫張陵但金,是天一觀的道長韭山。 經(jīng)常有香客問我,道長冷溃,這世上最難降的妖魔是什么钱磅? 我笑而不...
    開封第一講書人閱讀 59,714評論 1 297
  • 正文 為了忘掉前任,我火速辦了婚禮似枕,結(jié)果婚禮上盖淡,老公的妹妹穿的比我還像新娘。我一直安慰自己凿歼,他們只是感情好褪迟,可當我...
    茶點故事閱讀 68,724評論 6 397
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著答憔,像睡著了一般味赃。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上虐拓,一...
    開封第一講書人閱讀 52,328評論 1 310
  • 那天心俗,我揣著相機與錄音,去河邊找鬼蓉驹。 笑死城榛,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的戒幔。 我是一名探鬼主播吠谢,決...
    沈念sama閱讀 40,897評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼诗茎!你這毒婦竟也來了工坊?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,804評論 0 276
  • 序言:老撾萬榮一對情侶失蹤敢订,失蹤者是張志新(化名)和其女友劉穎王污,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體楚午,經(jīng)...
    沈念sama閱讀 46,345評論 1 318
  • 正文 獨居荒郊野嶺守林人離奇死亡昭齐,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,431評論 3 340
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了矾柜。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片阱驾。...
    茶點故事閱讀 40,561評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡就谜,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出里覆,到底是詐尸還是另有隱情丧荐,我是刑警寧澤,帶...
    沈念sama閱讀 36,238評論 5 350
  • 正文 年R本政府宣布喧枷,位于F島的核電站虹统,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏隧甚。R本人自食惡果不足惜车荔,卻給世界環(huán)境...
    茶點故事閱讀 41,928評論 3 334
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望戚扳。 院中可真熱鬧忧便,春花似錦、人聲如沸咖城。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,417評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽宜雀。三九已至,卻和暖如春握础,著一層夾襖步出監(jiān)牢的瞬間辐董,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,528評論 1 272
  • 我被黑心中介騙來泰國打工禀综, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留简烘,地道東北人。 一個月前我還...
    沈念sama閱讀 48,983評論 3 376
  • 正文 我出身青樓定枷,卻偏偏與公主長得像孤澎,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子欠窒,可洞房花燭夜當晚...
    茶點故事閱讀 45,573評論 2 359

推薦閱讀更多精彩內(nèi)容