Mothur分析Illumina微生物組數(shù)據(jù)（一）

數(shù)據(jù)來源：Development of a dual-index sequencing strategy and curation pipeline for analyzing amplicon sequence data on the MiSeq Illumina sequencing platform. Applied and Environmental Microbiology. 79(17):5112-20.
教程參考：MiSeq SOP[https://www.mothur.org/wiki/MiSeq_SOP]

科學問題

腸道微生物的正常變化對宿主健康的影響媒殉。在這個教程中作者截取了部分數(shù)據(jù)毙死，試圖回答的問題是斷奶的前10天快速增加的體重是否對微生物組結(jié)構(gòu)有影響以及與斷奶140天到150天微生物組的比較陕习。

數(shù)據(jù)集

數(shù)據(jù)集中包含41個文件脉让，對于10個時間節(jié)點的雌鼠3和1個對照呜叫。F3D0表示femal 3 on day 0 (斷奶的時間)苍日。

首先進入MiSeq_SOP文件府喳，然后在mothur中輸入：

    set.dir(input=你的文件夾位置）
    make.file(inputdir=., type=fastq, prefix=stability)

1、Reducing sequencing and PCR errors

第一步是合并每個樣品雙端測序的文件和所有樣品的數(shù)據(jù)乒省。這一步的命令是用make.contigs巧颈。該命令提取reads和相應(yīng)的得分，將反向read反向互補后一起拼接成contigs.
make.contigs(file=stability.files)
代碼結(jié)果會顯示每個樣品的序列數(shù)目袖扛，同時每個樣品文件分別會生成stability.trim.contigs.fasta和stability.contigs.groups文件砸泛。
可用summary.seqs查看結(jié)果：
summary.seqs(fasta=stability.trim.contigs.fasta)
雙端測序的長度一般只有250bp，所以進一步用screen.seqs去除那些長度明顯不對的序列：
screen.seqs(fasta=stability.trim.contigs.fasta, group=stability.contigs.groups, maxambig=0, maxlength=275)

2攻锰、Processing improved sequences

去除重復序列：
unique.seqs(fasta=stability.trim.contigs.good.fasta)
計算每個唯一序列出現(xiàn)在每個組中的次數(shù)：
count.seqs(name=stability.trim.contigs.good.names, group=stability.contigs.good.groups)
統(tǒng)計序列信息：
summary.seqs(count=stability.trim.contigs.good.count_table)
將序列比對到參考序列晾嘶，這里用的是silva.bacteria.fasta妓雾，SILVA 有50000列娶吞，包含了18S rRNA和16S rRNA序列。作者認為這個數(shù)據(jù)庫比greengenes要好械姻。
pcr.seqs(fasta=silva.bacteria.fasta, start=11894, end=25319, keepdots=F, processors=8)
重新對文件命名：
rename.file(input=silva.bacteria.pcr.fasta, new=silva.v4.fasta)
比對到處理好的文件：
align.seqs(fasta=stability.trim.contigs.good.unique.fasta, reference=silva.v4.fasta)
查看比對信息：
summary.seqs(fasta=stability.trim.contigs.good.unique.align, count=stability.trim.contigs.good.count_table)
發(fā)現(xiàn)有些序列的起始和終止位置不正常妒蛇，所以繼續(xù)處理序列：
screen.seqs(fasta=stability.trim.contigs.good.unique.align, count=stability.trim.contigs.good.count_table, summary=stability.trim.contigs.good.unique.summary, start=1968, end=11550, maxhomop=8)
保留了1968到11550之間的序列，同時保證相同的多聚核苷酸不超過8楷拳。
去除序列首尾的gap characters：
filter.seqs(fasta=stability.trim.contigs.good.unique.good.align, vertical=T, trump=.)
重新去重：
unique.seqs(fasta=stability.trim.contigs.good.unique.good.filter.fasta, count=stability.trim.contigs.good.good.count_table)
接下來對序列進行預聚類绣夺，這樣進一步降噪：
pre.cluster(fasta=stability.trim.contigs.good.unique.good.filter.unique.fasta, count=stability.tirm.contigs.good.unique.good.filter.count_table, diffs=2)
這里會對序列進行分組，然后排序欢揖，在兩兩比較陶耍，如果序列中有2個堿基不同，則會將其合并她混。
去除嵌合體(chimeras)：

chimera.vsearch(fasta=stability.trim.contigs.good.unique.precluster.fasta, count=stability.trim.contigs.good.unique.good.filter.unique.precluster.count_table, dereplicate=t)
remove.seqs(fasta=stability.trim.contigs.good.unique.good.filter.unique.precluster.fasta, accnos=stability.trim.contigs.good.unique.good.filter.unique.precluster.denovo.vsearch.accnos)

去除質(zhì)體中的序列烈钞，比如mitochondria等：

classify.seqs(fasta=stability.trim.contigs.good.unique.good.filter.unique.precluster.pick.fasta, count=stability.trim.contigs.good.unique.good.filter.unique.precluster.denono.vsearch.pick.count_table, reference=trainset9_032012.pds.fasta, taxonomy=trainset9_032012.pds.tax, cutoff=80)
remove.lineage(fasta=stability.trim.contigs.good.unique.good.filter.unique.precluster.pick.fasta, count=stability.trim.contigs.good.unique.good.filter.unique.precluster.denovo.vsearch.pick.count_table, taxonomy=stability.trim.contigs.good.unique.good.filter.unique.precluster.pick.pds.wang.taxonomy, taxon=Chloroplast-Mitochondria-unknown-Archaea-Eukaryota)

此步也可以在phyloseq中進行。
在進行后續(xù)的OTU和phylotypes注釋時需要將序列文件中對照的序列去除：
remove.groups(count=stability.trim.contigs.good.unique.good.filter.unique.precluster.denovo.vsearch.pick.pick.count_table, fasta=stability.trim.contigs.good.unique.good.filter.unique.precluster.pick.pick.fasta, taxonomy=stability.trim.contigs.good.unique.good.filter.unique.precluster.pick.pds.wang.pick.taxonomy, groups=Mock)

OTUs

cluster.split(fasta=stability.trim.contigs.good.unique.good.filter.unique.precluster.pick.pick.pick.fasta, count=stability.trim.contigs.good.unique.good.filter.unque.precluster.denovo.vsearch.pick.pick.pick.count_table, taxonomy=stability.trim.contigs.good.unique.good.filter.unique.precluster.pick.pds.wang.pick.pick.taxonomy, splitmethod=classify, taxlevel=4, cutoff=0.03)

每個group中每個OTU的序列數(shù)目：
make.shared(list=stability.trim.contigs.good.unique.good.filter.unique.precluster.pick.pick.pick.opti_mcc.list, count=stability.trim.contigs.good.unique.good.filter.unique.precluster.denovo.vsearch.pick.pick.pick.count_table, label=0.03)

Phylotypes

phylotype(taxonomy=stability.trim.contigs.good.unique.good.filter.unique.precluster.pick.pds.wang.pick.pick.taxonomy)
上面會列出從屬到界坤按，如果只要屬水平的文件：
make.shared(list=stability.trim.contigs.good.unique.good.filter.unique.precluster.pick.pds.wang.pick.pick.tx.list, count=stability.trim.contigs.good.unique.good.filter.unique.precluster.denovo.vsearch.pick.pick.pick.count_table, label=1)
然后對這些OUTs分類到phylotypes：
classify.otu(list=stability.trim.contigs.good.unique.good.filter.unique.precluster.pick.pds.wang.pick.pick.tx.list, count=stability.trim.contigs.good.unique.good.filter.unique.precluster.denovo.vsearch.pick.pick.pick.count_table, taxonomy=stability.trim.contigs.good.filter.unique.precluster.pick.pds.wang.pick.pick.taxonomy.label=1)

Phylogenetic

dist.seqs(fasta=stability.trim.contigs.good.unique.good.filter.unique.precluster.pick.pick.pick.fasta, output=lt)
clearcut(phylip=stability.trim.contigs.good.unique.good.filter.unique.precluster.pick.pick.pick.phylip.dist)

這里生成的樹是用的全部的序列毯欣，而且節(jié)點的名稱和OTUs里的不同，導致不能在phyloseq里使用臭脓。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末酗钞，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子来累，更是在濱河造成了極大的恐慌砚作，老刑警劉巖，帶你破解...
沈念sama閱讀 221,820評論 6贊 515
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件嘹锁，死亡現(xiàn)場離奇詭異偎巢，居然都是意外死亡，警方通過查閱死者的電腦和手機兼耀，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 94,648評論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門压昼，熙熙樓的掌柜王于貴愁眉苦臉地迎上來求冷，“玉大人，你說我怎么就攤上這事窍霞〗程猓” “怎么了？”我有些...
開封第一講書人閱讀 168,324評論 0贊 360
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵但金，是天一觀的道長韭山。經(jīng)常有香客問我，道長冷溃，這世上最難降的妖魔是什么钱磅？我笑而不...
開封第一講書人閱讀 59,714評論 1贊 297
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮似枕，結(jié)果婚禮上盖淡，老公的妹妹穿的比我還像新娘。我一直安慰自己凿歼，他們只是感情好褪迟，可當我...
茶點故事閱讀 68,724評論 6贊 397
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著答憔，像睡著了一般味赃。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上虐拓，一...
開封第一講書人閱讀 52,328評論 1贊 310
城市分裂傳說
那天心俗，我揣著相機與錄音，去河邊找鬼蓉驹。笑死城榛，一個胖子當著我的面吹牛，可吹牛的內(nèi)容都是我干的戒幔。我是一名探鬼主播吠谢，決...
沈念sama閱讀 40,897評論 3贊 421
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼诗茎！你這毒婦竟也來了工坊？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 39,804評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤敢订，失蹤者是張志新（化名）和其女友劉穎王污，沒想到半個月后，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體楚午，經(jīng)...
沈念sama閱讀 46,345評論 1贊 318
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡昭齐，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 38,431評論 3贊 340
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了矾柜。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片阱驾。...
茶點故事閱讀 40,561評論 1贊 352
活死人
序言：一個原本活蹦亂跳的男人離奇死亡就谜，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出里覆，到底是詐尸還是另有隱情丧荐，我是刑警寧澤，帶...
沈念sama閱讀 36,238評論 5贊 350
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布喧枷，位于F島的核電站虹统，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏隧甚。R本人自食惡果不足惜车荔，卻給世界環(huán)境...
茶點故事閱讀 41,928評論 3贊 334
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望戚扳。院中可真熱鬧忧便，春花似錦、人聲如沸咖城。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,417評論 0贊 24
一樁弒父案呼奢，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽宜雀。三九已至，卻和暖如春握础，著一層夾襖步出監(jiān)牢的瞬間辐董，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,528評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工禀综，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留简烘，地道東北人。一個月前我還...
沈念sama閱讀 48,983評論 3贊 376
代替公主和親
正文我出身青樓定枷，卻偏偏與公主長得像孤澎，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子欠窒，可洞房花燭夜當晚...
茶點故事閱讀 45,573評論 2贊 359