16s rRNA分析流程和工具的介紹【轉(zhuǎn)】

16s rRNA分析流程和工具的介紹

本文轉(zhuǎn)載自肖斌科學(xué)網(wǎng)博客
16s rRNA早期的分析策略炮捧,如FISH(fluorescent in situ hybridization)肃拜、DDGE(denaturing gradient gel electrophoresis)、PCR cloning焰坪、T-RFLP(terminal restriction fragment length polymorphism)。隨著NGS(next generation sequencing)測序技術(shù)的發(fā)展聘惦,在此主要討論NGS技術(shù)在16s rRNA分析中的應(yīng)用某饰。
16s rRNA NGS數(shù)據(jù)分析的主要工具有:

16s rRNA NGS數(shù)據(jù)的分析主要有3個大步驟:
原始數(shù)據(jù)預(yù)處理:包括去接頭,數(shù)據(jù)過濾善绎,信號雜音去除黔漂,嵌合體檢查,數(shù)據(jù)均一化禀酱;

微生物多樣性分析:OTU和OTU代表序列界定炬守,包括OTU和代表序列的挑選,物種分類分配剂跟,進化樹分析等减途;

數(shù)據(jù)深入及可視化分析:包括alpha和beta多樣性分析,聚類和相關(guān)性分析曹洽,數(shù)據(jù)可視化等鳍置。


下面詳細(xì)說一下整個流程步驟~

01

去接頭和數(shù)據(jù)過濾

16s經(jīng)常是pooling測序,為此需要將下機數(shù)據(jù)根據(jù)barcode序列信息將數(shù)據(jù)拆分到各樣品中衣洁。QIIME中的“split_libraries.py” 和“split_libraries_fastq.py”實現(xiàn)數(shù)據(jù)拆分和數(shù)據(jù)過濾的雙重目的墓捻。Mothur利用“Trim.seqs”。不過QIIME和Mothur都不能直接處理sff文件(454下機產(chǎn)生的數(shù)據(jù)格式)坊夫,不過可各自利用“process_sff.py”和Sffinfo將sff格式轉(zhuǎn)換為FASTA和QUAL文件砖第。
數(shù)據(jù)過濾考慮的參數(shù)有:minimum average quality score allowed in a read、maximum number of ambiguous bases allowed环凿、minimum and maximum sequence length梧兼、maximum length of homopolymer allowed、maximum mismatches inprimer or barcode allowed智听、whether to truncate reverse primer羽杰,and so on.

02

雜音去除和嵌合體排查

16s建庫的pcr過程、測序過程均會導(dǎo)致序列出現(xiàn)錯誤到推,在分析過程過程中需要有效排除這種錯誤考赛。測序誤差矯正常用的工具有Denoiser(implemented in QIIME)、AmpliconNoise莉测、Acacia颜骤、Pre.cluster(implemented in Mothur)。嵌合體查找的工具有ChimeraSlayer捣卤、UCHIME忍抽、Persus八孝、DECIPHER,ChimeraSlayer鸠项、UCHIME干跛、Persus在mothur中均可調(diào)用。在這些工具中祟绊,存在有待于優(yōu)化的問題(these different methods often disagree with one another on the list of identified chimeras楼入,probably because of their different mechanisms or algorithms. More efforts are required to evaluate these methods and coordinate their inconsistencies in chimera identification.)


在分析中有個關(guān)于古細(xì)菌序列的情況需要注意:a very small proportion of archaeal sequences may be generated for 16S rRNA gene amplicon datasets amplified with bacteria-specific primers. These unexpected sequences should be identified after denoising and chimera removal, and are advised to be discarded before subsequent data normalization.

03

數(shù)據(jù)均一化

測序深度不理想和不均勻的話會對alpha多樣性及beta多樣性均有影響。Uneven sequencing depth can affect diversity estimates in a single sample(i.e.,alpha diversity)久免,as well as comparisons across different samples(i.e., beta diversity)浅辙,thus data normalization is required. 對于此問題有兩種處理策略,分別是relative abundance and random sampling(i.e., rarefaction)阎姥,in addition记舆,z-score亦用于normalization的過程中。但不同的方法均會有缺點呼巴。

04

OTU界定

OTU的界定主要根據(jù)序列的一致性進行泽腮,(The OTUs are picked based on sequence identity,and various identity cutoffs of 16S rRNA gene have been used for different taxonomic ranks. For example, identity cutoffs recommended by MEGAN are 99 % for species衣赶,97 % for genus诊赊,95 % for family,and 90 % for order level府瞄,respectively)碧磅。OTU界定時選擇的工具與算法對后期分析有很大影響(The OTU picking strategy and algorithms have significant effects in the downstream data interpretation. )。

根據(jù)分析過程中是否使用數(shù)據(jù)庫遵馆,OTU界定的策略可分為de novo鲸郊、closed reference和open reference。在OTU界定中有很多聚類的方法货邓,There are many clustering or alignment tools available for OTU picking秆撮,such as Uclust,cd-hit换况,BLAST职辨,mothur,usearch戈二,and prefix/suffix. These tools are implemented in QIIME. Among them舒裤,the mothur method contains three clustering algorithms to pick de novo OTUs,namely, nearest neighbor觉吭,furthest neighbor腾供,or average neighbor.

當(dāng)序列聚類好后,代表了一個OTU,接下來就是從這個OTU找到代表序列台腥,一種做法是a representative sequence can be a random,the longest绒北,the most abundant(as default in QIIME)黎侈, 另一種操作方法是the first sequence in an OTU cluster。 還有一種策略是the distance method in mothur identifies the sequence with the smallest maximum distance to the other sequences as the representative sequence闷游。

05

物種分類

taxonomic assignment的策略有:
word match峻汉,如RDP classfier;

best hit脐往;

Lowest Common Ancestor休吠,如MEGAN、SINA Alignment Service业簿。

06

進化樹分析

Phylogenetic relationships一般可以用樹來表示瘤礁,phylogenetic relationships主要是通過序列比對來實現(xiàn)的,序列比對的工具有ClustalW梅尤,MUSCLE柜思,Clustal Omega,Kalign巷燥,T-COFFEE赡盘,COBLAT和FastTree。目前針對16s rRNA NGS數(shù)據(jù)的分析工具都可以實現(xiàn)缰揪,如MEGA陨享,RAxML,MRBAYES钝腺,PhyML抛姑,TreeView,Clearcut拍屑,F(xiàn)itTree途戒。其中RAxMLand PhyML are the most widely used programs for maximum-likelihood phylogenetic analysis,probably because they are specifically designed and optimized for such purpose僵驰。

07

alpha和beta多樣性分析

alpha多樣性有眾多指標(biāo)可以表示喷斋,在mothur中有Shannon,Berger-Parker蒜茴,Simpson星爪,Q statistic;observed richness粉私,Chao1顽腾,ACE,and jackknife。而在QIIME中抄肖,有phylogenetic diversity(PD)-whole tree久信,chao1,and observed species漓摩。
還有一種物種豐度的比較方法:rarefaction curve裙士。QIIME中主要用“single_rarefaction.py”、 “multiple_rarefaction.py”管毙,在mothur中主要用“Rarefaction.single”和“Rarefaction.shared”腿椎。
beta多樣性計算主要反映不同樣本之間的差異度,several distance metrics夭咬,such as Unifrac啃炸,Bray-Curtis,Euclidean卓舵,Jaccard index南用,Yue & Clayton,and Morisita-Horn边器,have been often employed训枢。beta多樣性計算根據(jù)是否考慮OTU的相對豐度,可分為定量指數(shù)和定性指數(shù)忘巧。

08

統(tǒng)計檢驗

在Two-sample/group中恒界,多考慮t-test。在其中需要注意砚嘴,Particularly for independent two-sample t-test, independence and equal variances(which canbe tested by F-test十酣,Levene’s test,etc.)of two populations arerequired. In the case of non-normal distribution of data sets际长,nonparametric two-sample tests robust to data non-normality耸采,such as Wilcoxon signed-rank test,and Mann-Whitney U testare applicable for significance testing of difference betweengroup medians工育。
在Multiple-sample/group tests中虾宇,用ANOVA。

09

樣本聚類分析

clustering可以分析樣品之間的親疏關(guān)系如绸。classfication的策略用來對樣品進行類別判定嘱朽。

10

樣本相關(guān)性分析

在樣本的相似度和距離計算完后,可以利用principal component analysis(PCA)怔接,principal coordinates analysis(PCoA搪泳,also known as metric multidimensional scaling),Nonmetric multidimensional scaling(NMDS)扼脐,canonical correspondence analysis(CCA)岸军,linear discriminantanalysis(LDA),and redundancy analysis(RDA)等構(gòu)建樣本間的關(guān)系。

10

網(wǎng)絡(luò)模型建立

與基因表達艰赞、代謝分子佣谐、蛋白等數(shù)據(jù)一起分析共表達網(wǎng)路或者共表達模式(co-occurrence and co-exclusion patterns)。
參考文獻:JuF, ZhangT. 16s rRNA gene high throughput sequencing data mining of microbiota diversity and interactions, Appl Microbiol Biotechnol. 2015, 99(10):4119-4129

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末方妖,一起剝皮案震驚了整個濱河市台谍,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌吁断,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,013評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件坞生,死亡現(xiàn)場離奇詭異仔役,居然都是意外死亡,警方通過查閱死者的電腦和手機是己,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,205評論 2 382
  • 文/潘曉璐 我一進店門又兵,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人卒废,你說我怎么就攤上這事沛厨。” “怎么了摔认?”我有些...
    開封第一講書人閱讀 152,370評論 0 342
  • 文/不壞的土叔 我叫張陵逆皮,是天一觀的道長。 經(jīng)常有香客問我参袱,道長电谣,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,168評論 1 278
  • 正文 為了忘掉前任抹蚀,我火速辦了婚禮剿牺,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘环壤。我一直安慰自己晒来,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 64,153評論 5 371
  • 文/花漫 我一把揭開白布郑现。 她就那樣靜靜地躺著湃崩,像睡著了一般。 火紅的嫁衣襯著肌膚如雪懂酱。 梳的紋絲不亂的頭發(fā)上竹习,一...
    開封第一講書人閱讀 48,954評論 1 283
  • 那天,我揣著相機與錄音列牺,去河邊找鬼整陌。 笑死,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的泌辫。 我是一名探鬼主播随夸,決...
    沈念sama閱讀 38,271評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼震放!你這毒婦竟也來了宾毒?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 36,916評論 0 259
  • 序言:老撾萬榮一對情侶失蹤殿遂,失蹤者是張志新(化名)和其女友劉穎诈铛,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體墨礁,經(jīng)...
    沈念sama閱讀 43,382評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡幢竹,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,877評論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了恩静。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片焕毫。...
    茶點故事閱讀 37,989評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖驶乾,靈堂內(nèi)的尸體忽然破棺而出邑飒,到底是詐尸還是另有隱情,我是刑警寧澤级乐,帶...
    沈念sama閱讀 33,624評論 4 322
  • 正文 年R本政府宣布疙咸,位于F島的核電站,受9級特大地震影響风科,放射性物質(zhì)發(fā)生泄漏罕扎。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,209評論 3 307
  • 文/蒙蒙 一丐重、第九天 我趴在偏房一處隱蔽的房頂上張望腔召。 院中可真熱鬧,春花似錦扮惦、人聲如沸臀蛛。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,199評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽浊仆。三九已至,卻和暖如春豫领,著一層夾襖步出監(jiān)牢的瞬間抡柿,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,418評論 1 260
  • 我被黑心中介騙來泰國打工等恐, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留洲劣,地道東北人备蚓。 一個月前我還...
    沈念sama閱讀 45,401評論 2 352
  • 正文 我出身青樓,卻偏偏與公主長得像囱稽,于是被迫代替她去往敵國和親郊尝。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 42,700評論 2 345

推薦閱讀更多精彩內(nèi)容

  • line-height: 150%况凉、1.5em、1.5的區(qū)別 line-height:150% 父元素的行高為15...
    Volcaner閱讀 2,372評論 0 2
  • 我在你眼里不語也深情 你在我詩里深情且不語 我送你十畝花田 你還我春渡風(fēng)暖
    小麥iii閱讀 552評論 2 16
  • 昨日我想通了,原來最終還是自己的原因葬送了這一段幸福撤逢。 我的人生中極少有光明的時候,這一線的光明也被我拋棄掉粮坞,我心...
    董心滌閱讀 981評論 0 1