16sRNA 微生物組學分析(一):從fastq到菌屬豐度表

16s RNA :16s rDNA 基因存在于所有細菌的基因組中,具有高度的保守性橘沥。 該序列包含9個高變區(qū)和10個保守區(qū)盖喷,通過對某一段高變區(qū)序列進行PCR擴增后進行測序炮沐,得到1500bp左右的序列。

宏基因組:是將微生物基因組DNA隨機打斷成500bp的小片段峰弹,然后在片段兩端加入通用引物進行PCR擴增測序店量,再通過組裝的方式,將小片段拼接成較長的序列鞠呈。

針對16s RNA 數(shù)據(jù)主要使用 QIIME2 軟件進行融师。

此分析筆記流程概覽

image-20240112215612636.png

——8 以后的分析待后續(xù)更新吧!

數(shù)據(jù)下載:ENA 瀏覽器 (ebi.ac.uk)

0.數(shù)據(jù)下載 PRJNA359624

image-20240111150514145.png

點擊獲取下載腳本粟按,到服務器上運行

nohup ./ena-file-download-read_run-PRJNA359624-fastq_ftp-20240111-0625.sh &

確定下載成功诬滩,一共52個樣本

分析流程如下:

要自己安裝fastqc哦

1.使用fastqc進行質控

mkdir  fastqout
fastqc -c *.fastq.gz -o fastqout/
image-20240111201817120.png

看見報告正常生成

multiqc 整合質控報告

multiqc fastqout/
image-20240111202257472.png

查看質控報告霹粥,在當前目錄下生成,

image-20240111202408847.png
image-20240111204715735.png

質量數(shù)據(jù)沒啥問題疼鸟,下一步

2.切除引物

  • 送公司測序返還的數(shù)據(jù)一般都是拆分過并去除了引物的后控,可以自己再做一下質檢,引物切除了么空镜?浩淘?
image-20240111204634791.png

發(fā)現(xiàn)此處我們下載的已經(jīng)切除,不用再去吴攒。

3. 數(shù)據(jù)導入:在qiime2中分析測序數(shù)據(jù)

3.0 安裝 qiime2

參考官網(wǎng) 本機安裝 QIIME 2 — QIIME 2 2023.9.2 文檔

wget https://data.qiime2.org/distro/amplicon/qiime2-amplicon-2023.9-py38-linux-conda.yml
conda env create -n qiime2-amplicon-2023.9 --file qiime2-amplicon-2023.9-py38-linux-conda.yml
conda activate qiime2-amplicon-2023.9
image-20240111222615343.png

確定安裝成功张抄,我大概花了20分鐘吧~

3.1 先查看下測序類型質量值體系

質量值體系分為 Phred33 和 Phred 64兩種,如下圖所示洼怔,一般看fastq文件的質量值那行包含署惯!和?(對應ASCII值33和63)等镣隶,即為Phred33體系(一般都為Phred33)极谊。

image-20240111211006925.png

發(fā)現(xiàn)全為?

3.2 寫參數(shù)配置文件

下面為了運行 qiime2 需要自己寫個文件 manifest file, 按以下格式寫,

開頭的行是注釋行會被自動忽略安岂,例如以下命名為為se-33-manifest的文件轻猖,保存為txt等文件

第一列為sample-ID, 第二列是絕對路徑,如果是conda環(huán)境里的路徑需要調(diào)整一下域那。第三列是序列文件對應的是reverse還是forward咙边。

我們這次示例的是個是雙端合并后的文件,所以不需要區(qū)分正向還是反向次员,direction一列败许,每個都寫forward。然后導出為UTF-8(逗號分隔)文件淑蔚。格式寫成后長這樣檐束。

sample-id,absolute-filepath,direction
SRR5142316,/xtdisk/PRJNA359624/SRR5142316.fastq,forward
SRR5142325,/xtdisk/PRJNA359624/SRR5142325.fastq.gz,forward
SRR5142334,/xtdisk/PRJNA359624/SRR5142334.fastq.gz,forward

如是雙端測序,分了兩個fastq文件束倍,格式寫成后大概長這樣,需要定指定 forward和reverse

sample-id,absolute-filepath,direction
SRR5142316,/xtdisk/PRJNA359624/SRR5142316_R1.fastq.gz,forward
SRR5142316,/xtdisk/PRJNA359624/SRR5142316_R2.fastq.gz,reverse
SRR5142325,/xtdisk/PRJNA359624/SRR5142325_R1.fastq.gz,forward
SRR5142334,/xtdisk/PRJNA359624/SRR5142334_R2.fastq.gz,reverse
  • 一定要有表頭 sample-id,absolute-filepath,direction

3.3 運行 qiime tools盟戏,導入數(shù)據(jù)绪妹,生成數(shù)據(jù)摘要

qiime tools import \
  --input-path se-33-manifest.txt \
  --output-path qiime_out_manifest.qza \
  --type SampleData[JoinedSequencesWithQuality] \
  --input-format SingleEndFastqManifestPhred33

*雙端序列 --input-format PairedEndFastqManifestPhred33

                 --type 'SampleData[PairedEndSequencesWithQuality]' 

*雙端序列合并 --input-format SingleEndFastqManifestPhred33

                        --type SampleData[JoinedSequencesWithQuality] 

結果文件出來了,很快~

image-20240112101039204.png

3.4 可視化數(shù)據(jù)質量

#可視化文件 
qiime demux summarize \
  --i-data qiime_out_manifest.qza \
  --o-visualization qiime_out_manifest.qzv

qiime_out_manifest.qzv文件需要從Linux中下載后再拖拽到qiime2 view網(wǎng)頁中才能打開柿究。

此處可以得到質檢矢量圖邮旷,通過放大觀察可以清楚的判斷堿基質量明顯下降的位置,從而輔助確定下一步中流程中的參數(shù)reads1_cutpoint和reads2_cutpoint蝇摸。

  • 生成的.qzv文 拖拽進網(wǎng)頁查看(推薦) QIIME 2 查看
  • 或是使用qiime tools view qiime_out_manifest.qzv查看
image-20240112104445955.png

這里發(fā)現(xiàn)數(shù)據(jù)質量都是30婶肩,其實這個數(shù)據(jù)有點奇怪办陷。

此處可以得到質檢矢量圖,通過放大觀察可以清楚的判斷堿基質量明顯下降的位置律歼,從而輔助確定下一步中的參數(shù)t民镜。

4 過濾, 切割险毁、去嵌合體制圈、拼接等

這步可使用Deblur 或 DATA 2。

Deblur VS DADA2: 方法不同畔况,使用相同數(shù)據(jù)集的序列和特征數(shù)量的也會有差異鲸鹦。

Deblur 要求所有序列的長度相同。另一方面跷跪,DADA2 的特征序列具有不同的長度馋嗜。DADA2 糾正錯誤,Deblur 刪除錯誤吵瞻。這種差異對到達終點的總讀取量有很大影響葛菇,但對頻率的影響要小得多,而頻率更重要听皿。

如果使用 DADA2來合并和消除雙端數(shù)據(jù)的噪聲熟呛,請在用DADA2去噪之前不要合并您的序列;DADA2希望讀長尚未合并的序列尉姨,并將在去噪過程中為您雙端合并庵朝。deblur只接受single-end的序列,如果你把沒有jion的序列傳遞給deblur又厉,它會只處理forward seqs,eblur在denoising時需要輸入整齊一樣長度的序列九府,所以需要trim成相同的長度。

目前:無論選擇使用哪種方法覆致,生物學解釋(至少從表面上看)似乎都非常相似

目前關于哪個更好侄旬,沒有達成共識,根據(jù)自己的數(shù)據(jù)情況來選擇煌妈。此教程我們的數(shù)據(jù)是合并后的數(shù)據(jù)儡羔,

那么選擇Deblur,注意一些數(shù)據(jù)分析比較原則璧诵,如果是整合數(shù)據(jù)集汰蜘,那么保證每個樣本使用相同的分析流程。

4.1 質量過濾

qiime quality-filter q-score \
  --i-demux qiime_out_manifest.qza \
  --o-filtered-sequences demux-joined-filtered.qza \
  --o-filter-stats demux-joined-filter-stats.qza

輸出對象:

  • demux-joined-filter-stats.qza: 統(tǒng)計結果之宿。
  • demux-joined-filtered.qza: 數(shù)據(jù)過濾后結果族操。

此方法的參數(shù)尚未在雙端合并的數(shù)據(jù)上進行廣泛的基準測試,因此建議嘗試使用不同的參數(shù)設置比被。

4.2 去噪

現(xiàn)在已經(jīng)準備好用Deblur去噪你的序列了色难。您應該從質量分數(shù)圖中為--p-trim-length選擇合適的序列長度值泼舱。這將把所有序列修剪到這個長度,并丟棄任何小于這個長度的序列枷莉。

大約 251-255(EMP 引物組)捕獲了幾乎所有的 V4 序列娇昙。因此,修剪到 251-255 是合理的依沮。

Deblur的開發(fā)者們建議設置一個質量分數(shù)開始迅速下降的長度(recommend setting this value to a length where the median quality score begins to drop too low)涯贞。

qiime deblur denoise-16S \
  --i-demultiplexed-seqs demux-joined-filtered.qza \
  --p-trim-length 250 \
  --p-sample-stats \
  --o-representative-sequences rep-seqs.qza \
  --o-table table.qza \
  --o-stats deblur-stats.qza

輸出對象:

  • rep-seqs.qza: 代表序列。
  • deblur-stats.qza: 統(tǒng)計過程危喉。
  • table.qza: 特征表宋渔。

4.3 查看結果特征表

統(tǒng)計結果可視化

qiime feature-table summarize \
  --i-table table.qza \
  --o-visualization table.qzv
image-20240112142534055.png

代表序列統(tǒng)計


qiime feature-table tabulate-seqs \
  --i-data rep-seqs.qza \
  --o-visualization rep-seqs.qzv
image-20240112143813655.png

5 多樣性分析

5.1 建樹用于多樣性分析

qiime phylogeny align-to-tree-mafft-fasttree \
  --i-sequences rep-seqs.qza \
  --o-alignment aligned-rep-seqs.qza \
  --o-masked-alignment masked-aligned-rep-seqs.qza \
  --o-tree unrooted-tree.qza \
  --o-rooted-tree rooted-tree.qza

5.2 Alpha多樣性分析

α多樣性是度量單個樣本內(nèi)有多少種微生物物種,以及每個物種所占比例的指標辜限。

計算多樣性(包括所有常用的Alpha和Beta多樣性方法)皇拣,輸入有根樹、Feature表薄嫡、樣本重采樣深度

取樣深度看table.qzv文件確定(一般為樣本最小的sequence count氧急,或覆蓋絕大多數(shù)樣品的sequence count)

image-20240112145317526.png

還需要構建一個 sample-metadata.txt file ,這里我們的演示毫深,從NCBI下載

Run Selector :: NCBI (nih.gov)

image-20240112161606058.png

改寫"RUN" 為 sampleID吩坝,這里我們添加了一個Group 列,根據(jù)Library Name 分了兩組Gout_Train 和HC_Train哑蔫,注意格式钉寝,保存為分隔符為空格的txt 文件。

然后運行以下流程:

qiime diversity core-metrics-phylogenetic \
  --i-phylogeny rooted-tree.qza \
  --i-table table.qza \
  --p-sampling-depth 1775 \
  --m-metadata-file sample-metadata.txt \
  --output-dir core-metrics-results
image-20240112160434896.png

運行很快闸迷,

輸出結果包括多種多樣性結果嵌纲,文件列表和解釋如下:

beta多樣性bray_curtis距離矩陣 bray_curtis_distance_matrix.qza

alpha多樣性evenness(均勻度,考慮物種和豐度)指數(shù) evenness_vector.qza

alpha多樣性faith_pd(考慮物種間進化關系)指數(shù) faith_pd_vector.qza

beta多樣性jaccard距離矩陣 jaccard_distance_matrix.qza

alpha多樣性observed_otus(OTU數(shù)量)指數(shù) observed_otus_vector.qza

alpha多樣性香農(nóng)熵(考慮物種和豐度)指數(shù) shannon_vector.qza

beta多樣性unweighted_unifrac距離矩陣腥沽,不考慮豐度 unweighted_unifrac_distance_matrix.qza

beta多樣性unweighted_unifrac距離矩陣逮走,考慮豐度 weighted_unifrac_distance_matrix.qza

測試分類元數(shù)據(jù)(sample-metadata)列和alpha多樣性數(shù)據(jù)之間的關聯(lián),輸入多樣性值今阳、sample-medata师溅,輸出統(tǒng)計結果,統(tǒng)計faith_pd算法Alpha多樣性組間差異是否顯著

qiime diversity alpha-group-significance \
  --i-alpha-diversity core-metrics-results/faith_pd_vector.qza \
  --m-metadata-file sample-metadata.txt \
  --o-visualization core-metrics-results/faith-pd-group-significance.qzv

# 統(tǒng)計evenness組間差異是否顯著
qiime diversity alpha-group-significance \
  --i-alpha-diversity core-metrics-results/evenness_vector.qza \
  --m-metadata-file sample-metadata.txt \
  --o-visualization core-metrics-results/evenness-group-significance.qzv

以evenness-group-significance.qzv為例盾舌,圖中可點Category選擇分類方法险胰,查看不同分組下箱線圖間的分布與差別。圖形下面的表格矿筝,詳細詳述組間比較的顯著性和假陽性率統(tǒng)計。

image-20240112162721287.png

發(fā)現(xiàn) Alpha 多樣性和 我們的分組沒啥關系棚贾,P值不顯著

5.3 Beta 多樣性分析

β多樣性是度量不同樣本間菌群組成的相似度大小的指標窖维,即關注各樣本間的菌群組成差異榆综。

# 統(tǒng)計group 的組間是否有顯著差異,其他的分組分析類似。
qiime diversity beta-group-significance \
  --i-distance-matrix core-metrics-results/unweighted_unifrac_distance_matrix.qza \
  --m-metadata-file sample-metadata.txt \
  --m-metadata-column Group \
  --o-visualization core-metrics-results/unweighted-unifrac-subject-significance.qzv \
  --p-pairwise

可視化結果:

image-20240112164145396.png

發(fā)現(xiàn)有P值铸史。

# 可視化三維展示其它類鼻疮,定量值的 分析
qiime emperor plot \
  --i-pcoa core-metrics-results/unweighted_unifrac_pcoa_results.qza \
  --m-metadata-file sample-metadata.txt \
  --p-custom-axes weight \
  --o-visualization core-metrics-results/unweighted-unifrac-emperor-weight.qzv

我們這里演示的數(shù)據(jù)集沒有,跳過傲宜。

5.4 Alpha rarefaction plotting

# --p-max-depth should be determined by reviewing the “Frequency per sample” information presented in the table.qzv file
# --p-max-depth一般取table.qzv文件Frequency per sample的中位數(shù)左右
qiime diversity alpha-rarefaction \
  --i-table table.qza \
  --i-phylogeny rooted-tree.qza \
  --p-max-depth 31131 \
  --m-metadata-file sample-metadata.txt \
  --o-visualization alpha-rarefaction.qzv

可視化將有兩個圖簇爆。頂部圖是α稀疏圖唾糯,主要用于確定樣品的豐富度是否已被完全觀察或測序。如果圖中的線在沿x軸的某個采樣深度處看起來“平坦化”(即接近零斜率)挪哄,則表明收集超出該采樣深度的其他序列將不可能會有其他的OTU(feature)產(chǎn)生。如果圖中的線條沒有達到平衡琉闪,這可能是因為尚未完全觀察到樣品的豐富程度(因為收集的序列太少)迹炼,或者它可能表明在數(shù)據(jù)中存在大量的測序錯誤(被誤認為是新的多樣性)。底部圖表示當特征表稀疏到每個采樣深度時每個組中保留的樣本數(shù)颠毙。樣本被分成兩組,圖中顯示即兩條線.

image-20240112170242915.png

6 菌群比對數(shù)據(jù)庫:引物特異性菌群比對

Greengenes細菌16S全長序列數(shù)據(jù)庫

下載地址:Data resources — QIIME 2 2023.9.2 documentation

image-20240112211049880.png

下載得到gg_13_8_otus.tar.gz后將其解壓,具體使用gg_13_8_otus/rep_set 下99_otus.fasta(序列)和taxonomy/99_otu_taxonomy.txt(分類)兩個文件

tar -zxvf gg_13_8_otus.tar.gz 

6.1. 轉換格式

#將99_otus.fasta(序列)和99_otu_taxonomy.txt(分類)兩個文件的格式轉換QIIME2能識別和利用的格式

qiime tools import \
  --type 'FeatureData[Sequence]' \
  --input-path gg_13_8_otus/rep_set/99_otus.fasta \
  --output-path 99_otus.qza

qiime tools import \
  --type 'FeatureData[Taxonomy]' \
  --input-format HeaderlessTSVTaxonomyFormat \
  --input-path gg_13_8_otus/taxonomy/99_otu_taxonomy.txt \
  --output-path 99-taxonomy.qza

6.2. 抽提V3V4模板序列

用測序引物序列從Greengenes數(shù)據(jù)庫中的16S全長序列99_otus.qza中抽提出引物特異性的細菌參考序列斯入,就會得到本研究特異性的參考序列

qiime feature-classifier extract-reads \
  --i-sequences 99_otus.qza \
  --p-f-primer CCTACGGGNGGCWGCAG \
  --p-r-primer GACTACHVGGGTATCTAATCC \
  --o-reads 99-v3v4-seqs.qza

大概20分鐘

6.3. 訓練V3V4分類器

qiime feature-classifier fit-classifier-naive-bayes \
  --i-reference-reads 99-v3v4-seqs.qza \
  --i-reference-taxonomy 99-taxonomy.qza \
  --o-classifier gg-13-8-99-v3v4-classifier.qza

大概20分鐘 等待中~

7 菌群特征比對,分類學注釋

7.1. 比對

把DADA2分析得到的細菌特征代表性序列rep-seqs.qza和訓練好的分類器gg-13-8-99-v3v4-classifier.qza進行比對蛀蜜,獲得具體的細菌分類信息taxonomy.qza

qiime feature-classifier classify-sklearn \
  --i-classifier gg-13-8-99-v3v4-classifier.qza \
  --i-reads rep-seqs.qza \
  --o-classification taxonomy.qza

7.2. 豐度統(tǒng)計

將細菌特征豐度表table.qza和細菌分類信息taxonomy.qza進行整合獲得完整的細菌分類豐度表刻两,包含界、門滴某、綱磅摹、目、科壮池、屬偏瓤、種多水平的細菌豐度信息

qiime taxa barplot \
  --i-table table.qza \
  --i-taxonomy taxonomy.qza \
  --m-metadata-file sample-metadata.txt \
  --o-visualization taxa-bar-plots.qzv

8 數(shù)據(jù)處理: 獲取菌屬分類表

8.1. 獲取屬水平菌豐度表

QIIME2 view網(wǎng)頁中打開taxa-bar-plots.qzv,下載level6的CSV文件椰憋,如下:

image-20240112221927743.png

8.2. 標準化菌屬豐度表

把CSV文件導入到Excel中進行標準化厅克,即每個菌屬的原始豐度除以該菌所在樣本的總菌屬豐度得到標準相對菌屬相對豐度

image-20240112222303753.png
?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市橙依,隨后出現(xiàn)的幾起案子证舟,更是在濱河造成了極大的恐慌,老刑警劉巖窗骑,帶你破解...
    沈念sama閱讀 206,013評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件女责,死亡現(xiàn)場離奇詭異,居然都是意外死亡创译,警方通過查閱死者的電腦和手機抵知,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,205評論 2 382
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人刷喜,你說我怎么就攤上這事残制。” “怎么了掖疮?”我有些...
    開封第一講書人閱讀 152,370評論 0 342
  • 文/不壞的土叔 我叫張陵初茶,是天一觀的道長。 經(jīng)常有香客問我浊闪,道長恼布,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,168評論 1 278
  • 正文 為了忘掉前任搁宾,我火速辦了婚禮折汞,結果婚禮上,老公的妹妹穿的比我還像新娘猛铅。我一直安慰自己字支,他們只是感情好,可當我...
    茶點故事閱讀 64,153評論 5 371
  • 文/花漫 我一把揭開白布奸忽。 她就那樣靜靜地躺著堕伪,像睡著了一般。 火紅的嫁衣襯著肌膚如雪栗菜。 梳的紋絲不亂的頭發(fā)上欠雌,一...
    開封第一講書人閱讀 48,954評論 1 283
  • 那天,我揣著相機與錄音疙筹,去河邊找鬼富俄。 笑死,一個胖子當著我的面吹牛而咆,可吹牛的內(nèi)容都是我干的霍比。 我是一名探鬼主播,決...
    沈念sama閱讀 38,271評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼暴备,長吁一口氣:“原來是場噩夢啊……” “哼悠瞬!你這毒婦竟也來了?” 一聲冷哼從身側響起涯捻,我...
    開封第一講書人閱讀 36,916評論 0 259
  • 序言:老撾萬榮一對情侶失蹤浅妆,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后障癌,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體凌外,經(jīng)...
    沈念sama閱讀 43,382評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,877評論 2 323
  • 正文 我和宋清朗相戀三年涛浙,在試婚紗的時候發(fā)現(xiàn)自己被綠了康辑。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片摄欲。...
    茶點故事閱讀 37,989評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖疮薇,靈堂內(nèi)的尸體忽然破棺而出蒿涎,到底是詐尸還是另有隱情,我是刑警寧澤惦辛,帶...
    沈念sama閱讀 33,624評論 4 322
  • 正文 年R本政府宣布,位于F島的核電站仓手,受9級特大地震影響胖齐,放射性物質發(fā)生泄漏。R本人自食惡果不足惜嗽冒,卻給世界環(huán)境...
    茶點故事閱讀 39,209評論 3 307
  • 文/蒙蒙 一呀伙、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧添坊,春花似錦剿另、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,199評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至阳准,卻和暖如春氛堕,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背野蝇。 一陣腳步聲響...
    開封第一講書人閱讀 31,418評論 1 260
  • 我被黑心中介騙來泰國打工讼稚, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人绕沈。 一個月前我還...
    沈念sama閱讀 45,401評論 2 352
  • 正文 我出身青樓锐想,卻偏偏與公主長得像,于是被迫代替她去往敵國和親乍狐。 傳聞我的和親對象是個殘疾皇子赠摇,可洞房花燭夜當晚...
    茶點故事閱讀 42,700評論 2 345

推薦閱讀更多精彩內(nèi)容