摘要
人類微生物組由以細(xì)菌為主的微生物群的集體基因組組成,這些微生物生活在人體的各個(gè)部位垦梆,其中腸道包含更多的微生物群画拾。由于缺乏用于分離非培養(yǎng)微生物的科學(xué)工具,腸道微生物組的最重要特性尚不清楚夺谁。隨著分子測(cè)序工具和技術(shù)的迅速發(fā)展廉赔,腸道微生物組在人類微生物組的研究過(guò)程中取得了長(zhǎng)足的進(jìn)步。這些發(fā)現(xiàn)揭示了在重組和改革疾病病理與藥物方面有著非凡未來(lái)的可能性匾鸥。新的科學(xué)方法蜡塌,如通過(guò)二代測(cè)序的宏基因組工具,為基于腸道微生物組的新型療法鋪平了道路勿负。在這里馏艾,本文概述了腸道菌群的生活方式及其在人類健康中的作用,并詳細(xì)闡述了腸道宏基因組實(shí)驗(yàn)工具及其研究設(shè)計(jì)奴愉。
前言
腸道微生物非常豐富
地球上存在的微生物數(shù)量十分龐大琅摩,遠(yuǎn)遠(yuǎn)超過(guò)了宏觀生物的數(shù)量。人類微生物群本身包含約1013到1014個(gè)微生物細(xì)胞锭硼。腸道中的微生物群是最多的房资,每克濕重大約有1011個(gè)細(xì)菌,主要包括厚壁菌門(mén)檀头、擬桿菌門(mén)和放線菌門(mén)轰异。然而,眾所周知暑始,腸道菌群在調(diào)節(jié)宿主生理和代謝功能方面發(fā)揮著重要作用搭独。
從顯微鏡到基因顯微鏡
微生物研究已經(jīng)從顯微鏡觀察轉(zhuǎn)向分子研究。宏基因組學(xué)等高通量研究為微生物學(xué)領(lǐng)域的發(fā)展提供了新的知識(shí)廊镜,并為了解人類微生物組的結(jié)構(gòu)和功能提供了新的思路牙肝。然而,腸道是人體中微生物定居密度最高的生態(tài)系統(tǒng),與宿主保持著有益的相互作用惊奇。盡管腸道菌群在宿主免疫系統(tǒng)和宿主發(fā)育中的重要性和影響是公認(rèn)的互躬,但其復(fù)雜性是獨(dú)特和新穎的。
通過(guò)形成生物膜在腸道中建立微生物群
微生物群以生物膜的形式存在于腸道黏膜上颂郎。包裹在聚合物外膜中的細(xì)菌群落被稱為生物膜吼渡。然而,腸道細(xì)菌可能會(huì)附著于結(jié)腸的黏液乓序,利用宿主黏液作為基質(zhì)寺酪,并建立生物膜。生物膜微生物群可以轉(zhuǎn)變?yōu)槟c腔內(nèi)的游離浮游細(xì)菌替劈。通過(guò)形成生物膜在腸黏膜上定居的微生物群表現(xiàn)出定植抗性寄雀,即阻止病原體的定植。細(xì)菌的定植抗性是通過(guò)菌群排斥陨献、調(diào)節(jié)pH值盒犹、產(chǎn)生抗生素或抑制病原菌的毒力等機(jī)制實(shí)現(xiàn)的。它幫助腸道生物膜保持水分眨业,抵御抗生素和其他不利條件急膀,并有助于基因的水平轉(zhuǎn)移。腸道菌群利用絲氨酸富集重復(fù)蛋白等表面黏附素來(lái)形成生物膜龄捡,有助于腸道內(nèi)生態(tài)位的選擇卓嫂。編碼運(yùn)動(dòng)、菌毛聘殖、基質(zhì)和黏附蛋白的基因是生物膜形成的重要組成部分晨雳。
****腸道宏基因組學(xué)實(shí)驗(yàn)工具****
實(shí)驗(yàn)/研究設(shè)計(jì)一個(gè)好的實(shí)驗(yàn)或研究設(shè)計(jì)有助于減少在宏基因組研究中常見(jiàn)的錯(cuò)誤和不一致的結(jié)果〖橄伲總的來(lái)說(shuō)餐禁,任何生物學(xué)問(wèn)題都應(yīng)首先通過(guò)試點(diǎn)/小規(guī)模研究和仔細(xì)的文獻(xiàn)調(diào)查來(lái)進(jìn)行深入探索,這是避免歧義的必要條件洋机。簡(jiǎn)化宏基因組研究包括樣本數(shù)量坠宴、病例對(duì)照、隨機(jī)對(duì)照試驗(yàn)(RCT)绷旗、橫斷面和縱向樣本、元數(shù)據(jù)等副砍,這些都有助于科學(xué)界推進(jìn)大數(shù)據(jù)處理衔肢,并消除混雜效應(yīng)。值得注意的是豁翎,在臨床試驗(yàn)中獲得合適的對(duì)照樣本非常具有挑戰(zhàn)性角骤,因?yàn)槲⑸镓?fù)荷在很大程度上受到性別、年齡、地理位置邦尊、種族背桐、飲食和生活方式的影響。此外蝉揍,微生物組研究可能受到核酸提取試劑盒链峭、采樣方法、污染和測(cè)序方法等實(shí)驗(yàn)因素的影響又沾,通過(guò)計(jì)數(shù)陽(yáng)性和陰性對(duì)照樣本可以減輕這些影響弊仪。然而,一個(gè)良好的研究應(yīng)該設(shè)計(jì)適當(dāng)?shù)目刂坪陀涗洷M可能多的元數(shù)據(jù)特征杖刷,這將有助于避免對(duì)結(jié)果的錯(cuò)誤解釋励饵,并突出單個(gè)因素的實(shí)際影響。此外滑燃,一項(xiàng)橫斷面宏基因組研究整合了兩組之間的比較役听,例如健康組與疾病組和/或安慰劑組與治療組(圖1)。眾所周知表窘,影響微生物群的環(huán)境因素可能會(huì)導(dǎo)致各種相加或相乘效應(yīng)禾嫉。因此,設(shè)計(jì)縱向研究時(shí)應(yīng)滿足統(tǒng)計(jì)學(xué)觀點(diǎn)蚊丐,即在不同時(shí)間點(diǎn)收集的相同樣本有助于避免實(shí)驗(yàn)偏倚熙参。
圖1.研究人類腸道宏基因組學(xué)的實(shí)驗(yàn)設(shè)計(jì)和測(cè)序方法示意圖。
樣品類型麦备、收集孽椰、處理和分析
微生物群落分析的樣本類型選擇將受到基礎(chǔ)研究問(wèn)題的驅(qū)動(dòng)。例如凛篙,大多數(shù)人類腸道宏基因組研究都集中在糞便樣本上黍匾,這些樣本的收集步驟簡(jiǎn)單,可用于縱向研究的分析呛梆。另外锐涯,活檢樣本更有利于了解宿主-微生物群的相互作用。因此填物,收集樣本的位置和數(shù)量對(duì)于最終結(jié)果至關(guān)重要纹腌。此外,在收集和處理樣本過(guò)程中還應(yīng)考慮污染滞磺、運(yùn)輸升薯、儲(chǔ)存和安全等后續(xù)參數(shù)。樣本保存和儲(chǔ)存應(yīng)根據(jù)樣本類型和研究設(shè)計(jì)而定击困。建議在采集后15分鐘內(nèi)將樣本冷凍并儲(chǔ)存在-20℃下涎劈,然后在24小時(shí)內(nèi)用干冰運(yùn)輸?shù)綄?shí)驗(yàn)室,并存儲(chǔ)在-80℃下,直到進(jìn)一步處理蛛枚。核酸(DNA/RNA)提取方法的選擇對(duì)于任何微生物群落的宏基因組大數(shù)據(jù)分析的質(zhì)量和完整性非常重要谅海。應(yīng)采用有效的方法從所有類型的微生物中提取DNA。特別是革蘭氏陽(yáng)性菌和芽孢形成菌蹦浦,由于其肽聚糖層和孢子外殼較厚扭吁,因而變得僵化且易于破裂。為了打破細(xì)胞壁白筹,將采用兩種主要的提取方法:(1)珠磨/機(jī)械破裂和(2)化學(xué)裂解智末。
二代測(cè)序技術(shù)靶向擴(kuò)增子微生物測(cè)序包括細(xì)菌16S rDNA和真菌18S rDNA/ITS基因的核糖體小亞基作為系統(tǒng)發(fā)育標(biāo)記來(lái)研究微生物群落(圖1)。這些方法有助于科學(xué)界監(jiān)測(cè)微生物群的時(shí)空動(dòng)態(tài)徒河,而不需要生成其他序列數(shù)據(jù)系馆。鳥(niǎo)槍法宏基因組學(xué)研究的目標(biāo)是提取DNA的深層和完整序列,這提供了所選樣本的多樣性和功能特性顽照。微生物組和宏基因組研究使用了幾種測(cè)序平臺(tái)由蘑,包括Sanger法(毛細(xì)管電泳)、羅氏454代兵、基因組測(cè)序GS尼酿、FLX和FLX Titanium(焦磷酸測(cè)序)、Illumina GAIIx和HiSeq 2000植影,以及Nanopore(牛津納米孔)裳擎。如表1所示,每個(gè)測(cè)序平臺(tái)都是根據(jù)微生物群動(dòng)態(tài)及其功能特性的需要進(jìn)行選擇的思币。大多數(shù)的微生物群動(dòng)態(tài)研究都使用了Illumina平臺(tái)鹿响。
表1.微生物測(cè)序平臺(tái)比較。
****腸道宏基因組生物信息學(xué)工具****
原始讀取的預(yù)處理預(yù)處理是宏基因組測(cè)序分析的一個(gè)關(guān)鍵前提步驟谷饿,涉及到質(zhì)量修剪和污染去除惶我。用于質(zhì)量修剪的計(jì)算工具可檢測(cè)并高效刪除原始讀取中的以下序列細(xì)節(jié),包括低質(zhì)量博投、適配體和與宿主相關(guān)的序列污染绸贡。一般而言,會(huì)在這個(gè)質(zhì)量修剪步驟中刪除懷疑存在高度錯(cuò)誤的序列毅哗。用于識(shí)別真實(shí)DNA片段并去除測(cè)序偽影響的參數(shù)包括平均質(zhì)量分?jǐn)?shù)听怕、同源多聚體長(zhǎng)度、引物不匹配數(shù)量和已測(cè)試序列的長(zhǎng)度黎做。使用FASTQC工具來(lái)檢查原始讀取的質(zhì)量叉跛,其中包括序列分布、引物二聚體蒸殿、GC含量和適配體序列的存在。為了從原始文件中修剪低質(zhì)量的讀取和適配體序列,自2012年以來(lái)就開(kāi)發(fā)并使用了sickle宏所、cutadapt和AdapterRemoval工具酥艳。此外,為了提高原始讀取的質(zhì)量爬骤,研究者們開(kāi)發(fā)了各種算法和工具充石,包括Trimmomatic、seqtk霞玄、ea-utils骤铃、FASTX-toolkit、BBTools坷剧、Knead-data等惰爬。Knead-data工具集成了Trimmomatic用于去除低質(zhì)量讀取,bowtie2和Burrows-Wheeler Aligner(BWA)用于映射和去除宿主污染惫企。一般來(lái)說(shuō)撕瞧,建議使用大于25的良好質(zhì)量分?jǐn)?shù)進(jìn)行讀取修剪。對(duì)于擴(kuò)增子文庫(kù)狞尔,建議使用定義的質(zhì)量分?jǐn)?shù)沿5'端進(jìn)行修剪丛版。對(duì)于鳥(niǎo)槍文庫(kù),在進(jìn)行質(zhì)量修剪之前偏序,強(qiáng)烈建議先通過(guò)bowtie2或BWA去除宿主污染页畦。在獲得經(jīng)過(guò)質(zhì)量檢查的DNA序列后,必須按順序進(jìn)行分析和解釋研儒。龐大的序列數(shù)據(jù)需要復(fù)雜的生物信息學(xué)分析工具豫缨;在這里,本文區(qū)分了靶向擴(kuò)增子和鳥(niǎo)槍法宏基因組數(shù)據(jù)的計(jì)算分析殉摔,如圖2所示州胳。
圖2.用于研究人類腸道宏基因組學(xué)的生物信息學(xué)工具示意圖。
擴(kuò)增子分析
靶向擴(kuò)增子序列分析中一個(gè)值得關(guān)注的問(wèn)題是區(qū)分真實(shí)序列和讀取錯(cuò)誤序列逸月。為了克服這些困難栓撞,主要使用了以下工具。首先碗硬,開(kāi)發(fā)并使用了QIIME瓤湘、Mothur和VAMPS工具,通過(guò)預(yù)定義的相似性閾值聚類進(jìn)行讀取(97%相似性-操作分類單元(OUT))恩尾。這些工具允許研究人員使用大量的DNA序列數(shù)據(jù)來(lái)比較和分析微生物群動(dòng)態(tài)弛说。另外,QIIME2翰意、DADA2木人、Deblur信柿、MED和UNOISE工具在擴(kuò)增和測(cè)序之前進(jìn)行生物序列去噪處理,并提供擴(kuò)增子序列變體(ASV)醒第。所有上述工具都可以作為Galaxy和Qiita的圖形用戶界面(GUI)和命令行界面(CLI)使用渔嚷。
選擇具有代表性的序列是擴(kuò)增子分析的關(guān)鍵步驟。操作分類單元(OUT)是在21世紀(jì)初開(kāi)發(fā)的稠曼,基于該方法的早期工具有DOTUR和SONS形病。隨著時(shí)間的推移,人們開(kāi)發(fā)了許多算法來(lái)研究各種微生物群落霞幅。最流行的OTU聚類算法基于貪婪啟發(fā)式方法漠吻。與OTU方法相比,該方法的主要優(yōu)點(diǎn)是在大于97%相似性的聚類過(guò)程所需的計(jì)算力較小司恳,缺點(diǎn)是聚類是基于97%或99%途乃,因此該方法識(shí)別出的生物變異較小,分類識(shí)別的種類少抵赢。為了克服這個(gè)問(wèn)題欺劳,2013年引入了另一種方法,稱為“寡核苷酸分型(Oligotyping)”铅鲤,可以識(shí)別一個(gè)核苷酸變化的序列划提。此后,它被開(kāi)發(fā)并重命名為擴(kuò)增子序列變體(ASV)或精確序列變體(ESV)邢享,并取代了基于OTU的方法鹏往。ASV方法能夠在單核苷酸水平上區(qū)分序列『粒基于該算法的常用工具有DADA2伊履、Deblur和qiime2等。無(wú)論采用哪種方法款违,最終的輸出都將是一個(gè)特征表或豐度表唐瀑,其中包含特定樣本的特征序列頻率。這個(gè)特征表可以進(jìn)一步與分類聯(lián)系起來(lái)插爹,以發(fā)現(xiàn)從界到物種水平的豐度哄辣。
擴(kuò)增子分析從去除嵌合體和預(yù)處理后的解復(fù)用開(kāi)始。解復(fù)用是將讀取的數(shù)據(jù)根據(jù)條形碼分組的步驟赠尾。表2給出了用于序列解復(fù)用的各種函數(shù)/腳本力穗。
表2.預(yù)處理腳本列表。
嵌合體是在聚合酶鏈反應(yīng)(PCR)過(guò)程中獲得的不匹配和不需要的序列气嫁,通常發(fā)生在使用混合模板時(shí)当窗。因此,在注釋過(guò)程之前需要?jiǎng)h除嵌合體序列寸宵,否則它們可能顯示出錯(cuò)誤的多樣性或錯(cuò)誤地識(shí)別為特定環(huán)境中原本不存在的分類單元崖面。為此元咙,大多數(shù)流程和工具都已加入了用于檢測(cè)和去除嵌合體讀取的自有腳本(表3)。
表3.用于刪除嵌合體讀取的腳本列表嘶朱。
通常蛾坯,擴(kuò)增子序列被用于檢測(cè)微生物的多樣性和組成光酣。然而疏遏,也有許多工具被開(kāi)發(fā)并用于功能預(yù)測(cè)。PiCrust就是其一救军,它基于greengenes數(shù)據(jù)庫(kù)的OTU表開(kāi)發(fā)财异,可以通過(guò)KEGG通路預(yù)測(cè)功能組成。新開(kāi)發(fā)和改進(jìn)的版本Picrust2具有類似的背景唱遭,但可以使用ASV和OTU表戳寸。Tax4Fun是一個(gè)R包,可以通過(guò)KEGG和SILVA數(shù)據(jù)庫(kù)預(yù)測(cè)功能通路拷泽。
鳥(niǎo)槍法分析
與基于擴(kuò)增子的序列分析相比疫鹊,鳥(niǎo)槍法宏基因組分析可以提供更多的功能信息和更深入的分類學(xué)解析度。然而司致,由于數(shù)據(jù)集龐大拆吆,分析需要較高的計(jì)算能力,并且大多數(shù)工具是在Linux/Mac操作系統(tǒng)環(huán)境下實(shí)現(xiàn)的脂矫。在預(yù)處理之后枣耀,鳥(niǎo)槍法分析的重要步驟是使用基于讀取或組裝的方法生成分類和功能表。在基于讀取的方法中庭再,主要采用MetaPhLan工具(基于分支特異性標(biāo)記基因)進(jìn)行分類注釋捞奕。在Galaxy的CLI和GUI中都可以使用MetaPhLan。用戶可以構(gòu)建自定義的分類數(shù)據(jù)庫(kù)拄轻,并使用DIAMOND颅围、Bowtie2、BWA恨搓、Blast+和kASA等比對(duì)工具院促。此外,還可以使用基于min hash方法的工具(如Metalign)和基于k-mer方法的工具(如MetaCache)進(jìn)行注釋奶卓。
組裝
組裝是將讀取序列拼接成更長(zhǎng)片段的過(guò)程一疯。值得注意的是,這些算法最初是為全基因組組裝而開(kāi)發(fā)的夺姑,但后來(lái)得到了更廣泛的應(yīng)用墩邀。組裝算法的選擇對(duì)于進(jìn)一步分析至關(guān)重要。典型的宏基因組序列組裝常用算法包括Velvet盏浙、IDBA-UD眉睹、MegaHIT荔茬、METASpades、RayMETA竹海、MetaVelvet慕蔚、SOAPDenovo2和Omega。所有這些宏基因組組裝算法都是基于De Bruijn圖(開(kāi)源軟件)斋配。組裝讀取后孔飒,會(huì)進(jìn)行歸類(binning),將組裝好的contigs分配到微生物基因組的單個(gè)組艰争。有兩種歸類方法坏瞄,一種是基于分類的binning,使用Bowtie2甩卓、BWA鸠匀、Blast+和kASA等比對(duì)工具將組裝的contigs與參考數(shù)據(jù)庫(kù)進(jìn)行比對(duì)。另一種是基于機(jī)器學(xué)習(xí)方法的基因組binning逾柿,無(wú)需參考數(shù)據(jù)庫(kù)進(jìn)行比對(duì)缀棍。從DNA序列到微生物物種多樣性分析,主要基于屬/種或OTU的生態(tài)指標(biāo)机错。這些可以通過(guò)使用外部信息(denovo OUT或基于參考的OTU選擇方法(greengenes或SILVA))對(duì)序列進(jìn)行聚類來(lái)實(shí)現(xiàn)爬范。
基因組分類有三種方法,即基于序列毡熏、基于差異豐度和混合方法坦敌。目前使用的分類工具,如MaxBin2痢法、GroopM和Metabat2狱窘,都是基于混合方法。在進(jìn)行分類注釋之前财搁,使用CheckM檢查分類文件蘸炸,該工具使用標(biāo)記數(shù)據(jù)庫(kù)評(píng)估文件。之后尖奔,可以使用各種分類注釋工具搭儒,如prokka、Kraken和Kraken2(基于k-mer和LCA算法)提茁、CAT和BAT(也基于LCA)以及Prodigal淹禾。MEGAN是一種圖形用戶界面,可用于對(duì)讀取進(jìn)行分類和功能注釋茴扁。功能注釋是將干凈的原始讀取與數(shù)據(jù)庫(kù)(KEGG和Metacyc等)進(jìn)行匹配的過(guò)程铃岔。可以使用Humann3工具進(jìn)行注釋峭火。此外毁习,如果進(jìn)行了新的測(cè)序智嚷,也可以執(zhí)行prokka。
多樣性測(cè)量
多樣性測(cè)量是下游分析之一纺且,它可以提供樣本的多樣性程度盏道,被細(xì)分為alpha多樣性和beta多樣性。alpha多樣性定義為樣本內(nèi)的多樣性载碌,取決于物種的豐富度和均勻度猜嘱。豐富度定義為樣本中存在的物種總數(shù)。最簡(jiǎn)單的指數(shù)是Observed恐仑,其他指數(shù)如ACE和Chao1泉坐,也可用于測(cè)量豐富度。均勻度主要是指物種的豐度裳仆。Shannon和Pielou等指數(shù)可用于測(cè)量均勻度。當(dāng)測(cè)量方法取決于物種之間的系統(tǒng)發(fā)育關(guān)系時(shí)孤钦,也可采用基于系統(tǒng)發(fā)育的alpha多樣性歧斟。Faith PD是基于系統(tǒng)發(fā)育的alpha多樣性的最佳示例,它連接了樣本中所有可用物種的分支長(zhǎng)度之和偏形。
另一個(gè)可用的多樣性指標(biāo)是beta多樣性静袖,它提供了樣本之間的差異。最常用的多樣性指數(shù)包括Bray-Curtis相異度俊扭、Jaccard指數(shù)队橙、Aitchison距離和Unifrac距離。無(wú)論使用哪種beta多樣性指數(shù)萨惑,最終輸出的都是距離矩陣表捐康,需要在排序圖中進(jìn)行可視化。排序用于降低數(shù)據(jù)集的維度庸蔼,從而進(jìn)一步用于可視化解总。最常用的可視化方法包括主成分分析(PCA)、度量多維尺度(MDS)姐仅、非度量多維尺度(NDMS)和主坐標(biāo)分析(PCoA)花枫。最近開(kāi)發(fā)的排序圖t-SNE和UMAP也可用于微生物組分析。對(duì)于擴(kuò)增子文庫(kù)掏膏,qiime2具有專屬alpha和beta多樣性分析工具劳翰。此外,還可以使用“qiime2R”包將qiime2文件導(dǎo)入到R中馒疹,并使用“vegan”佳簸、“phyloseq”和“microbiome”等軟件包生成距離矩陣和排序圖。對(duì)于基于參考序列的鳥(niǎo)槍法文庫(kù)行冰,已經(jīng)生成并發(fā)布了各種自制的R腳本/Python模塊溺蕉,用于導(dǎo)入數(shù)據(jù)并生成多樣性指數(shù)伶丐。用于多樣性分析的常用R包有“phyloseq”、“vegan”疯特、“microbiome”和“mia”哗魂。
參考文獻(xiàn):
Sreevatshan, K.S., Nair, V.G., Srinandan, C.S., Malli Mohan, G.B. (2022). Tools to Study Gut Microbiome. https://doi.org/10.1007/978-981-19-4530-4_15
更多資訊請(qǐng)關(guān)注茗創(chuàng)科技