Cell子刊:成年同卵雙胞胎的病毒組多樣性與腸道微生物組多樣性相關(guān)

文章目錄
CHM:成年同卵雙胞胎的病毒組多樣性與腸道微生物組多樣性相關(guān)
熱心腸日報
研究總結(jié)
研究背景
研究結(jié)果
選擇微生物組一致或者不一致的同卵雙胞胎
類病毒顆粒(VLPs)的鳥槍法宏基因組測序
識別推定的細菌污染
功能組成支持病毒在類病毒顆粒純化中的富集
病毒組是個體獨特的
微生物組具有一致性的雙胞胎共享病毒類型
在腸道病毒組中噬菌體占優(yōu)勢
病毒多樣性與微生物多樣性相關(guān)
α-多樣性
β-多樣性
研究討論
研究方法
糞便樣品
從人類糞便樣品中分離類病毒樣顆粒
病毒DNA鳥槍法測序
全部糞便樣品的宏基因組鳥槍法測序
細菌污染的評估
功能組成
從頭組裝
HMM注釋
物種組成
噬菌體-宿主相互作用的預(yù)測
多樣性指數(shù)
統(tǒng)計分析
拓展閱讀
猜你喜歡
寫在后面
CHM:成年同卵雙胞胎的病毒組多樣性與腸道微生物組多樣性相關(guān)
Virome Diversity Correlates with Intestinal Microbiome Diversity in Adult Monozygotic Twins

翻譯:秋芒樹 英國帝國理工學(xué)院

責(zé)編:劉永鑫 中科院遺傳發(fā)育所

原文鏈接:https://www.sciencedirect.com/science/article/pii/S1931312819300599

Cell Host and Microbe [IF:17.872]

DOI: 10.1016/j.chom.2019.01.019

Resource 2019-02-13

圖形摘要:病毒組仍然是微生物組中相對未被探索的組分犬庇。Moreno-Gallego和Chou等人韩肝,在沒有考慮宿主遺傳變量的情況下夜只,研究了同卵雙胞胎的病毒組迷守,探究微生物多樣性如何與病毒組多樣性相關(guān)镰吵。按微生物組一致性的高或低對同卵雙胞胎進行分類檩禾,揭示了與病毒組的相關(guān)性。

熱心腸日報
鏈接:https://www.mr-gut.cn/papers/read/1087944415

Cell子刊:腸道菌群可預(yù)測病毒組結(jié)構(gòu)

創(chuàng)作:米見對 審核:小腸君 03月01日

原標題:病毒多樣性與成年同卵雙胞胎腸道菌群多樣性的關(guān)聯(lián)

在21對有相似或不同腸道菌群多樣性的成人同卵雙胞胎中疤祭,腸道病毒組具有高度特異的個體差異型盼产;

噬菌體在腸道病毒組中占優(yōu)勢地位,主要為長尾噬菌體目勺馆、微小噬菌體科戏售、短尾病毒科和長尾病毒科;

菌群的豐度和多樣性與病毒的豐富度和多樣性存在對應(yīng)性草穆,與菌群相似的雙胞胎相比灌灾,菌群不同的雙胞胎有更多不同的病毒,菌群的多樣性越高悲柱,病毒組亦然锋喜;

病毒組的多樣性模式由噬菌體驅(qū)動,而非真核病毒豌鸡;

腸道菌群結(jié)構(gòu)可用于預(yù)測病毒組結(jié)構(gòu)嘿般。

主編評語:人類腸道病毒組具有高度變異性。本研究通過比較同卵成年雙胞胎的腸道菌群與病毒組多樣性之間的關(guān)聯(lián)涯冠,發(fā)現(xiàn)盡管病毒組具有高度宿主特異性炉奴,其結(jié)構(gòu)和多樣性與腸道菌群存在對應(yīng)關(guān)系,并強調(diào)了噬菌體在腸道病毒組中的核心作用蛇更,值得參考瞻赶。

研究總結(jié)
病毒組是人類腸道微生物子中最可變的組分之一。在雙胞胎中派任,病毒組是相似的共耍,但成年人卻不一樣,這表明隨著雙胞胎年齡的增長吨瞎,他們的環(huán)境和微生物組發(fā)生分歧(diverge)痹兜,病毒組也一樣發(fā)生分歧(diverge)。微生物組在多大程度上驅(qū)動了巨大的病毒組多樣性尚不清楚颤诀。在這個研究中字旭,我們研究了21對成年同卵雙胞胎中微生物組和病毒組多樣性之間的關(guān)系对湃,這些雙胞胎按微生物組一致性的高或低來分類。源自類病毒顆粒(virus-like particles)的病毒組對于每個個體都是獨一無二的遗淳,Caudovirales 和 Microviridae 占優(yōu)勢拍柒,并顯示出包含crAssphage的小核心(small core)。與微生物組具有一致性的雙胞胎相比屈暗,在不具有一致性的雙胞胎中顯示出拆讯,微生物組越豐富,病毒組就越豐富养叛。這些模式是由噬菌體而不是真核病毒驅(qū)動的种呐。總的來說弃甥,這些觀察支持微生物組在病毒組模式中的強大作用爽室。

研究背景
人類腸道微生物組由大量的細菌,連同少數(shù)古菌和真核細胞淆攻,共同形成一個密度非常高的微生態(tài)系統(tǒng)(每克糞便1011 - 1012個細胞) 阔墩。微生物組的細胞和病毒組的成分(每克糞便中109 - 1012個類病毒顆粒(virus-like particles)的比例大致相等。病毒組主要由噬菌體和溶源噬菌體組成瓶珊,也包括更罕見的真核病毒和內(nèi)源性逆轉(zhuǎn)錄病毒啸箫。目前,大多數(shù)噬菌體在數(shù)據(jù)庫中沒有匹配伞芹,它們的宿主仍有待闡明忘苛。將噬菌體與宿主相匹配是一項挑戰(zhàn):例如,最常見的人類腸道噬菌體——crAssphage——的宿主最近才被鑒定為Bacteroides的物種丑瞧。除了對宿主的鑒定柑土,還存在其他問題,比如塑造病毒組最重要的因素绊汹,以及微生物組的細胞部分對病毒組的預(yù)測程度稽屏。

普遍認為噬菌體及其宿主在時間序列上的種群動態(tài)可能是相關(guān)聯(lián)的。事實上西乖,研究者描述過水生系統(tǒng)中的病毒及其細菌宿主的群體振蕩狐榔,這些研究表明病毒在調(diào)節(jié)細菌種群(population)方面起關(guān)鍵性作用。但是這種捕食者-被捕食者模式(predator-prey)對于人類腸道病毒組和微生物組中并不典型获雕。為了清楚起見薄腻,從這里開始,我們使用“微生物組(microbiome)”來指代微生物組的細胞部分(cellular fraction of the microbiome)届案,例如庵楷,主要是細菌細胞。盡管如此,病毒組和微生物組確實顯示出相似的跨宿主的多樣性模式尽纽,例如人與人之間的(interpersonal)高度的差異和相對長期的穩(wěn)定性咐蚯。與無關(guān)(unrelated)個體相比,有聯(lián)系(related)的個體的微生物組更相似弄贿,這可能是由于共同的飲食習(xí)慣推動了微生物組之間的相似性春锋。相應(yīng)地,飲食與病毒組多樣性相關(guān)差凹,很可能這是通過飲食對微生物組的影響期奔。在嬰兒中,同卵雙胞胎之間的病毒組比無關(guān)(unrelated)個體之間的病毒組更相似危尿。在成年雙胞胎中沒有觀察到這種模式呐萌,可能是因為它們的微生物組已經(jīng)發(fā)生了分歧(divergence)。由于宿主相關(guān)性等混雜因素脚线,微生物組本身在多大程度上驅(qū)動宿主間病毒組的多樣性模式難以評估搁胆。

在這個研究中弥搞,我們關(guān)注成年同卵雙胞胎的腸道微生物組邮绿,以進一步探索微生物組與病毒組多樣性之間的關(guān)系。通過研究同卵雙胞胎的病毒組攀例,我們控制了宿主的遺傳相關(guān)性船逮。盡管與雙卵雙胞胎或不相關(guān)的個體相比,同卵雙胞胎通常具有更相似的微生物組粤铭,但是同卵雙胞胎仍然可以顯示出大量雙胞胎內(nèi)的微生物組多樣性挖胃。我們以前從TwinsUK隊列(cohort)中收集了雙胞胎的糞便微生物,基于這一信息梆惯,我們選擇了具有高度一致性或高度不一致性的微生物組的雙胞胎酱鸭。我們從類病毒顆粒(virus-like particles)中產(chǎn)生病毒,這些類病毒顆粒(virus-like particles)是從與微生物組來源相同的樣品中獲得的垛吗。結(jié)果表明凹髓,微生物組多樣性和病毒組多樣性的指標呈正相關(guān)關(guān)系。

研究結(jié)果
選擇微生物組一致或者不一致的同卵雙胞胎
Selection of Microbiome-Concordant and -Discordant Monozygotic Twin Pairs

我們選擇了具有相似體重指數(shù)( BMI )的雙胞胎怯屉,基于之前獲得的16S rRNA基因測序數(shù)據(jù)蔚舀,它們的微生物組樣本間多樣性( β-多樣性)要么一致,要么不一致锨络。這項研究中的成年同卵雙胞胎不共享一個家庭(household)赌躺,我們假設(shè)雙胞胎之間的其他環(huán)境變量相似。我們基于三個β-多樣性距離確定同卵雙胞胎微生物組之間的一致或不一致程度羡儿,這三個距離是Bray-Curtis礼患、加權(quán)(weighted)UniFrac和未加權(quán)(unweighted)UniFrac。與預(yù)期一致,β-多樣性是相關(guān)的(Pearson相關(guān)系數(shù)>0.4)缅叠∮缴基于成對距離(pairwise distance)的分布,我們從所有三種分布的邊界中選擇了21對同卵雙胞胎(圖1A)痪署,同時保持年齡和體重指數(shù)在整個組中的平衡码泞。在所選的21對雙胞胎中,微生物組具有一致性的同卵雙胞胎之間比不具有微生物不一致的更相似(p = 6.31 X 10 -12狼犯,兩類相似度分組統(tǒng)計)余寥。不具有微生物組一致性的同卵雙胞胎的微生物組在所有的分類學(xué)水平上都有不同的組成,特別是在門的水平上悯森,F(xiàn)irmicutes和Bacteroidetes是兩個主要的門宋舷,對同卵雙胞胎之間的差異貢獻最大(圖1B/C)。

圖1. 雙胞胎的微生物組差異

( A )來自之前研究中的354對單卵雙胞胎微生物組的β-多樣性瓢姻。每個點代表一對雙胞胎的β-多樣性祝蝠,使用加權(quán)(weighted)UniFrac (x軸)、未加權(quán)(unweighted)UniFrac (z軸)和Bray-Curtis (y軸)方法測量的幻碱。平面是最小二乘法(the least squared)擬合的Bray-Curtis ~ Weighted UniFrac + Unweighted UniFrac平面绎狭。從兩個邊緣(edges)中選擇具有微生物組具有一致性(藍色)和微生物組不具有一致性(橙色)的同卵雙胞胎子集。黑點表示用于病毒組和整個糞便宏基因組比較的樣本褥傍。

( B )比較21對同卵雙胞胎在門水平上的分類學(xué)概況(相對豐度)儡嘶,1 – 9組的微生物組具有一致性,10 – 21組的微生物不具有不一致性恍风。

( C )微生物組具有一致性(藍色點蹦狂,樣本量n = 9 )和不具有一致性(橙色點,樣本量n = 12 )同卵雙胞胎的主要門水平的相對豐度的差異朋贬。使用了Mann-Whitney’s U test. ***表示p < 0.0005, *表示p = 0.055凯楔。

類病毒顆粒(VLPs)的鳥槍法宏基因組測序
Shotgun Metagenomes of VLPs

我們從用于16S rRNA基因多樣性分析的相同糞便樣品中分離出類病毒顆粒(virus-like particles)。從類病毒顆粒(virus-like particles)中提取的DNA用于全基因組擴增锦募,然后進行鳥槍法宏基因組測序摆屯。第一個大片段文庫(“l(fā)arge-insert-size library”)選擇平均插入大小為500 bp (總共34,325,116對序列reads;質(zhì)量控制后每個樣品817,265 ± 249,550對序列)御滩,用于病毒重疊群(contigs)的重新組裝(de novo assembly)鸥拧。第二個小片段文庫平均插入大小為300 bp的較小片段在(“small-insert-size library”)中純化并測序。最終的pair-end 序列合并為2,5324,163條較長的過濾過質(zhì)量的序列削解,以提高比對(mapping)精確度富弦。

識別推定的細菌污染
Identification of Putative Bacterial Contaminants

從類病毒顆粒(virus-like particles)制備和測序的病毒可能被細菌DNA污染。然而氛驮,鑒于噬菌體是水平基因轉(zhuǎn)移的主要媒介腕柜,在溶源噬菌體狀態(tài)下,溫和病毒通常占細菌基因組的10 %,去除潛在的細菌污染也可能去除病毒序列盏缤。為了評估細菌DNA的污染砰蠢,我們把病毒序列比對(mapped)到一組8163個完全組裝的細菌基因組上。我們的策略是評估每個基因組全部長度上每個100kb滑窗的覆蓋率唉铜,那些覆蓋率中值大于100的基因組被認為是污染台舱。比對到短區(qū)域的序列被認為是溶源噬菌體或水平轉(zhuǎn)移的基因而被保留下來(圖2A)。比對(map)到基因組的序列且被確定為潛在污染物潭流,去除它們之后再進行進一步的分析竞惋。

我們識別了65個細菌基因組是潛在污染,每個樣品的序列中1 % ± 1.125 %比對(mapping)到細菌基因組。大多數(shù)( 37 / 68 )屬于Firmicutes門;在物種水平上需五,在至少50 %的樣品中檢測到Bacteroides dorei, B. vulgatus, Ruminococcus bromii, Faecalibacterium prausnitzii, B. xylanisolvens, Odoribacter splanchnicus和B. caecimuris。如果微生物組中最豐富的細菌種類是最可能的污染源浑厚,那么它們作為污染物的相對豐度應(yīng)該與它們在微生物組中的相對豐度相對應(yīng)。然而根盒,我們觀察到污染的DNA和微生物組中代表分類群的相對豐度之間沒有顯著的相關(guān)性(圖2B)钳幅。

圖2. 類病毒顆粒(VLP)在準備過程中的細菌污染

( A ) 單個樣品(4A)在去除被認定為污染的read之前(上圖)與之后(下圖)的類病毒顆粒(VLP)比對到細菌基因組的熱圖。細菌基因組用豎條表示郑象,按長度排序贡这,分成了100,000bp大小的bins茬末。中值覆蓋率超過了100的序列被認為是污染厂榛。左邊的色標顯示了bin覆蓋率,散點圖顯示了每個基因組bin覆蓋率的中位數(shù)丽惭。

( B )從所有類病毒顆粒(VLP)提取物中識別出來的65個污染基于NCBI的進化樹圖击奶。右圖: 類病毒(VLP)提取物中細菌基因組的豐度與微生物組中16S rRNA基因圖譜之間的Spearman相關(guān)系數(shù)(rank correlation co-efficient (rho))。左圖:所有個體中細菌基因組的總豐度责掏。

功能組成支持病毒在類病毒顆粒純化中的富集
Functional Profiles Support Viral Enrichment in VLP Purification

為了評估病毒組的功能性內(nèi)容柜砾,我們使用整合基因集Integrated Gene Catalog,IGC)的KEGG對“short-insert-size”文庫的原始序列進行了注釋换衬。根據(jù)以前的研究痰驱,大部分宏基因組類病毒顆粒(virus-like particles)的序列( 85.43 % ± 5.74 % )被比對(mapped)到具有未知功能的基因(圖3A)。

為了進一步驗證序列來源于類病毒顆粒(virus-like particles)而不是微生物組瞳浦,我們生成并且比較了四個補充個體的類病毒顆粒(virus-like particles)和大量糞便樣品的宏基因組數(shù)據(jù)担映。與預(yù)期一致,來自相同樣品的病毒組和微生物組的功能分布是不同的叫潦。比對(map)到注釋基因的病毒組序列在兩個類別中富集:遺傳信息過程(Genetic Information Process)( 48.87 % ± 12.12 % )和核苷酸代謝(Nucleotide Metabolism)( 17.59 % ± 8.81 % )蝇完,相比之下微生物宏基因組中分別為24.31 % ± 1.28 %和5.47 % ± 0.4 %(圖3B)。基本上短蜕,細菌宏基因組中存在的大多數(shù)其他功能類別在病毒組中都不存在氢架。此外,相對于微生物組朋魔,病毒組的功能注釋顯示樣本間的更高的變異岖研,更低的組內(nèi)相關(guān)系數(shù)(intraclass correlation coefficient,圖3B)警检。

圖3. 糞便宏基因組和病毒組的功能基因(gene content)比較

( A ) 糞便宏基因組和病毒組中KEGG類別的相對豐度缎玫,包括整合基因集(Integrated Gene Catalog,IGC)的所有命中(hits)解滓,不考慮注釋赃磨。

( B )糞便宏基因組和病毒組在KEGG注釋第二級類別中相對豐度的熱圖,不包括帶有未知注釋的整合基因集基因洼裤。

色標顯示相對豐度的平方根邻辉。A.V.表示附加的病毒組;A.M.表示附加的微生物組(全基因組提取)腮鞍。A.M.的Intra-class coefficient(ICC) 值為0.99值骇,A.V.的ICC值為0.85。具有微生物一致性的同卵雙胞胎的ICC值0.69移国,不具有一致性的ICC值為0.68吱瘩。

病毒組是個體獨特的
Viromes Are Unique to Individuals

我們從“l(fā)arge-insert-size library”中組裝了序列,總共產(chǎn)生了大于500 nt 的107307條重疊群 (最大值:79,863 nt迹缀;平均值使碾,1,118±1741 nt)。為了評估病毒組的結(jié)構(gòu)和組成祝懂,建立了一個比對到去重復(fù)的重疊群的序列補充矩陣(a matrix of the recruitment of 序列 against dereplicated 重疊群 was built)票摇。這個補充的矩陣包括14584條,既長(>1300 nt )砚蓬,覆蓋面又廣( > 5X )的重疊群矢门,他們被稱為“病毒類型(virotypes)”。對補充矩陣的分析表明灰蛙,每個個體都有一組獨特的病毒類型(virotypes): 3415種病毒類型只存在于一個個體中(占總數(shù)的23.41 % )祟剔, 413種病毒類型存在于至少50 %的個體中 ( 2.83 % ),只有18種病毒類型存在于所有個體中 ( 0.1 % )摩梧。

微生物組具有一致性的雙胞胎共享病毒類型
Twins with Concordant Microbiomes Share Virotypes

我們檢查了雙胞胎之間共享的病毒類型(virotypes)物延,并觀察到同卵雙胞胎共享的病毒類型(virotypes)并不比無關(guān)的個體多。然后障本,我們分別評估了微生物組具有一致和不具有一致性的雙胞胎:微生物組不具有一致性的雙胞胎與無關(guān)個體相比不共享更多的病毒類型( p = 0.254 )教届,而微生物組具有一致性的雙胞胎確實比無關(guān)個體共享更多的病毒類型( p = 0.048 )响鹃。此外,我們還發(fā)現(xiàn)微生物組具有一致性的雙胞胎比微生物組不具有一致性的雙胞胎共享更多的病毒類型( p = 0.015 )案训。

在腸道病毒組中噬菌體占優(yōu)勢
Bacteriophage Dominance of the Gut Virome

為了描述病毒組的分類組成买置,我們試圖使用投票系統(tǒng)方法(a voting system approach that)對所有66,446個去重復(fù)并且有良好覆蓋率的重疊群進行注釋,該方法利用組裝后的重疊群及其編碼蛋白中的信息强霎。此外忿项,我們對兩個高度豐富的腸道相關(guān)噬菌體家族(families)進行了定制注釋: ( 1 )crAssphage;( 2 ) Microviridae科城舞。為此轩触,我們使用隱馬爾可夫模型( Hidden Markov Models ,HMMs )來搜索crAssphage (雙鏈DNA家夺,dsDNA )病毒和Microviridae科(單鏈DNA脱柱,ssDNA )病毒重疊群。

HMMs使我們能夠識別遠源的同源物(distant homologs)拉馋,然后我們將它們與已知的參考序列整合到系統(tǒng)發(fā)育樹中榨为,以確認注釋并更好地解析分類。我們注釋了108個重疊群( 19個crAssphage煌茴,90個Microviridae科)随闺,驗證了68個重疊群在科水平的分配(assignments),并為97個重疊群分配了一個亞科蔓腐。對于Microviridae科矩乐,只有11個重疊群以前有分配的物種分類(taxonomic assignment),都屬于Gokushovirinae回论,我們確認了這些分配散罕,另外有23個重疊群為Gokushovirinae,54個重疊群為Alpavirinae透葛,1個重疊群為Pichovirinae笨使。對于crAssphage,11個重疊群與原始的crAssphage聚集在一起僚害,3個重疊群與Chlamydia噬菌體參考基因組聚集在一起,5個重疊群與IAS病毒聚集在一起繁调。

在校對了投票系統(tǒng)注釋和HMM注釋之后萨蚕,總共有12751個重疊群( 29.62 % )被分配物種分類。病毒組以噬菌體為主蹄胰,只有6.42 %的重疊群被注釋為真核病毒岳遥。與預(yù)期一致,大多數(shù)重疊群( 96.98 % )是dsDNA病毒裕寨,而只有2.43 %的重疊群被標注為ssDNA病毒浩蓉。Caudovirales是最豐富的目派继,其三個主要科分別為: Myoviridae ( 20.22 % ± 4.83 % )、Podoviridae ( 10.54 % ± 3.27 % )和Siphoviridae ( 35.25 % ± 7.19 % )捻艳。crAssphage家族平均構(gòu)成重疊群的13.26 % ( ± 12.24 % )驾窟,在一個病毒組中最大的分布可以達到55.80%,Microviridae占病毒群的3.87 % ± 2.57 %认轨。有趣的是绅络,我們觀察到Phycodnaviridae超過平均豐度的1 % ( 1.77 % ± 1.12 % 圖4A),以及與核質(zhì)大DNA病毒(nucleocytoplasmic large DNA viruses, NCLDV)相關(guān)的重疊群的平均相對分布為3.99 % ± 2.22 %嘁字。在所有樣品中都存在的18個重疊群包括10個標記為crAssphage的重疊群恩急,2個標記為“未分類的Myoviridae”,2個標記為“未分類的Caudovirales”纪蜒,1個標記為Microviridae衷恭,3個未分類。在每個樣本定義的分類概況中纯续,我們在所有分類水平上尋找具有微生物組一致和不具有微生物組一致性的雙胞胎的病毒組組成的差異匾荆。任何分類群在目和科水平上沒有顯著差異,包括crAssphage和Microviridae科(圖4B)杆烁。

圖4.病毒組組成

21對同卵雙胞胎的微生物組在科水平的分類特征比較牙丽,1 - 9 組是具有一致性的微生物組,10 – 21組是不具有一致性的微生物組兔魂。

( A )同卵雙胞胎的病毒組在科水平的組成烤芦。

( B )微生物組具有一致性(藍色點,樣本量n = 9 )和不具有一致性的(橙色點析校,樣本量n = 12 )同卵雙胞胎在每個科水平的相對豐度差異构罗。

我們使用CRISPR比對微生物與噬菌體數(shù)據(jù)庫(microbe-versue-phage,MVP)預(yù)測病毒類型(virotypes)和分類特征重疊群(taxonomically characterized)的細菌宿主智玻。由于注釋噬菌體的宿主遂唧,我們沒有獲得任何注釋為真核病毒的重疊群信息。這些方法使我們能夠識別910個重疊群推定的(putative)宿主吊奢。在這910個重疊群中盖彭,只有一個先前被注釋為crAssphage,與預(yù)期一致页滚,其宿主被推斷為Bacteroidetes的物種召边。我們總共鑒定了1280個推定的(putative)細菌宿主菌株,包括來自多個門87個屬的187個物種:其中大多數(shù)來自Firmicutes門(92)裹驰,其次是Bacteroidetes門( 41 )和Proteobacteria門 ( 38 )隧熙。每個重重疊群的宿主數(shù)量中值為1(IQR = 1–2 ),而在菌株水平上幻林,每個宿主的噬菌體數(shù)量中值為2 (IQR= 1–3 )贞盯。

病毒多樣性與微生物多樣性相關(guān)
Virome Diversity Correlates with Microbiome Diversity

為了評估病毒組和微生物組多樣性之間的關(guān)系音念,我們使用從測序數(shù)據(jù)中獲取的三個不同層次的信息檢查了病毒組的樣本內(nèi)多樣性(α-多樣性)和β-多樣性: ( 1 )病毒類型(virotypes),( 2 )分類注釋的重疊群躏敢,( 3 )從短序列中注釋的基因闷愤。

α-多樣性
微生物組和病毒組的α-多樣性在用于測試相關(guān)性的三層信息中的兩層中呈正相關(guān)(病毒類型(virotypes)和分類注釋的重疊群,圖5A)父丰。我們使用帶注釋的重疊群來查詢病毒亞組(subgroups)(真核ssDNA肝谭、真核dsDNA、細菌ssDNA和細菌dsDNA)中的α-多樣性蛾扇。結(jié)果表明真核病毒的多樣性與微生物組α -多樣性無關(guān)攘烛。相反,ssDNA或dsDNA的噬菌體與微生物組α-多樣性呈正相關(guān)關(guān)系镀首。

圖5. 噬菌體多樣性與微生物組多樣性相關(guān)坟漱,但與真核病毒多樣性不相關(guān)

( A )病毒組香農(nóng)α-多樣性(Shannon α-diversity)與微生物組香農(nóng)α-多樣性((Shannon α-diversity))的相關(guān)性( 樣本量n = 42 )。繪制了線性回歸95 %置信區(qū)間的最佳擬合線更哄。病毒類型(Virotypes):皮爾遜相關(guān)系數(shù)(Pearson correlation coefficient)= 0.406芋齿,m= 0.3,p = 0.007成翩,R2 = 0.165觅捆。分類學(xué):皮爾遜相關(guān)系數(shù) = 0.389,m = 0.25麻敌,p = 0.010栅炒,R2 = 0.151∈醺幔基因:皮爾遜相關(guān)系數(shù) = 0.105赢赊,m = 0.11,p = 0.506级历,R2 = 0.011释移。

( B )根據(jù)注釋為真核ssDNA病毒、ssDNA噬菌體寥殖、真核dsDNA病毒和dsDNA噬菌體的重疊群計算的病毒組香農(nóng)α-多樣性(Shannon α-diversity)與微生物組香農(nóng)多樣性(Shannon α-diversity)的相關(guān)性( 樣本量n = 42 )玩讳。繪制了線性回歸95%置信區(qū)間的最佳擬合線。真核病毒: 皮爾遜相關(guān)系數(shù)= 0.027扛禽,m= 0.034锋边,p = 0.863,R2= 0.000751编曼。sDNA噬菌體: 皮爾遜相關(guān)系數(shù)= 0.394,m= 0.35剩辟,p = 0.009掐场,R2 = 0.155往扔。dsDNA真核病毒: 皮爾遜相關(guān)系數(shù)= 0.143,m= 0.15熊户,p = 0.368萍膛,R2 = 0.020。dsDNA噬菌體: 皮爾遜相關(guān)系數(shù)= 0.400嚷堡,m = 0.25蝗罗,p = 0.008,R2 = 0.16蝌戒。

β-多樣性
我們觀察到串塑,當使用Hellinger距離時,與不具有一致性的微生物組的雙胞胎相比北苟,具有微生物組一致性的雙胞胎病毒組β-多樣性較低桩匪;平均無權(quán)重Jaccard 距離和Bray-Curtis距離也顯示出相同的趨勢。與我們觀察到的α-多樣性相似友鼻,無論使用哪一層信息傻昙,具有一致性的微生物組的同卵雙胞胎中病毒組的平均Hellinger距離明顯低于不具有一致性的微生物組的同卵雙胞胎(圖6)。把具有微生物組一致性的雙胞胎或不具有一致性的微生物組的雙胞胎按性別分開時彩扔,我們沒有觀察到β-多樣性的顯著差異妆档。盡管如此,任何關(guān)于性別影響的推斷都是有局限的虫碉,因為每個群體的個體數(shù)量都減半了贾惦。此外,當使用注釋重疊群時蔗衡,在微生物組和病毒組β-多樣性之間觀察到顯著正相關(guān)纤虽。這種關(guān)系是由噬菌體而不是真核病毒驅(qū)動的。

圖6. 病毒組β-多樣性模式反映了微生物組的β-多樣性

根據(jù)分析的三個不同的信息層(病毒類型(virotypes)绞惦、基因(genes)和分類學(xué)(taxonomy))逼纸,箱線圖顯示了微生物組和病毒組的Hellinger距離分布,對于微生物組具有一致性的同卵雙胞胎(藍色济蝉,樣本量n = 9 )杰刽,微生物組不具有一致性的同卵雙胞胎(橙色,樣本量n = 12 )王滤,微生物組具有一致的同卵雙胞胎中的無關(guān)樣本(藍色贺嫂,樣本量n = 144 ),以及微生物組不具有一致性的同卵雙胞胎中的無關(guān)樣本(橙色雁乡,樣本量n = 264 )第喳。均值之間的顯著差異(Mann-Whitney’s U test, p < 0.020) 用不同的字母表示。

最后踱稍,我們比較了相關(guān)(同卵雙胞胎)和無關(guān)個體之間的病毒組和微生物組的成對距離(pairwise distance)曲饱。成對距離矩陣顯示病毒組和微生物組β-多樣性測量值之間的正相關(guān)悠抹,不僅在雙胞胎之間,在所有個體之間都是如此扩淀。這些結(jié)果表明楔敌,不管宿主之間的遺傳相關(guān)性如何,個體的微生物組越相似驻谆,病毒組也會越相似卵凑。

研究討論
同卵雙胞胎,像其他兄弟姐妹一樣胜臊,通常比無關(guān)個體擁有更相似的腸道微生物組勺卢。此外,同卵雙胞胎總體上比異卵雙胞胎具有更相似的微生物組区端,盡管在整個微生物組水平上值漫,這種影響很小,這主要是由一小組可遺傳的微生物驅(qū)動的织盼。然而杨何,在同卵雙胞胎群體中,微生物組中雙胞胎內(nèi)部差異可能和異卵雙胞胎的一樣大沥邻。我們利用同卵雙胞胎β-多樣性的巨大差異危虱,選擇了腸道微生物組高度一致或不一致的同卵雙胞胎。我們對它們的病毒環(huán)境的分析表明唐全,盡管個體間腸道病毒環(huán)境差異很大埃跷,而且不管宿主的相關(guān)性如何,他們的微生物環(huán)境越不相似邮利,他們的病毒環(huán)境就越不相似弥雹。這種模式是由病毒組的噬菌體驅(qū)動的。

通過從微生物組的β-多樣性分布中選擇同卵雙胞胎延届,我們?nèi)コ怂拗鬟z傳相關(guān)性作為可能影響病毒組的變量剪勿。以前對嬰兒雙胞胎病毒組和微生物組的研究表明,同卵雙胞胎的微生物組和病毒組比無關(guān)個體的更相似方庭,這表明共享的宿主基因型和/或環(huán)境是關(guān)鍵厕吉。相反,一項對成年雙胞胎病毒組的研究表明械念,成年同卵雙胞胎沒有比不相關(guān)的個體擁有更相似的病毒組头朱;然而,根據(jù)目前的研究結(jié)果龄减,這可能是一個統(tǒng)計功效(power)問題项钮。事實上,在我們的數(shù)據(jù)集中,我們觀察到無論雙胞胎的微生物組一致還是不一致寄纵,同卵雙胞胎比無關(guān)個體都具有更多相似的病毒組病毒類型(virotypes)和物種分類(taxonomy)鳖敷。

之前的研究表明脖苏,與成年雙胞胎相比程拭,年輕雙胞胎的病毒組相似性更高,這與嬰兒雙胞胎共享更大的環(huán)境有關(guān)棍潘,特別是在飲食方面恃鞋。Minot等人的研究也表明,相同飲食的個體比不同飲食的個體具有更相似的腸道病毒組亦歉。眾所周知恤浪,飲食是日常微生物組波動的強大驅(qū)動力,所以飲食對病毒組的影響可能是由微生物組介導(dǎo)的肴楷。然而水由,我們沒有控制飲食,所以我們觀察到的微生物組不一致可能是由于雙胞胎在取樣時飲食不同造成的赛蔫。不管影響微生物組一致性的差異的基礎(chǔ)是什么砂客,它都與病毒組的一致性密切相關(guān)。

以前沒有直接討論過成年人的病毒組豐富度(richness)和微生物組豐富度之間的關(guān)系呵恢。我們觀察到鞠值,使用描述病毒多樣性的三層信息中的兩層,微生物組和病毒組的α-多樣性正相關(guān)渗钉。具體來說彤恶,這種模式在病毒類型(virotypes)和物種分類學(xué)(taxonomy)上被觀察到,但在基因(gene)上沒有鳄橘。然而声离,由于觀察到病毒基因僅在兩類中得到富集,即遺傳信息處理(Genetic Information Processing)和核苷酸代謝(Nucleotide Metabolism)瘫怜,我們預(yù)計受試者之間病毒組基因的多樣性不會有差異术徊。分類注釋層面(taxonomic annotation layer)的信息表明,是病毒的噬菌體組分而不是真核病毒推動了這種α-多樣性相關(guān)的模式宝磨。

病毒組和微生物組多樣性之間的正相關(guān)關(guān)系表明弧关,宿主的可獲取性(availability)越強,病毒的多樣性就越高唤锉。這些觀察與“piggy back the winner”模型一致世囊,該模型假設(shè)在密度大的環(huán)境中,噬菌體選擇進入溶源循環(huán)窿祥,并與其宿主一起復(fù)制株憾。事實上,對人類腸道病毒組的縱向研究已經(jīng)報道了與溶源性相關(guān)的基因,溫帶型的重疊群隨時間(over time)的低突變率嗤瞎,以及病毒組的長期穩(wěn)定性墙歪,表明了對溶源性周期的偏好。然而贝奇,噬菌體捕食行為(phage predation)被認為是維持高度多樣性和高效生態(tài)系統(tǒng)的一個重要因素虹菲,并可能在快速變化的生態(tài)系統(tǒng)中扮演維持多樣性的角色,如人類腸道中掉瞳。對病毒組-微生物組相互作用的短期時間序列(time series)分析毕源,以及對噬菌體繁殖中溶源-裂解轉(zhuǎn)變(lysogenic-lytic switch)的更好理解,將有助于解釋在人類腸道病毒組中觀察到的模式陕习。

這里描述的病毒組的組成與以前報道的成人糞便病毒組的組成有相似性霎褐。從經(jīng)過注釋的部分來看,Caudovirales目及其科Siphoviridae该镣、Myoviridae和Podoviridae以及crAssphage是所有樣本中的優(yōu)勢噬菌體冻璃。Manrique等人將嬰兒腸道的噬菌體定殖過程總結(jié)如下:真核病毒首先占據(jù)新生兒腸道,隨后是Caudovirales损合,在2.5歲前Microviridae開始成為優(yōu)勢噬菌體省艳。的確,在我們的樣本集中觀察到了豐富的Microviridae塌忽,但是Caudovirales是優(yōu)勢群體拍埠。年齡與這里研究的成人受試者的多樣性模式無關(guān)。

盡管這里描述的每個病毒組具有高度的多樣性和獨特性土居,但我們在受試者中發(fā)現(xiàn)了一組病毒:所有樣本中都存在18個重疊群枣购。這些重疊群中有一半以上被注釋為crAssphage,這與最近這種噬菌體廣泛存在的報道一致擦耀。我們的數(shù)據(jù)集中其他共有的病毒類型(virotypes)被分類為Myoviridae和Microviridae棉圈。我們還發(fā)現(xiàn)了比對到以核質(zhì)大DNA病毒、Phycodnaviridae和Mimiviridae為代表的科水平的重疊群眷蜓。這些類型的病毒越來越多地被報道為人類腸道病毒組的成員分瘾。一組核心噬菌體由九個代表組成,包括crAssphage吁系。廣泛共享的病毒類型(virotypes)可能表示了德召,個體之間特定宿主的廣泛共享,或者這些病毒在人類微生物組中具有廣泛的宿主范圍汽纤。

我們使用HMMs來注釋病毒重疊群上岗,這使得我們能夠深入探討病毒組的分類學(xué)的內(nèi)容。除了與公共數(shù)據(jù)庫的比較所揭示的內(nèi)容之外蕴坪,我們并確認了這些注釋肴掷。因為每種類型的病毒(例如敬锐,科水平)都需要自己的HMM,所以我們將這種方法應(yīng)用于幾個關(guān)鍵組(key groups)呆瞻。當應(yīng)用于crAssphage時台夺,HMM檢索的重疊群僅與來自糞便病毒的序列聚在一組,而不與來自其他環(huán)境(例如陸地或海洋)的序列痴脾。這表明颤介,盡管crAssphage是一個多樣化的噬菌體群體,但其在人類腸道中的多樣性僅限于crAssphage參考基因組明郭,IAS病毒參考基因組或者Chlamydia噬菌體相關(guān)的序列买窟。我們還將HHM應(yīng)用于Microviridae科,這是一種ssDNA噬菌體薯定。我們能夠確認Gokushovirinae和Alpavirinae亞科的不同成員的存在。盡管有證據(jù)表明瞳购,所描述的Alpavirinae基因組構(gòu)成了Microviridae科的第三組话侄,它們對應(yīng)于溶源噬菌體,這使得很難將它們整合到國際病毒分類委員會(International Committee on Taxonomy of Viruses学赛, ICTV )的分類中年堆;因此,在應(yīng)用HMM圖譜(profiles)前盏浇,沒有任何重疊群被標注為Alpavirinae变丧。

對于每一個病毒分類組(taxonomic group),都有一組相應(yīng)的細菌宿主绢掰。從我們用來選擇雙胞胎的16S rRNA基因多樣性數(shù)據(jù)中痒蓬,很明顯是哪一個門水平的細菌對具有一致性的微生物組雙胞胎和不具有一致性的微生物組雙胞胎的微生物組的差異貢獻最大。但是與細菌不同的是滴劲,我們無法根據(jù)病毒中的目或者科來辨別出這樣清晰的模式攻晒。事實上,大部分噬菌體多樣性只歸入一個目Caudovirales班挖,及其三個科:Myoviridae, Podoviridae和Siphoviridae鲁捏。這些科的病毒可以感染不相關(guān)的宿主。因此萧芙,我們沒有必要期望特定的病毒目或病毒科顯示在細菌門水平上觀察到的這種模式(很明顯是哪一個門水平的細菌對具有一致性的微生物組雙胞胎和不具有一致性的微生物組雙胞胎的微生物組的差異貢獻最大)给梅。

最后,我們注意到了一個有趣的模式双揪,即在選定的細菌種類中动羽,病毒組中完全覆蓋細菌基因組。由于這些推定的污染物不是微生物組中最豐富的成員盟榴,它們不太可能代表大量(bulk)DNA的隨機污染曹质。目前還不清楚為什么某些細菌基因組顯示如此高的覆蓋率。一種可能性是,我們正在觀察具有轉(zhuǎn)座功能的噬菌體宿主的物種范圍羽德。噬菌體几莽,比如Mu噬菌體可以隨機整合到宿主基因組中,通過連續(xù)幾輪復(fù)制轉(zhuǎn)座擴增宅静,然后可以包裝宿主基因組的任何部分章蚣。有趣的是,在此檢測到的幾種污染也被報道為其他人類腸道病毒研究中的污染姨夹,這可能表明具有轉(zhuǎn)座功能的噬菌體的宿主特異性纤垂。另一種解釋包括囊泡產(chǎn)生、基因轉(zhuǎn)移劑和/或廣義轉(zhuǎn)導(dǎo)過程磷账。對不同病毒數(shù)據(jù)庫中發(fā)現(xiàn)的完整細菌基因組的進一步比較峭沦,可能有助于揭示它們的來源,特別是在多項研究中回收的相同細菌物種逃糟。

研究方法
EXPERIMENTAL MODEL AND SUBJECT DETAILS

糞便樣品
Fecal Samples

本研究中使用的糞便樣本是作為之前的研究的一部分而獲得的吼鱼。從16S rRNA基因多樣性中,先前共測量了354對同卵雙胞胎绰咽,他們的糞便樣本是在2013年1月28日至2014年7月14日期間收集的菇肃。我們基于雙胞胎中的三個微生物組β-多樣性距離,選擇了9對微生物組具有一致性和12對微生物組不具有一致性的同卵雙胞胎取募。這三種距離是琐谤,unweighted UniFrac, weighted UniFrac和Bray-Curtis。在微生物組具有一致性和不具有一致性組內(nèi)都選擇了能夠在性別玩敏、年齡斗忌、BMI和BMI差異方面(BMI difference)保持平衡的雙胞胎。一致組中的雙胞胎年齡在23至77歲之間聊品,包括5對男性和4對女性飞蹂,微生物組不具有一致性的雙胞胎年齡在29至81歲之間,包括5對男性和7對女性翻屈。所有涉及使用這些先前收集的樣本的工作都得到康奈爾大學(xué)IRB的批準卓囚。

從人類糞便樣品中分離類病毒樣顆粒
Isolation of Virus-like Particles (VLPs) from Human Fecal Samples

類病毒顆粒(Virus-like Particles, VLPs)的分離基于之前描述過的方法精算。對于類病毒樣顆粒分離,之前使用0.02 μm濾膜( Whatman )過濾,0.5 g糞便樣品在15 mL PBS中渦旋5 - 10分鐘埋酬,使之重新懸浮扯键。將勻漿在4,500 xg下離心30分鐘撩满,上清液通過0.22 μm polyethersulfone(PES ) Express Plus Millipore Stericup ( 150 ml )過濾葵第,以去除細胞碎片和細菌大小的顆粒。然后濾液在Millipore Amicon Ultra-15離心過濾單元上濃縮100K至1毫升嘴秸。將濃縮物轉(zhuǎn)移到5 Prime Phase Lock Gel中毁欣,并在室溫下用200 ml氯仿(chloroform)溫育10分鐘庇谆。在15000 xg下離心1分鐘后,將水層轉(zhuǎn)移到新的微量離心管中凭疮,并在37℃用Invitrogen TURBO DNase (14 U )饭耳、Promega RNase One (20 U )和1 ml Benzonase Nuclease (E1014 Sigma Benzonase Nuclease) 處理3小時。溫育后执解,向每個樣品中加入0.04 體積(volumes)0.5 M EDTA寞肖。在進一步處理之前樣品被儲存在- 80℃環(huán)境下。

病毒DNA鳥槍法測序
Viral DNA Shotgun Sequencing

病毒DNA是用從Invitrogen購買的PureLink Viral RNA/DNA Mini Kit提取的衰腌。然后使用從Sigma-Aldrich購買的GenomePlex Complete Whole Genome Amplification (WGA2) Kit擴增每個病毒DNA樣品新蟆。該步驟包括兩個空白對照,但是產(chǎn)量非常低右蕊,無法構(gòu)建文庫琼稻。然后用Covaris S2 Adaptive Focused Acoustic Disruptor 對擴增產(chǎn)物進行片段化,參數(shù)設(shè)置如下:duty cycle為10 %尤泽,cycle per burst為200欣簇,強度為4, 時長60 s。每個病毒測序文庫按照Illumina TruSeq DNA Preparation Protocol制備坯约,每個樣品有一個獨特的標簽。所有標簽化文庫匯集在一起莫鸭。其中一半由BluePippin根據(jù)大小選擇用來富集更長的插入物( 425 - 875 bp闹丐,包括adapters)。在Illumina HiSeq 2500儀器上被因,兩個文庫(pools)卿拴,即“大片段文庫large-insert-size library”和“小片段文庫short-insert-size library”,在康奈爾生物技術(shù)資源 測序中心的Illumina HiSeq 2500上梨与,以250 bp雙端的快速模式運行堕花,在獨立lane上進行測序。

全部糞便樣品的宏基因組鳥槍法測序
Whole Fecal Metagenome Shotgun Sequencing

基因組DNA是使用PowerSoil - htp DNA提取試劑盒從每份樣品中的大約100毫克樣品中提取的粥鞋。然后缘挽,每個測序文庫都是按照Illumina TruSeq DNA標準建庫方法,用500 ng DNA呻粹,使用gel-free方法壕曼,經(jīng)過14次PCR循環(huán)制備的。在康奈爾生物技術(shù)資源 測序中心的Illumina HiSeq 2500上等浊,以2x150 bp模式運行腮郊,在獨立lane上進行測序。

細菌污染的評估
Assessment of Bacterial Contamination

2017年2月21日筹燕,從NCBI FTP上檢索了8163個完整的細菌基因組轧飞。使用Bowtie 2 v.2.2.8比對(mapped)每個樣本的序列到細菌參考基因組上衅鹿,參數(shù)如下: -local-maxins 800 -k = 3。使用view和depth Samtools commands v.1.5过咬,計算每個堿基的基因組覆蓋率時大渤,只考慮了比對質(zhì)量超過20的序列。接下來援奢,平均基因組覆蓋率為100K bp bins兼犯。我們觀察到均勻覆蓋的基因組的median bin coverage至少是100;那些median bin coverage大于100的基因組被認為是污染集漾,刪除比對到這些基因組的序列切黔。細菌基因組中可能有一個或多個溶源噬菌體;這些溶源噬菌體的爆發(fā)(bursting)事件可能會發(fā)生具篇,產(chǎn)生幾個類病毒樣顆粒(Virus-like Particles, VLPs)纬霞。作為一項保守措施,為了避免源自溶源噬菌體而非細菌基因組本身的序列丟失驱显,bins覆蓋度超過細菌平均覆蓋度三個標準差的bins也被識別并歸類為類溶源噬菌體(prophages-like)區(qū)域诗芜。比對)到潛在污染基因組的read被標記為“污染”,并從進一步的分析中移除埃疫,而比對(mapping)到高覆蓋度 bins的序列比對被標記為“可能的溶源噬菌體”伏恐。

使用內(nèi)部Python腳本構(gòu)建每個樣品中每個潛在污染的豐度的矩陣,并采用PKM標準化方法栓霜。與此同時翠桦,來自古德里奇等人的數(shù)據(jù),每個OTU的相對豐度被回收胳蛮,并在物種層面使用summarize_taxa.py qiime腳本進行匯總销凑。針對兩組物種,計算了污染物相對豐度與其對應(yīng)的16S rRNAs數(shù)據(jù)之間的Spearman相關(guān)性仅炊。

功能組成
Functional Profiles

經(jīng)過joined和trimmed的來自“小片段文庫”的序列被比對到整合基因集上斗幼,這是人類腸道微生物組中參考基因的總集。使用的方法是BLASTX DIAMONAL v.0.7.5抚垄,最大e-value值的截止值為0.001蜕窿,要報告的最大目標序列數(shù)目設(shè)置為25。

比對到整合基因集后督勺,使用內(nèi)部Python腳本生成了豐度矩陣渠羞。然后根據(jù)整合基因集)提供的每一個基因,使用KEGG對矩陣進行注釋智哀。注釋的豐度矩陣被稀釋(rarefied次询,subsampling without replacement)為每個樣本2000000 read命中(hits)。然后使用QIIME 1.9的命令summarize_taxa_through_plots.py生成KEGG功能圖譜瓷叫。使用R包Psych計算每組(附加的微生物組屯吊、附加的病毒組送巡、具有一致性的微生物組樣品病毒組和不具有一致性的微生物組樣品病毒組)功能圖譜的組內(nèi)相關(guān)系數(shù)。

從頭組裝
De novo Assembly

經(jīng)過質(zhì)量剪切步驟的序列還是雙端序列(正向和反向)盒卸,使用針對于短序列的整合宏基因組裝 (InteMAP)流程組裝骗爆,插入(insert)片段大小設(shè)置為325 bp ± 100 bp。每個樣品單獨組裝蔽介。組裝第一次運行后摘投,所有干凈的序列都使用Bowtie 2 v.2.2.8比對到組裝的重疊群,參數(shù)如下: -local-maxins 800虹蓄。然后至少一次比對具有一致性的序列都提交到InteMAP以供二次組裝犀呼。使用自寫Perl腳本,將來自所有樣本的大于500 bp的重疊群匯集在一起薇组,并用兩兩比對方法進行比較外臂。從這一分析中,有可能識別出潛在的環(huán)狀基因組律胀,并在另一個重疊群中將超過90%長度的重疊群去冗余宋光。

根據(jù)Roux等人對覆蓋度(coverage)和長度(length)的建議,對去重復(fù)后的宏基因組集合(assemblies)進行序列的補充炭菌,用于構(gòu)建豐度矩陣罪佳。使用Rsubread v.1.28.0將序列比對到非冗余的重疊群。使用自寫Python腳本將比對(mapping)的輸出解析成豐度矩陣黑低,該矩陣通過每個樣品中相對豐度RPKM方法進行標準化菇民,并轉(zhuǎn)換為Log10(x+1),x為標準化豐度投储。標準化覆蓋率低于5x的重疊群被除去。最后阔馋,應(yīng)用重疊群長度過濾獲得病毒類型(virotypes)玛荞。繪制重疊群數(shù)量作為長度的函數(shù)的衰減曲線,長度閾值就是衰減曲線的轉(zhuǎn)折點1,300 bp呕寝。

HMM注釋
HMM Annotation

建立了獨立的HMM組成(profiles勋眯,圖譜/打分矩陣),以識別類crAss(crAss-like)重疊群和Microviridae 重疊群下梢。為了構(gòu)建HMM 類- crAss組成特征客蹋,我們從NCBI網(wǎng)站上下載了類-crAss家族的主要衣殼蛋白( Major Capsid Protein,MCP )序列孽江。多序列比對使用MUSCLE v.3.8.31進行的讶坯,并使用UGENE v.1.31.0進行檢查。間隙(gaps)超過30 %的位置(positions)被移除岗屏。最后辆琅,HMM – crAsslike組成是使用軟件包HMMER v.3.1b2 的hmmbuild構(gòu)建的漱办。對于Microviridae科的例子,還使用了Alves等人開發(fā)的病毒蛋白1 (viral protein 1婉烟,VP1 )的所有HMM組成娩井。

使用hmmsearch查詢組裝好的重疊群的預(yù)測蛋白質(zhì),以匹配HMM -圖譜似袁。e-value值低于1x10-5的蛋白質(zhì)被認為是真正的同源物洞辣,其他的標準還包括,參考蛋白質(zhì)的大小在參考蛋白質(zhì)的大小范圍內(nèi)( crAsslike MCP : 450 - 510殘基(residues)昙衅;Microviridae: 450 - 800個殘基(residues))扬霜,至少50 %的覆蓋率(coverage)和至少40 %的同一性(identity)。覆蓋率和同一性通過BLASTp绒尊,用真實同源物查詢參考序列來確定畜挥。

通過上述步驟的真正同源物被用于系統(tǒng)發(fā)育分析。參考序列和同源序列使用MUSCLE v.3.8.31進行比對婴谱,使用UGENE v.1.31.0去除至少30 %缺口的位點蟹但。使用RAxML v.8.2.4進行最大似然( ML )系統(tǒng)發(fā)育分析,使用prottest v.3.4.2獲得了最佳進化模型谭羔,ML樹中節(jié)點的支持是通過具有100次偽復(fù)制(pseudoreplicates)的自舉(bootstrap)獲得的华糖。

物種組成
Taxonomic Profile

為了推斷組裝的類病毒顆粒(Virus-like Particles, VLPs)的分類學(xué)關(guān)系(taxonomic affiliation),使用GeneMarkS v.4.32對所有大于500 bp的重疊群預(yù)測基因瘟裸。預(yù)測基因的氨基酸序列隨后被用于BLASTp搜索中客叉,使用DIAMOND v.0.7.5對NR NCBI病毒數(shù)據(jù)庫進行搜索最大e-value閾值(cutoff)為0.001,報告中目標序列輸出最大數(shù)目設(shè)置為25话告。使用BLASTp結(jié)果兼搏,每個基因的分類由MEtaGenome Analyzer(MEGAN5 )v.5.11.3中的最近共同祖先算法(lowest-common-ancestor algorithm)進行分配。參數(shù)如下: Min Support: 1, Min Score: 40.0, Max Expected: 0.01, Top Percent: 10.0, Min-Complexity filter: 0.44沙郭。獨立地佛呻,使用CENTRIFUGE v.1.0.4查詢NT NCBI病毒基因組數(shù)據(jù)庫獲得每個重疊群的分類結(jié)果。然后使用投票系分配每個重疊群的最終分類注釋病线,其中每個蛋白質(zhì)的分類注釋和重疊群的CENTRIFUGE注釋被視為投票吓著。通過對重疊群的所有可能投票,構(gòu)建了一個N元樹(N-ary tree)送挑,每個節(jié)點(node)的權(quán)重(weight)是包括該節(jié)點的投票數(shù)绑莺。重疊群的分類注釋將是遍歷(traversing)通過權(quán)重最高節(jié)點(heaviest nodes)的樹的結(jié)果,但有一個考慮:如果節(jié)點的所有子節(jié)點具有相同的權(quán)重惕耕,遍歷(traversing)必須停止纺裁。分類概況被認為是補充矩陣的一個子集,包含所有由投票系統(tǒng)(voting system)注釋或通過HMM概況標注的重疊群 (見上文)赡突。

噬菌體-宿主相互作用的預(yù)測
Prediction of Phage-Host Interaction

使用PilerCR v.1.06对扶,從用于評估細菌污染的8,163種細菌基因組中識別出有規(guī)則間隔的短回文重復(fù)序列(Clustered Regularly Interspaced Short Palindromic Repeats, CRISPRs)区赵。間隔物(spacers)的預(yù)期大小為20 bp和72 bp,被用作對病毒類型和分類標注重疊群的查詢浪南,使用BLASTn (v.2.6.0+ )短查詢參數(shù): 覆蓋至少90%間隔區(qū)且e值<0.001的匹配被認為是CRISPR間隔區(qū)-病毒關(guān)聯(lián)笼才。此外,使用LAST-959病毒類型和有分類注釋的重疊群被比對到MVP數(shù)據(jù)庫中病毒群的代表基因組上络凿。由于MVP中的病毒簇包含至少95%同一性的序列骡送,其長度的至少80%,因此只保留滿足這些限制的匹配絮记。重疊群的宿主是由其匹配的病毒簇確定的摔踱。

多樣性指數(shù)
Diversity Indexes

樣本內(nèi)的香農(nóng)多樣性指數(shù)( a -多樣性)和同卵雙胞胎內(nèi)的Hellinger距離( B-多樣性)是使用生成的所有三個豐度矩陣(函數(shù)、分類和讀取補充矩陣)的Vegan R包的多樣性和距離vegdist函數(shù)計算的怨愤。使用皮爾遜相關(guān)系數(shù)測量病毒組α-多樣性和微生物組α -多樣性之間的相關(guān)性派敷。病毒組β-多樣性和微生物組β-多樣性之間的相關(guān)性是通過使用皮爾遜相關(guān)系數(shù)的曼特爾檢驗(Mantel test)來計算的。此外撰洗,對微生物組具有一致性的同卵雙胞胎之間的β-多樣性與微生物組不具有一致性的同卵雙胞胎之間的β-多樣性進行了比較篮愉;p值使用Mann-Whitney U test來計算。

統(tǒng)計分析
QUANTIFICATION AND STATISTICAL ANALYSIS

p值是使用使用Python “scipy”包的Mann-Whitney U測試或Mantel測試獲得的差导;使用Python “scipy” 包將相關(guān)系數(shù)測量皮爾遜相關(guān)系數(shù)试躏;α和β多樣性是用R的 “vegan” 包計算的;使用R包“psych”計算類別內(nèi)系數(shù)(Intra-class coefficien)设褐;使用RAxML進行最大似然系統(tǒng)發(fā)育分析颠蕴。

拓展閱讀
數(shù)據(jù)分析過程中使用的腳本 https://github.com/leylabmpi/TwinsUK_virome
Human Genetics Shape the Gut Microbiome https://www.cell.com/fulltext/S0092-8674(14)01241-0
Environment dominates over host genetics in shaping human gut microbiota https://www.nature.com/articles/nature25973?platform=hootsuite
Early life dynamics of the human gut virome and bacterial microbiome in infants https://www.nature.com/articles/nm.3950
The Human Gut Phage Community and Its Implications for Health and Disease https://www.mdpi.com/1999-4915/9/6/141
Healthy human gut phageome https://www.pnas.org/content/113/37/10400
猜你喜歡
10000+: 菌群分析
寶寶與貓狗 提DNA發(fā)Nature 實驗分析誰對結(jié)果影響大 Cell微生物專刊 腸道指揮大腦
系列教程:微生物組入門 Biostar 微生物組 宏基因組
專業(yè)技能:生信寶典 學(xué)術(shù)圖表 高分文章 不可或缺的人
一文讀懂:宏基因組 寄生蟲益處 進化樹
必備技能:提問 搜索 Endnote
文獻閱讀 熱心腸 SemanticScholar Geenmedical
擴增子分析:圖表解讀 分析流程 統(tǒng)計繪圖
16S功能預(yù)測 PICRUSt FAPROTAX Bugbase Tax4Fun
在線工具:16S預(yù)測培養(yǎng)基 生信繪圖
科研經(jīng)驗:云筆記 云協(xié)作 公眾號
編程模板: Shell R Perl
生物科普: 腸道細菌 人體上的生命 生命大躍進 細胞暗戰(zhàn) 人體奧秘
————————————————
版權(quán)聲明:本文為CSDN博主「劉永鑫Adam」的原創(chuàng)文章助析,遵循CC 4.0 BY-SA版權(quán)協(xié)議犀被,轉(zhuǎn)載請附上原文出處鏈接及本聲明。
原文鏈接:https://blog.csdn.net/woodcorpse/article/details/88087034

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末外冀,一起剝皮案震驚了整個濱河市弱判,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌锥惋,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,126評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件开伏,死亡現(xiàn)場離奇詭異膀跌,居然都是意外死亡,警方通過查閱死者的電腦和手機固灵,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評論 2 382
  • 文/潘曉璐 我一進店門捅伤,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人巫玻,你說我怎么就攤上這事丛忆§艋悖” “怎么了?”我有些...
    開封第一講書人閱讀 152,445評論 0 341
  • 文/不壞的土叔 我叫張陵熄诡,是天一觀的道長可很。 經(jīng)常有香客問我,道長凰浮,這世上最難降的妖魔是什么我抠? 我笑而不...
    開封第一講書人閱讀 55,185評論 1 278
  • 正文 為了忘掉前任,我火速辦了婚禮袜茧,結(jié)果婚禮上菜拓,老公的妹妹穿的比我還像新娘。我一直安慰自己笛厦,他們只是感情好纳鼎,可當我...
    茶點故事閱讀 64,178評論 5 371
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著裳凸,像睡著了一般贱鄙。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上登舞,一...
    開封第一講書人閱讀 48,970評論 1 284
  • 那天贰逾,我揣著相機與錄音,去河邊找鬼菠秒。 笑死疙剑,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的践叠。 我是一名探鬼主播言缤,決...
    沈念sama閱讀 38,276評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼禁灼!你這毒婦竟也來了管挟?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 36,927評論 0 259
  • 序言:老撾萬榮一對情侶失蹤弄捕,失蹤者是張志新(化名)和其女友劉穎僻孝,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體守谓,經(jīng)...
    沈念sama閱讀 43,400評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡穿铆,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,883評論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了斋荞。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片荞雏。...
    茶點故事閱讀 37,997評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出凤优,到底是詐尸還是另有隱情悦陋,我是刑警寧澤,帶...
    沈念sama閱讀 33,646評論 4 322
  • 正文 年R本政府宣布筑辨,位于F島的核電站俺驶,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏挖垛。R本人自食惡果不足惜痒钝,卻給世界環(huán)境...
    茶點故事閱讀 39,213評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望痢毒。 院中可真熱鬧送矩,春花似錦、人聲如沸哪替。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽凭舶。三九已至晌块,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間帅霜,已是汗流浹背匆背。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評論 1 260
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留身冀,地道東北人钝尸。 一個月前我還...
    沈念sama閱讀 45,423評論 2 352
  • 正文 我出身青樓,卻偏偏與公主長得像搂根,于是被迫代替她去往敵國和親珍促。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 42,722評論 2 345

推薦閱讀更多精彩內(nèi)容

  • 今天感恩節(jié)哎剩愧,感謝一直在我身邊的親朋好友猪叙。感恩相遇!感恩不離不棄仁卷。 中午開了第一次的黨會穴翩,身份的轉(zhuǎn)變要...
    迷月閃星情閱讀 10,551評論 0 11
  • 彩排完,天已黑
    劉凱書法閱讀 4,187評論 1 3
  • 沒事就多看看書锦积,因為腹有詩書氣自華藏否,讀書萬卷始通神。沒事就多出去旅游充包,別因為沒錢而找借口,因為只要你省吃儉用,來...
    向陽之心閱讀 4,774評論 3 11
  • 表情是什么基矮,我認為表情就是表現(xiàn)出來的情緒淆储。表情可以傳達很多信息。高興了當然就笑了家浇,難過就哭了本砰。兩者是相互影響密不可...
    Persistenc_6aea閱讀 124,154評論 2 7