在過去的十年中,宏基因組測序技術(shù)以驚人的速度提供了越來越多的蛋白序列數(shù)據(jù)伊约,這些數(shù)據(jù)已被用于各研究領(lǐng)域,如研究腸道微生物群在人類疾病和衰老中的作用孕蝉。然而屡律,在收集的所有宏基因組序列中,只有一小部分在功能或結(jié)構(gòu)上進(jìn)行了表征降淮,其中大部分尚未被探索超埋。近日《Computational and Structural Biotechnology Journal》發(fā)表了一篇Mini review,回顧了宏基因組數(shù)據(jù)如何被用于蛋白質(zhì)結(jié)構(gòu)預(yù)測和蛋白質(zhì)發(fā)現(xiàn)佳鳖。
宏基因組資源和數(shù)據(jù)庫
作者首先回顧了廣泛用于各種研究(如蛋白質(zhì)結(jié)構(gòu)預(yù)測霍殴、代謝基因簇發(fā)現(xiàn)、酶發(fā)現(xiàn)和基因功能預(yù)測等)的宏基因組數(shù)據(jù)庫:IMG/M, MGnify, MetaClust和BFD系吩。
IMG/M是一個綜合的數(shù)據(jù)管理資源来庭,用于分析注釋的基因組和宏基因組序列數(shù)據(jù)。其數(shù)據(jù)量正在迅速增長穿挨,從分離的基因組中獲得約3.6億個基因月弛,從宏基因組中獲得660億個基因。后者主要來自人類腸道微生物群以及海洋和淡水微生物系統(tǒng)科盛。IMG/M包括一套用于數(shù)據(jù)分析的基因組工具帽衙,如IMG/ABC用于研究生物合成基因簇和次級代謝物,IMG/VR用于分析來自宏基因組樣本的病毒基因組片段贞绵。其還提供多種搜索功能厉萝,例如通過BLAST、KEGG酶和途徑、CATH families和Pfam domains搜索數(shù)據(jù)庫中目標(biāo)序列的同源蛋白冀泻。
MGnify是一個分析常侣、探索和歸檔微生物組信息的綜合平臺。它是世界上最大的微生物組數(shù)據(jù)資源之一弹渔,也是一個整合了多種基因組工具的用戶友好型平臺胳施。共有約4000項公開的研究,對應(yīng)約325,000個樣本和437,000項分析被存入該數(shù)據(jù)庫中肢专。MGnify提供了一個非冗余的蛋白質(zhì)集舞肆,該蛋白質(zhì)集是由所有組裝的數(shù)據(jù)集分析產(chǎn)生的,包含超過10億個序列博杖。其還提供了非常有用的工具椿胯,例如使用HMMER查詢非冗余蛋白質(zhì)數(shù)據(jù)集的序列同源性。
MetaClust數(shù)據(jù)庫包含約16億個蛋白序列片段剃根,由基因預(yù)測程序Prodigal從多個資源中獲得的約1800個宏基因組和400個宏轉(zhuǎn)錄組數(shù)據(jù)集中預(yù)測哩盲。使用Linclust將這些序列聚類為4.24億個類,即MetaClust是一個隨時可用的工具狈醉,可提供4.24億個代表性序列廉油。
與其他數(shù)據(jù)庫不同,BFD是一個序列特征數(shù)據(jù)庫苗傅。它包含約6500萬個以MSAs和HMMs表示的家族抒线。
上述數(shù)據(jù)庫也是在蛋白質(zhì)結(jié)構(gòu)預(yù)測關(guān)鍵評估(CASP)中常用的宏基因組數(shù)據(jù)庫。其他宏基因組數(shù)據(jù)庫有:對宏基因組進(jìn)行存儲渣慕、注釋嘶炭、系統(tǒng)發(fā)育研究和功能分析的MG-RAST;收集真核生物宏基因組數(shù)據(jù)的數(shù)據(jù)庫TOPAZ逊桦、SMAGs和MetaEuk眨猎;病毒宏基因組數(shù)據(jù)庫,MetaVir卫袒、VIROME宵呛、MGV和GPD。
將宏基因組學(xué)數(shù)據(jù)整合到結(jié)構(gòu)預(yù)測流程中
提高蛋白質(zhì)結(jié)構(gòu)預(yù)測的準(zhǔn)確性
宏基因組數(shù)據(jù)首次用于改善多序列比對(MSA)質(zhì)量是在2017年:將IMG/M數(shù)據(jù)庫與UniRef30相結(jié)合夕凝,可以獲得更深層次的MSA宝穗。這一改進(jìn)導(dǎo)致使用GREMLIN對大約20%的Pfam家族的蛋白質(zhì)接觸圖進(jìn)行更準(zhǔn)確的預(yù)測,進(jìn)而通過Rosetta生成更準(zhǔn)確的3D結(jié)構(gòu)码秉。在此之后逮矛,整合多宏基因組數(shù)據(jù)源的結(jié)構(gòu)預(yù)測工具已經(jīng)被開發(fā)出來。
CASP14中的一些預(yù)測方法使用DeepMSA流程根據(jù)宏基因組數(shù)據(jù)庫查詢目標(biāo)序列转砖。然而须鼎,AlphaFold2鲸伴、D-I-Tasser和RoseTTaFold等性能更好的方法開發(fā)了新的、改進(jìn)的同源序列搜索流程晋控,將多種方法結(jié)合起來挖掘宏基因組數(shù)據(jù)庫汞窗,例如CASP14中占主導(dǎo)地位的AlphaFold2,其使用JackHMMER在UniRef90和MGnify中進(jìn)行同源搜索赡译,同時使用HHBlits在BFD和Uniclust30中進(jìn)行同源搜索仲吏。然后對這些搜索的輸出MSA進(jìn)行重復(fù)數(shù)據(jù)消除并疊加在一起,以進(jìn)一步提高收集的同源序列的數(shù)量蝌焚。該流程使結(jié)構(gòu)預(yù)測性能平均提高約6%裹唆。
DeepMSA方法已推廣到DeepMSA2,其中除Uniclust30和UniRef90基因組序列數(shù)據(jù)庫外只洒,還挖掘了MetaClust许帐、BFD、MGnify和IMG/M毕谴。整個流程由一系列復(fù)雜的步驟組成成畦,包括用JackHammer、HHBlits和HMMsearch進(jìn)行多輪的數(shù)據(jù)庫挖掘涝开,其提供的MSA深度比原來的DeepMSA流程深40%到150%羡鸥。
最近,一個計算效率更高的MSA生成流程已經(jīng)被引入忠寻。它采用MMseqs2來挖掘UniRef30,并利用生成的序列圖譜存和,對兩個新的數(shù)據(jù)庫(BFD/MGnify和ColabFoldDB)進(jìn)行迭代搜索奕剃。
與不依賴宏基因組信息的標(biāo)準(zhǔn)方法相比,這些方法的準(zhǔn)確性得到了提高捐腿,這表明宏基因組學(xué)在蛋白質(zhì)結(jié)構(gòu)預(yù)測領(lǐng)域發(fā)揮了核心作用纵朋。這是因為目前的序列數(shù)據(jù)庫盡管增長迅速,但還遠(yuǎn)遠(yuǎn)不夠完整茄袖,它們包含的目標(biāo)蛋白的同源序列太少操软。宏基因組序列數(shù)據(jù)庫具有填補這一空白的優(yōu)勢。需要注意的是宪祥,結(jié)合使用多個宏基因組數(shù)據(jù)庫的不同挖掘算法和參數(shù)聂薪,可以進(jìn)一步改善同源序列的搜索,從而有助于構(gòu)建更深入的MSA蝗羊,確定蛋白質(zhì)結(jié)構(gòu)預(yù)測所需的更準(zhǔn)確的進(jìn)化信息藏澳。
整合的宏基因組數(shù)據(jù)越多越好么?
考慮到序列的有效數(shù)量耀找、序列覆蓋率和比對精度之間的權(quán)衡翔悠,在比對中擁有更多的序列同源物并不一定更好。
在最近一項有趣的研究中,針對一組約2000個沒有結(jié)構(gòu)模板的Pfam家族蓄愁,研究了微生物生態(tài)位與同源蛋白質(zhì)家族之間的聯(lián)系双炕。從腸道、湖泊撮抓、土壤和發(fā)酵罐四個不同的微生物群落依次用于MSA富集妇斤,以測試它們改善3D結(jié)構(gòu)預(yù)測的能力。事實證明胀滚,當(dāng)只使用一個或幾個與目標(biāo)蛋白質(zhì)家族相關(guān)的特定生物群落時趟济,Pfam家族的結(jié)構(gòu)建模更精確。
這促使我們提出了一個名為MetaSource的預(yù)測模型咽笼,該模型能夠識別一個或一組生物群落顷编,從而更好地構(gòu)建MSA,并對一個給定的Pfam家族進(jìn)行建模剑刑。需要注意的是媳纬,這種方法不僅產(chǎn)生了更高的準(zhǔn)確性,而且在計算效率上也有明顯提高:比考慮所有宏基因組信息集的速度快3.3倍左右施掏。
整合宏基因組學(xué)數(shù)據(jù)進(jìn)行功能注釋和驗證
促進(jìn)酶的發(fā)現(xiàn)
使用從各種不同環(huán)境(從動物瘤胃到海洋钮惠、水和土壤)中提取的海量序列數(shù)據(jù),在過去十年中徹底改變了新酶的發(fā)現(xiàn)過程七芭。從相關(guān)研究估計至少有500種新的酶是通過基于宏基因組學(xué)的方法被發(fā)現(xiàn)的素挽。從宏基因組數(shù)據(jù)中發(fā)現(xiàn)新酶主要有兩種方法,即基于功能的篩選和基于序列的篩選狸驳,其中通過基于序列的篩選進(jìn)行宏基因組酶發(fā)現(xiàn)的自動計算流程的示例有MetaHMM 和 ANASTASIA预明。
微生物組中的CRISPR-Cas系統(tǒng)識別
由于CRISPR-Cas系統(tǒng)在基因組編輯方面的巨大潛力,因此需要對宏基因組數(shù)據(jù)集進(jìn)行挖掘以發(fā)現(xiàn)新的此類系統(tǒng)耙箍。例如使用Prodigal從三個來源的宏基因組數(shù)據(jù)中提取了1.55億個蛋白編碼基因撰糠。使用HMMER對這組序列進(jìn)行了Cas蛋白同源物的搜索,同時使用CrisprFinder檢測工具對CRISPR陣列進(jìn)行識別辩昆。這一分析導(dǎo)致了新的CRISPR-Cas系統(tǒng)的鑒定:古細(xì)菌中的CRISPR-Cas9阅酪,細(xì)菌中的CRISPR-CasX和CasY。此外汁针,另一項研究中Crass工具已被用于從未組裝的宏基因組數(shù)據(jù)中識別和重建CRISPR术辐。此外,已經(jīng)開發(fā)了幾種發(fā)現(xiàn)CRISPR重復(fù)序列的生物信息學(xué)工具施无,其中包括MinCED(github.com/ctSkennerton/MinCED)术吗、MetaCRAST、Crass和metaCRT帆精。值得注意的是较屿,還可以通過挖掘宏基因組數(shù)據(jù)庫來探索抗CRISPR隧魄,即CRISPR-Cas系統(tǒng)的天然抑制劑。
對抗性組(resistome)進(jìn)行功能注釋和分析
耐藥性是微生物學(xué)中的另一個中心問題隘蝎,宏基因組數(shù)據(jù)在其中起著基礎(chǔ)性作用购啄。鑒定土壤細(xì)菌、人類腸道微生物群和其他微生物群落中的抗生素耐藥基因(ARG)對于全面了解抗生素耐藥性的起源嘱么、進(jìn)化和維持非常重要狮含,這些基因可能充當(dāng)ARG的儲存庫。其中一項研究利用蛋白質(zhì)3D結(jié)構(gòu)曼振,開發(fā)了一種基于同源建模和機器學(xué)習(xí)技術(shù)相結(jié)合的方法几迄,能夠正確識別腸道微生物群中的ARG。
土壤無疑是ARG的另一個儲存庫冰评,因為它與畜牧業(yè)和農(nóng)業(yè)中使用的抗生素直接接觸映胁。通過對土壤源性細(xì)菌培養(yǎng)物的功能性宏基因組學(xué)分析,證明了土壤中的細(xì)菌和臨床病原體之間存在ARG交換甲雅。
在提高數(shù)據(jù)分析和宏基因組數(shù)據(jù)庫的標(biāo)準(zhǔn)化方面所做的大量努力已經(jīng)在酶發(fā)現(xiàn)解孙、3D蛋白質(zhì)結(jié)構(gòu)預(yù)測和功能注釋方面取得了令人印象深刻的進(jìn)展。人類微生物群在疾病抛人、衰老和抗生素耐藥性中的作用的研究也從這些進(jìn)展中受益匪淺弛姜。
目前宏基因組數(shù)據(jù)量的激增給生物信息學(xué)工具帶來了挑戰(zhàn),尤其是在數(shù)據(jù)存儲妖枚、分析以及不同宏基因組技術(shù)的整合方面廷臼,包括宏轉(zhuǎn)錄組學(xué)、宏蛋白質(zhì)組學(xué)和代謝組學(xué)绝页。這些工具的改進(jìn)將在未來給這些領(lǐng)域帶來進(jìn)一步發(fā)展中剩,也將促進(jìn)或繼續(xù)推動本文中未分析的一系列其他應(yīng)用,例如蛋白質(zhì)功能預(yù)測抒寂,蛋白質(zhì)相互作用和蛋白質(zhì)復(fù)合物結(jié)構(gòu)的預(yù)測,以及新型病毒病原體的檢測和追蹤掠剑。
首發(fā)公號:國家基因庫大數(shù)據(jù)平臺
參考文獻(xiàn)
Hou Q, Pucci F, Pan F, et al. Using metagenomic data to boost protein structure prediction and discovery[J]. Computational and Structural Biotechnology Journal, 2022.
圖片均來源于參考文獻(xiàn)屈芜,如有侵權(quán)請聯(lián)系刪除。