熱點綜述 | 利用宏基因組數(shù)據(jù)促進(jìn)蛋白質(zhì)結(jié)構(gòu)預(yù)測和新功能蛋白的發(fā)現(xiàn)

在過去的十年中,宏基因組測序技術(shù)以驚人的速度提供了越來越多的蛋白序列數(shù)據(jù)伊约,這些數(shù)據(jù)已被用于各研究領(lǐng)域,如研究腸道微生物群在人類疾病和衰老中的作用孕蝉。然而屡律,在收集的所有宏基因組序列中,只有一小部分在功能或結(jié)構(gòu)上進(jìn)行了表征降淮,其中大部分尚未被探索超埋。近日《Computational and Structural Biotechnology Journal》發(fā)表了一篇Mini review,回顧了宏基因組數(shù)據(jù)如何被用于蛋白質(zhì)結(jié)構(gòu)預(yù)測和蛋白質(zhì)發(fā)現(xiàn)佳鳖。


宏基因組資源和數(shù)據(jù)庫

作者首先回顧了廣泛用于各種研究(如蛋白質(zhì)結(jié)構(gòu)預(yù)測霍殴、代謝基因簇發(fā)現(xiàn)、酶發(fā)現(xiàn)和基因功能預(yù)測等)的宏基因組數(shù)據(jù)庫:IMG/M, MGnify, MetaClust和BFD系吩。

IMG/M是一個綜合的數(shù)據(jù)管理資源来庭,用于分析注釋的基因組和宏基因組序列數(shù)據(jù)。其數(shù)據(jù)量正在迅速增長穿挨,從分離的基因組中獲得約3.6億個基因月弛,從宏基因組中獲得660億個基因。后者主要來自人類腸道微生物群以及海洋和淡水微生物系統(tǒng)科盛。IMG/M包括一套用于數(shù)據(jù)分析的基因組工具帽衙,如IMG/ABC用于研究生物合成基因簇和次級代謝物,IMG/VR用于分析來自宏基因組樣本的病毒基因組片段贞绵。其還提供多種搜索功能厉萝,例如通過BLAST、KEGG酶和途徑、CATH families和Pfam domains搜索數(shù)據(jù)庫中目標(biāo)序列的同源蛋白冀泻。

MGnify是一個分析常侣、探索和歸檔微生物組信息的綜合平臺。它是世界上最大的微生物組數(shù)據(jù)資源之一弹渔,也是一個整合了多種基因組工具的用戶友好型平臺胳施。共有約4000項公開的研究,對應(yīng)約325,000個樣本和437,000項分析被存入該數(shù)據(jù)庫中肢专。MGnify提供了一個非冗余的蛋白質(zhì)集舞肆,該蛋白質(zhì)集是由所有組裝的數(shù)據(jù)集分析產(chǎn)生的,包含超過10億個序列博杖。其還提供了非常有用的工具椿胯,例如使用HMMER查詢非冗余蛋白質(zhì)數(shù)據(jù)集的序列同源性。

MetaClust數(shù)據(jù)庫包含約16億個蛋白序列片段剃根,由基因預(yù)測程序Prodigal從多個資源中獲得的約1800個宏基因組和400個宏轉(zhuǎn)錄組數(shù)據(jù)集中預(yù)測哩盲。使用Linclust將這些序列聚類為4.24億個類,即MetaClust是一個隨時可用的工具狈醉,可提供4.24億個代表性序列廉油。

與其他數(shù)據(jù)庫不同,BFD是一個序列特征數(shù)據(jù)庫苗傅。它包含約6500萬個以MSAs和HMMs表示的家族抒线。

上述數(shù)據(jù)庫也是在蛋白質(zhì)結(jié)構(gòu)預(yù)測關(guān)鍵評估(CASP)中常用的宏基因組數(shù)據(jù)庫。其他宏基因組數(shù)據(jù)庫有:對宏基因組進(jìn)行存儲渣慕、注釋嘶炭、系統(tǒng)發(fā)育研究和功能分析的MG-RAST;收集真核生物宏基因組數(shù)據(jù)的數(shù)據(jù)庫TOPAZ逊桦、SMAGs和MetaEuk眨猎;病毒宏基因組數(shù)據(jù)庫,MetaVir卫袒、VIROME宵呛、MGV和GPD


將宏基因組學(xué)數(shù)據(jù)整合到結(jié)構(gòu)預(yù)測流程中

提高蛋白質(zhì)結(jié)構(gòu)預(yù)測的準(zhǔn)確性

宏基因組數(shù)據(jù)首次用于改善多序列比對(MSA)質(zhì)量是在2017年:將IMG/M數(shù)據(jù)庫與UniRef30相結(jié)合夕凝,可以獲得更深層次的MSA宝穗。這一改進(jìn)導(dǎo)致使用GREMLIN對大約20%的Pfam家族的蛋白質(zhì)接觸圖進(jìn)行更準(zhǔn)確的預(yù)測,進(jìn)而通過Rosetta生成更準(zhǔn)確的3D結(jié)構(gòu)码秉。在此之后逮矛,整合多宏基因組數(shù)據(jù)源的結(jié)構(gòu)預(yù)測工具已經(jīng)被開發(fā)出來。

CASP14中的一些預(yù)測方法使用DeepMSA流程根據(jù)宏基因組數(shù)據(jù)庫查詢目標(biāo)序列转砖。然而须鼎,AlphaFold2鲸伴、D-I-Tasser和RoseTTaFold等性能更好的方法開發(fā)了新的、改進(jìn)的同源序列搜索流程晋控,將多種方法結(jié)合起來挖掘宏基因組數(shù)據(jù)庫汞窗,例如CASP14中占主導(dǎo)地位的AlphaFold2,其使用JackHMMER在UniRef90和MGnify中進(jìn)行同源搜索赡译,同時使用HHBlits在BFD和Uniclust30中進(jìn)行同源搜索仲吏。然后對這些搜索的輸出MSA進(jìn)行重復(fù)數(shù)據(jù)消除并疊加在一起,以進(jìn)一步提高收集的同源序列的數(shù)量蝌焚。該流程使結(jié)構(gòu)預(yù)測性能平均提高約6%裹唆。

DeepMSA方法已推廣到DeepMSA2,其中除Uniclust30和UniRef90基因組序列數(shù)據(jù)庫外只洒,還挖掘了MetaClust许帐、BFD、MGnify和IMG/M毕谴。整個流程由一系列復(fù)雜的步驟組成成畦,包括用JackHammer、HHBlits和HMMsearch進(jìn)行多輪的數(shù)據(jù)庫挖掘涝开,其提供的MSA深度比原來的DeepMSA流程深40%到150%羡鸥。

最近,一個計算效率更高的MSA生成流程已經(jīng)被引入忠寻。它采用MMseqs2來挖掘UniRef30,并利用生成的序列圖譜存和,對兩個新的數(shù)據(jù)庫(BFD/MGnify和ColabFoldDB)進(jìn)行迭代搜索奕剃。

與不依賴宏基因組信息的標(biāo)準(zhǔn)方法相比,這些方法的準(zhǔn)確性得到了提高捐腿,這表明宏基因組學(xué)在蛋白質(zhì)結(jié)構(gòu)預(yù)測領(lǐng)域發(fā)揮了核心作用纵朋。這是因為目前的序列數(shù)據(jù)庫盡管增長迅速,但還遠(yuǎn)遠(yuǎn)不夠完整茄袖,它們包含的目標(biāo)蛋白的同源序列太少操软。宏基因組序列數(shù)據(jù)庫具有填補這一空白的優(yōu)勢。需要注意的是宪祥,結(jié)合使用多個宏基因組數(shù)據(jù)庫的不同挖掘算法和參數(shù)聂薪,可以進(jìn)一步改善同源序列的搜索,從而有助于構(gòu)建更深入的MSA蝗羊,確定蛋白質(zhì)結(jié)構(gòu)預(yù)測所需的更準(zhǔn)確的進(jìn)化信息藏澳。

整合的宏基因組數(shù)據(jù)越多越好么?

考慮到序列的有效數(shù)量耀找、序列覆蓋率和比對精度之間的權(quán)衡翔悠,在比對中擁有更多的序列同源物并不一定更好

在最近一項有趣的研究中,針對一組約2000個沒有結(jié)構(gòu)模板的Pfam家族蓄愁,研究了微生物生態(tài)位與同源蛋白質(zhì)家族之間的聯(lián)系双炕。從腸道、湖泊撮抓、土壤和發(fā)酵罐四個不同的微生物群落依次用于MSA富集妇斤,以測試它們改善3D結(jié)構(gòu)預(yù)測的能力。事實證明胀滚,當(dāng)只使用一個或幾個與目標(biāo)蛋白質(zhì)家族相關(guān)的特定生物群落時趟济,Pfam家族的結(jié)構(gòu)建模更精確。

這促使我們提出了一個名為MetaSource的預(yù)測模型咽笼,該模型能夠識別一個或一組生物群落顷编,從而更好地構(gòu)建MSA,并對一個給定的Pfam家族進(jìn)行建模剑刑。需要注意的是媳纬,這種方法不僅產(chǎn)生了更高的準(zhǔn)確性,而且在計算效率上也有明顯提高:比考慮所有宏基因組信息集的速度快3.3倍左右施掏。


整合宏基因組學(xué)數(shù)據(jù)進(jìn)行功能注釋和驗證

促進(jìn)酶的發(fā)現(xiàn)

使用從各種不同環(huán)境(從動物瘤胃到海洋钮惠、水和土壤)中提取的海量序列數(shù)據(jù),在過去十年中徹底改變了新酶的發(fā)現(xiàn)過程七芭。從相關(guān)研究估計至少有500種新的酶是通過基于宏基因組學(xué)的方法被發(fā)現(xiàn)的素挽。從宏基因組數(shù)據(jù)中發(fā)現(xiàn)新酶主要有兩種方法,即基于功能的篩選和基于序列的篩選狸驳,其中通過基于序列的篩選進(jìn)行宏基因組酶發(fā)現(xiàn)的自動計算流程的示例有MetaHMM 和 ANASTASIA预明。

微生物組中的CRISPR-Cas系統(tǒng)識別

由于CRISPR-Cas系統(tǒng)在基因組編輯方面的巨大潛力,因此需要對宏基因組數(shù)據(jù)集進(jìn)行挖掘以發(fā)現(xiàn)新的此類系統(tǒng)耙箍。例如使用Prodigal從三個來源的宏基因組數(shù)據(jù)中提取了1.55億個蛋白編碼基因撰糠。使用HMMER對這組序列進(jìn)行了Cas蛋白同源物的搜索,同時使用CrisprFinder檢測工具對CRISPR陣列進(jìn)行識別辩昆。這一分析導(dǎo)致了新的CRISPR-Cas系統(tǒng)的鑒定:古細(xì)菌中的CRISPR-Cas9阅酪,細(xì)菌中的CRISPR-CasX和CasY。此外汁针,另一項研究中Crass工具已被用于從未組裝的宏基因組數(shù)據(jù)中識別和重建CRISPR术辐。此外,已經(jīng)開發(fā)了幾種發(fā)現(xiàn)CRISPR重復(fù)序列的生物信息學(xué)工具施无,其中包括MinCED(github.com/ctSkennerton/MinCED)术吗、MetaCRAST、Crass和metaCRT帆精。值得注意的是较屿,還可以通過挖掘宏基因組數(shù)據(jù)庫來探索抗CRISPR隧魄,即CRISPR-Cas系統(tǒng)的天然抑制劑。

對抗性組(resistome)進(jìn)行功能注釋和分析

耐藥性是微生物學(xué)中的另一個中心問題隘蝎,宏基因組數(shù)據(jù)在其中起著基礎(chǔ)性作用购啄。鑒定土壤細(xì)菌、人類腸道微生物群和其他微生物群落中的抗生素耐藥基因(ARG)對于全面了解抗生素耐藥性的起源嘱么、進(jìn)化和維持非常重要狮含,這些基因可能充當(dāng)ARG的儲存庫。其中一項研究利用蛋白質(zhì)3D結(jié)構(gòu)曼振,開發(fā)了一種基于同源建模和機器學(xué)習(xí)技術(shù)相結(jié)合的方法几迄,能夠正確識別腸道微生物群中的ARG。

土壤無疑是ARG的另一個儲存庫冰评,因為它與畜牧業(yè)和農(nóng)業(yè)中使用的抗生素直接接觸映胁。通過對土壤源性細(xì)菌培養(yǎng)物的功能性宏基因組學(xué)分析,證明了土壤中的細(xì)菌和臨床病原體之間存在ARG交換甲雅。


在提高數(shù)據(jù)分析和宏基因組數(shù)據(jù)庫的標(biāo)準(zhǔn)化方面所做的大量努力已經(jīng)在酶發(fā)現(xiàn)解孙、3D蛋白質(zhì)結(jié)構(gòu)預(yù)測和功能注釋方面取得了令人印象深刻的進(jìn)展。人類微生物群在疾病抛人、衰老和抗生素耐藥性中的作用的研究也從這些進(jìn)展中受益匪淺弛姜。

目前宏基因組數(shù)據(jù)量的激增給生物信息學(xué)工具帶來了挑戰(zhàn),尤其是在數(shù)據(jù)存儲妖枚、分析以及不同宏基因組技術(shù)的整合方面廷臼,包括宏轉(zhuǎn)錄組學(xué)、宏蛋白質(zhì)組學(xué)和代謝組學(xué)绝页。這些工具的改進(jìn)將在未來給這些領(lǐng)域帶來進(jìn)一步發(fā)展中剩,也將促進(jìn)或繼續(xù)推動本文中未分析的一系列其他應(yīng)用,例如蛋白質(zhì)功能預(yù)測抒寂,蛋白質(zhì)相互作用和蛋白質(zhì)復(fù)合物結(jié)構(gòu)的預(yù)測,以及新型病毒病原體的檢測和追蹤掠剑。


首發(fā)公號:國家基因庫大數(shù)據(jù)平臺

參考文獻(xiàn)

Hou Q, Pucci F, Pan F, et al. Using metagenomic data to boost protein structure prediction and discovery[J]. Computational and Structural Biotechnology Journal, 2022.

圖片均來源于參考文獻(xiàn)屈芜,如有侵權(quán)請聯(lián)系刪除。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末朴译,一起剝皮案震驚了整個濱河市井佑,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌眠寿,老刑警劉巖躬翁,帶你破解...
    沈念sama閱讀 206,013評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異盯拱,居然都是意外死亡盒发,警方通過查閱死者的電腦和手機例嘱,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,205評論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來宁舰,“玉大人拼卵,你說我怎么就攤上這事÷瑁” “怎么了腋腮?”我有些...
    開封第一講書人閱讀 152,370評論 0 342
  • 文/不壞的土叔 我叫張陵,是天一觀的道長壤蚜。 經(jīng)常有香客問我即寡,道長,這世上最難降的妖魔是什么袜刷? 我笑而不...
    開封第一講書人閱讀 55,168評論 1 278
  • 正文 為了忘掉前任聪富,我火速辦了婚禮,結(jié)果婚禮上水泉,老公的妹妹穿的比我還像新娘善涨。我一直安慰自己,他們只是感情好草则,可當(dāng)我...
    茶點故事閱讀 64,153評論 5 371
  • 文/花漫 我一把揭開白布钢拧。 她就那樣靜靜地躺著,像睡著了一般炕横。 火紅的嫁衣襯著肌膚如雪源内。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 48,954評論 1 283
  • 那天份殿,我揣著相機與錄音膜钓,去河邊找鬼。 笑死卿嘲,一個胖子當(dāng)著我的面吹牛颂斜,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播拾枣,決...
    沈念sama閱讀 38,271評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼沃疮,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了梅肤?” 一聲冷哼從身側(cè)響起司蔬,我...
    開封第一講書人閱讀 36,916評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎姨蝴,沒想到半個月后俊啼,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,382評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡左医,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,877評論 2 323
  • 正文 我和宋清朗相戀三年授帕,在試婚紗的時候發(fā)現(xiàn)自己被綠了同木。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 37,989評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡豪墅,死狀恐怖泉手,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情偶器,我是刑警寧澤斩萌,帶...
    沈念sama閱讀 33,624評論 4 322
  • 正文 年R本政府宣布,位于F島的核電站屏轰,受9級特大地震影響颊郎,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜霎苗,卻給世界環(huán)境...
    茶點故事閱讀 39,209評論 3 307
  • 文/蒙蒙 一姆吭、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧唁盏,春花似錦内狸、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,199評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至刽严,卻和暖如春昂灵,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背舞萄。 一陣腳步聲響...
    開封第一講書人閱讀 31,418評論 1 260
  • 我被黑心中介騙來泰國打工眨补, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人倒脓。 一個月前我還...
    沈念sama閱讀 45,401評論 2 352
  • 正文 我出身青樓撑螺,卻偏偏與公主長得像,于是被迫代替她去往敵國和親崎弃。 傳聞我的和親對象是個殘疾皇子甘晤,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 42,700評論 2 345

推薦閱讀更多精彩內(nèi)容