熱點綜述 | 利用宏基因組數(shù)據(jù)促進(jìn)蛋白質(zhì)結(jié)構(gòu)預(yù)測和新功能蛋白的發(fā)現(xiàn)

在過去的十年中，宏基因組測序技術(shù)以驚人的速度提供了越來越多的蛋白序列數(shù)據(jù)伊约，這些數(shù)據(jù)已被用于各研究領(lǐng)域，如研究腸道微生物群在人類疾病和衰老中的作用孕蝉。然而屡律，在收集的所有宏基因組序列中，只有一小部分在功能或結(jié)構(gòu)上進(jìn)行了表征降淮，其中大部分尚未被探索超埋。近日《Computational and Structural Biotechnology Journal》發(fā)表了一篇Mini review，回顧了宏基因組數(shù)據(jù)如何被用于蛋白質(zhì)結(jié)構(gòu)預(yù)測和蛋白質(zhì)發(fā)現(xiàn)佳鳖。

宏基因組資源和數(shù)據(jù)庫

作者首先回顧了廣泛用于各種研究（如蛋白質(zhì)結(jié)構(gòu)預(yù)測霍殴、代謝基因簇發(fā)現(xiàn)、酶發(fā)現(xiàn)和基因功能預(yù)測等）的宏基因組數(shù)據(jù)庫：IMG/M, MGnify, MetaClust和BFD系吩。

IMG/M是一個綜合的數(shù)據(jù)管理資源来庭，用于分析注釋的基因組和宏基因組序列數(shù)據(jù)。其數(shù)據(jù)量正在迅速增長穿挨，從分離的基因組中獲得約3.6億個基因月弛，從宏基因組中獲得660億個基因。后者主要來自人類腸道微生物群以及海洋和淡水微生物系統(tǒng)科盛。IMG/M包括一套用于數(shù)據(jù)分析的基因組工具帽衙，如IMG/ABC用于研究生物合成基因簇和次級代謝物，IMG/VR用于分析來自宏基因組樣本的病毒基因組片段贞绵。其還提供多種搜索功能厉萝，例如通過BLAST、KEGG酶和途徑、CATH families和Pfam domains搜索數(shù)據(jù)庫中目標(biāo)序列的同源蛋白冀泻。

MGnify是一個分析常侣、探索和歸檔微生物組信息的綜合平臺。它是世界上最大的微生物組數(shù)據(jù)資源之一弹渔，也是一個整合了多種基因組工具的用戶友好型平臺胳施。共有約4000項公開的研究，對應(yīng)約325,000個樣本和437,000項分析被存入該數(shù)據(jù)庫中肢专。MGnify提供了一個非冗余的蛋白質(zhì)集舞肆，該蛋白質(zhì)集是由所有組裝的數(shù)據(jù)集分析產(chǎn)生的，包含超過10億個序列博杖。其還提供了非常有用的工具椿胯，例如使用HMMER查詢非冗余蛋白質(zhì)數(shù)據(jù)集的序列同源性。

MetaClust數(shù)據(jù)庫包含約16億個蛋白序列片段剃根，由基因預(yù)測程序Prodigal從多個資源中獲得的約1800個宏基因組和400個宏轉(zhuǎn)錄組數(shù)據(jù)集中預(yù)測哩盲。使用Linclust將這些序列聚類為4.24億個類，即MetaClust是一個隨時可用的工具狈醉，可提供4.24億個代表性序列廉油。

與其他數(shù)據(jù)庫不同，BFD是一個序列特征數(shù)據(jù)庫苗傅。它包含約6500萬個以MSAs和HMMs表示的家族抒线。

上述數(shù)據(jù)庫也是在蛋白質(zhì)結(jié)構(gòu)預(yù)測關(guān)鍵評估（CASP）中常用的宏基因組數(shù)據(jù)庫。其他宏基因組數(shù)據(jù)庫有：對宏基因組進(jìn)行存儲渣慕、注釋嘶炭、系統(tǒng)發(fā)育研究和功能分析的MG-RAST；收集真核生物宏基因組數(shù)據(jù)的數(shù)據(jù)庫TOPAZ逊桦、SMAGs和MetaEuk眨猎；病毒宏基因組數(shù)據(jù)庫，MetaVir卫袒、VIROME宵呛、MGV和GPD。

將宏基因組學(xué)數(shù)據(jù)整合到結(jié)構(gòu)預(yù)測流程中

提高蛋白質(zhì)結(jié)構(gòu)預(yù)測的準(zhǔn)確性

宏基因組數(shù)據(jù)首次用于改善多序列比對(MSA)質(zhì)量是在2017年：將IMG/M數(shù)據(jù)庫與UniRef30相結(jié)合夕凝，可以獲得更深層次的MSA宝穗。這一改進(jìn)導(dǎo)致使用GREMLIN對大約20%的Pfam家族的蛋白質(zhì)接觸圖進(jìn)行更準(zhǔn)確的預(yù)測，進(jìn)而通過Rosetta生成更準(zhǔn)確的3D結(jié)構(gòu)码秉。在此之后逮矛，整合多宏基因組數(shù)據(jù)源的結(jié)構(gòu)預(yù)測工具已經(jīng)被開發(fā)出來。

CASP14中的一些預(yù)測方法使用DeepMSA流程根據(jù)宏基因組數(shù)據(jù)庫查詢目標(biāo)序列转砖。然而须鼎，AlphaFold2鲸伴、D-I-Tasser和RoseTTaFold等性能更好的方法開發(fā)了新的、改進(jìn)的同源序列搜索流程晋控，將多種方法結(jié)合起來挖掘宏基因組數(shù)據(jù)庫汞窗，例如CASP14中占主導(dǎo)地位的AlphaFold2，其使用JackHMMER在UniRef90和MGnify中進(jìn)行同源搜索赡译，同時使用HHBlits在BFD和Uniclust30中進(jìn)行同源搜索仲吏。然后對這些搜索的輸出MSA進(jìn)行重復(fù)數(shù)據(jù)消除并疊加在一起，以進(jìn)一步提高收集的同源序列的數(shù)量蝌焚。該流程使結(jié)構(gòu)預(yù)測性能平均提高約6%裹唆。

DeepMSA方法已推廣到DeepMSA2，其中除Uniclust30和UniRef90基因組序列數(shù)據(jù)庫外只洒，還挖掘了MetaClust许帐、BFD、MGnify和IMG/M毕谴。整個流程由一系列復(fù)雜的步驟組成成畦，包括用JackHammer、HHBlits和HMMsearch進(jìn)行多輪的數(shù)據(jù)庫挖掘涝开，其提供的MSA深度比原來的DeepMSA流程深40%到150%羡鸥。

最近，一個計算效率更高的MSA生成流程已經(jīng)被引入忠寻。它采用MMseqs2來挖掘UniRef30，并利用生成的序列圖譜存和，對兩個新的數(shù)據(jù)庫（BFD/MGnify和ColabFoldDB）進(jìn)行迭代搜索奕剃。

與不依賴宏基因組信息的標(biāo)準(zhǔn)方法相比，這些方法的準(zhǔn)確性得到了提高捐腿，這表明宏基因組學(xué)在蛋白質(zhì)結(jié)構(gòu)預(yù)測領(lǐng)域發(fā)揮了核心作用纵朋。這是因為目前的序列數(shù)據(jù)庫盡管增長迅速，但還遠(yuǎn)遠(yuǎn)不夠完整茄袖，它們包含的目標(biāo)蛋白的同源序列太少操软。宏基因組序列數(shù)據(jù)庫具有填補這一空白的優(yōu)勢。需要注意的是宪祥，結(jié)合使用多個宏基因組數(shù)據(jù)庫的不同挖掘算法和參數(shù)聂薪，可以進(jìn)一步改善同源序列的搜索，從而有助于構(gòu)建更深入的MSA蝗羊，確定蛋白質(zhì)結(jié)構(gòu)預(yù)測所需的更準(zhǔn)確的進(jìn)化信息藏澳。

整合的宏基因組數(shù)據(jù)越多越好么？

考慮到序列的有效數(shù)量耀找、序列覆蓋率和比對精度之間的權(quán)衡翔悠，在比對中擁有更多的序列同源物并不一定更好。

在最近一項有趣的研究中，針對一組約2000個沒有結(jié)構(gòu)模板的Pfam家族蓄愁，研究了微生物生態(tài)位與同源蛋白質(zhì)家族之間的聯(lián)系双炕。從腸道、湖泊撮抓、土壤和發(fā)酵罐四個不同的微生物群落依次用于MSA富集妇斤，以測試它們改善3D結(jié)構(gòu)預(yù)測的能力。事實證明胀滚，當(dāng)只使用一個或幾個與目標(biāo)蛋白質(zhì)家族相關(guān)的特定生物群落時趟济，Pfam家族的結(jié)構(gòu)建模更精確。

這促使我們提出了一個名為MetaSource的預(yù)測模型咽笼，該模型能夠識別一個或一組生物群落顷编，從而更好地構(gòu)建MSA，并對一個給定的Pfam家族進(jìn)行建模剑刑。需要注意的是媳纬，這種方法不僅產(chǎn)生了更高的準(zhǔn)確性，而且在計算效率上也有明顯提高：比考慮所有宏基因組信息集的速度快3.3倍左右施掏。

整合宏基因組學(xué)數(shù)據(jù)進(jìn)行功能注釋和驗證

促進(jìn)酶的發(fā)現(xiàn)

使用從各種不同環(huán)境（從動物瘤胃到海洋钮惠、水和土壤）中提取的海量序列數(shù)據(jù)，在過去十年中徹底改變了新酶的發(fā)現(xiàn)過程七芭。從相關(guān)研究估計至少有500種新的酶是通過基于宏基因組學(xué)的方法被發(fā)現(xiàn)的素挽。從宏基因組數(shù)據(jù)中發(fā)現(xiàn)新酶主要有兩種方法，即基于功能的篩選和基于序列的篩選狸驳，其中通過基于序列的篩選進(jìn)行宏基因組酶發(fā)現(xiàn)的自動計算流程的示例有MetaHMM 和 ANASTASIA预明。

微生物組中的CRISPR-Cas系統(tǒng)識別

由于CRISPR-Cas系統(tǒng)在基因組編輯方面的巨大潛力，因此需要對宏基因組數(shù)據(jù)集進(jìn)行挖掘以發(fā)現(xiàn)新的此類系統(tǒng)耙箍。例如使用Prodigal從三個來源的宏基因組數(shù)據(jù)中提取了1.55億個蛋白編碼基因撰糠。使用HMMER對這組序列進(jìn)行了Cas蛋白同源物的搜索，同時使用CrisprFinder檢測工具對CRISPR陣列進(jìn)行識別辩昆。這一分析導(dǎo)致了新的CRISPR-Cas系統(tǒng)的鑒定：古細(xì)菌中的CRISPR-Cas9阅酪，細(xì)菌中的CRISPR-CasX和CasY。此外汁针，另一項研究中Crass工具已被用于從未組裝的宏基因組數(shù)據(jù)中識別和重建CRISPR术辐。此外，已經(jīng)開發(fā)了幾種發(fā)現(xiàn)CRISPR重復(fù)序列的生物信息學(xué)工具施无，其中包括MinCED（github.com/ctSkennerton/MinCED）术吗、MetaCRAST、Crass和metaCRT帆精。值得注意的是较屿，還可以通過挖掘宏基因組數(shù)據(jù)庫來探索抗CRISPR隧魄，即CRISPR-Cas系統(tǒng)的天然抑制劑。

對抗性組（resistome）進(jìn)行功能注釋和分析

耐藥性是微生物學(xué)中的另一個中心問題隘蝎，宏基因組數(shù)據(jù)在其中起著基礎(chǔ)性作用购啄。鑒定土壤細(xì)菌、人類腸道微生物群和其他微生物群落中的抗生素耐藥基因（ARG）對于全面了解抗生素耐藥性的起源嘱么、進(jìn)化和維持非常重要狮含，這些基因可能充當(dāng)ARG的儲存庫。其中一項研究利用蛋白質(zhì)3D結(jié)構(gòu)曼振，開發(fā)了一種基于同源建模和機器學(xué)習(xí)技術(shù)相結(jié)合的方法几迄，能夠正確識別腸道微生物群中的ARG。

土壤無疑是ARG的另一個儲存庫冰评，因為它與畜牧業(yè)和農(nóng)業(yè)中使用的抗生素直接接觸映胁。通過對土壤源性細(xì)菌培養(yǎng)物的功能性宏基因組學(xué)分析，證明了土壤中的細(xì)菌和臨床病原體之間存在ARG交換甲雅。

在提高數(shù)據(jù)分析和宏基因組數(shù)據(jù)庫的標(biāo)準(zhǔn)化方面所做的大量努力已經(jīng)在酶發(fā)現(xiàn)解孙、3D蛋白質(zhì)結(jié)構(gòu)預(yù)測和功能注釋方面取得了令人印象深刻的進(jìn)展。人類微生物群在疾病抛人、衰老和抗生素耐藥性中的作用的研究也從這些進(jìn)展中受益匪淺弛姜。

目前宏基因組數(shù)據(jù)量的激增給生物信息學(xué)工具帶來了挑戰(zhàn)，尤其是在數(shù)據(jù)存儲妖枚、分析以及不同宏基因組技術(shù)的整合方面廷臼，包括宏轉(zhuǎn)錄組學(xué)、宏蛋白質(zhì)組學(xué)和代謝組學(xué)绝页。這些工具的改進(jìn)將在未來給這些領(lǐng)域帶來進(jìn)一步發(fā)展中剩，也將促進(jìn)或繼續(xù)推動本文中未分析的一系列其他應(yīng)用，例如蛋白質(zhì)功能預(yù)測抒寂，蛋白質(zhì)相互作用和蛋白質(zhì)復(fù)合物結(jié)構(gòu)的預(yù)測，以及新型病毒病原體的檢測和追蹤掠剑。

首發(fā)公號：國家基因庫大數(shù)據(jù)平臺

參考文獻(xiàn)

Hou Q, Pucci F, Pan F, et al. Using metagenomic data to boost protein structure prediction and discovery[J]. Computational and Structural Biotechnology Journal, 2022.

圖片均來源于參考文獻(xiàn)屈芜，如有侵權(quán)請聯(lián)系刪除。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末朴译，一起剝皮案震驚了整個濱河市井佑，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌眠寿，老刑警劉巖躬翁，帶你破解...
沈念sama閱讀 206,013評論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異盯拱，居然都是意外死亡盒发，警方通過查閱死者的電腦和手機例嘱，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,205評論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來宁舰，“玉大人拼卵，你說我怎么就攤上這事÷瑁” “怎么了腋腮？”我有些...
開封第一講書人閱讀 152,370評論 0贊 342
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長壤蚜。經(jīng)常有香客問我即寡，道長，這世上最難降的妖魔是什么袜刷？我笑而不...
開封第一講書人閱讀 55,168評論 1贊 278
?港島之戀（遺憾婚禮）
正文為了忘掉前任聪富，我火速辦了婚禮，結(jié)果婚禮上水泉，老公的妹妹穿的比我還像新娘善涨。我一直安慰自己，他們只是感情好草则，可當(dāng)我...
茶點故事閱讀 64,153評論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布钢拧。她就那樣靜靜地躺著，像睡著了一般炕横。火紅的嫁衣襯著肌膚如雪源内。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 48,954評論 1贊 283
城市分裂傳說
那天份殿，我揣著相機與錄音膜钓，去河邊找鬼。笑死卿嘲，一個胖子當(dāng)著我的面吹牛颂斜，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播拾枣，決...
沈念sama閱讀 38,271評論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼沃疮，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了梅肤？” 一聲冷哼從身側(cè)響起司蔬，我...
開封第一講書人閱讀 36,916評論 0贊 259
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎姨蝴，沒想到半個月后俊啼，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 43,382評論 1贊 300
?護(hù)林員之死
正文獨居荒郊野嶺守林人離奇死亡左医，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 35,877評論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年授帕，在試婚紗的時候發(fā)現(xiàn)自己被綠了同木。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 37,989評論 1贊 333
活死人
序言：一個原本活蹦亂跳的男人離奇死亡豪墅，死狀恐怖泉手，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情偶器，我是刑警寧澤斩萌，帶...
沈念sama閱讀 33,624評論 4贊 322
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站屏轰，受9級特大地震影響颊郎，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜霎苗，卻給世界環(huán)境...
茶點故事閱讀 39,209評論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一姆吭、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧唁盏，春花似錦内狸、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,199評論 0贊 19
一樁弒父案昆淡，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至刽严，卻和暖如春昂灵，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背舞萄。一陣腳步聲響...
開封第一講書人閱讀 31,418評論 1贊 260
情欲美人皮
我被黑心中介騙來泰國打工眨补，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人倒脓。一個月前我還...
沈念sama閱讀 45,401評論 2贊 352
代替公主和親
正文我出身青樓撑螺，卻偏偏與公主長得像，于是被迫代替她去往敵國和親崎弃。傳聞我的和親對象是個殘疾皇子甘晤，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 42,700評論 2贊 345