近年來,隨著生物信息學和生命科學技術(shù)的快速發(fā)展扇救,積累了大量生物醫(yī)學數(shù)據(jù)刑枝,研究人員在此基礎(chǔ)上開發(fā)了各種計算方法,以發(fā)現(xiàn)微生物迅腔、藥物和疾病之間的潛在關(guān)聯(lián)装畅。近日《Briefings in Bioinformatics》發(fā)表綜述文章,詳細介紹了廣泛使用的微生物钾挟、藥物和疾病之間潛在關(guān)系的數(shù)據(jù)集洁灵,深入探討了一系列具有代表性的計算模型,同時分析了這一研究領(lǐng)域可能面臨的挑戰(zhàn)和機遇掺出,并提出了進一步提高預測性能的建議徽千。
數(shù)據(jù)資源
微生物-疾病關(guān)聯(lián)(MDsAs)
HMDAD覆蓋了從61項之前的研究工作中選擇的39種疾病和292種微生物(標記為DS1)之間的483種已知微生物-疾病關(guān)聯(lián)。
Disbiome納入了從1191篇已發(fā)表的學術(shù)論文中篩選出來的汤锨,372種疾病和1622種微生物組(標記為DS2)之間存在10922種已知關(guān)聯(lián)双抽。
MicroPhenDB包括新收集的22個人體部位中1781個微生物和542個人類疾病表型(標記為DS3)之間的5677個非冗余關(guān)聯(lián),以及27277個分支特異性核心基因和685個微生物之間的6969694個關(guān)聯(lián)闲礼。
MDIDB包括1198種疾病牍汹、1065種微生物和44900種關(guān)聯(lián)(標記為DS4)。?
Peryton包括連接43種疾病和1396種微生物的7977個關(guān)聯(lián)(標記為DS5)柬泽。
藥物-疾病關(guān)聯(lián)(DgDsAs)
2009年發(fā)布了CTD的第一個版本慎菲,這是一個強大而開放的數(shù)據(jù)庫,為潛在的DgDsAs預測提供手工整理的化學锨并、基因露该、蛋白質(zhì)、疾病信息及其關(guān)系第煮。除CTD外解幼,DrugBank、TTD和OMIM等數(shù)據(jù)庫也包括與DgDsAs有關(guān)的數(shù)據(jù)集包警。
微生物-藥物關(guān)聯(lián)(MDgAs)
MDAD包含從993篇文獻中收集的180種微生物和1388種藥物(標記為DS15)之間的5505種關(guān)聯(lián)撵摆。
aBiofilm包含了1988-2017年報道的5027種抗生物膜制劑(1720種特異性)的生物、化學和結(jié)構(gòu)細節(jié)害晦,這5027種藥劑針對140多種微生物(標記為DS16)特铝,包括革蘭氏陰性、革蘭氏陽性細菌和真菌。
DrugVirus總結(jié)了118種針對83種人類病毒的化合物/藥物的活性和發(fā)展狀況苟呐,其中包含1281種關(guān)聯(lián)(標記為DS17)痒芝。
MDsAs, DgDsAs和MDgAs的生物醫(yī)學數(shù)據(jù)因其成對相互作用而密切相關(guān);上述每個數(shù)據(jù)庫都可以應用于不同的預測問題牵素。
計算模型
近年來,基于上述數(shù)據(jù)庫澄者,人們提出了許多計算方法來預測微生物笆呆、藥物和疾病之間的潛在關(guān)系。
基于網(wǎng)絡(luò)的方法(network-based)
基于網(wǎng)絡(luò)的方法主要是采用基于不同數(shù)據(jù)庫構(gòu)建的不同網(wǎng)絡(luò)的拓撲信息來推斷潛在的關(guān)聯(lián)性粱挡≡唬基于網(wǎng)絡(luò)的方法可以大致分為八個子類:KATZ Measure,網(wǎng)絡(luò)嵌入(NE)询筏,標簽傳播(LP)榕堰,隨機游走(RW)或雙隨機游走(BiRW),HeteSim Score嫌套,加權(quán)網(wǎng)絡(luò)(WN)逆屡,網(wǎng)絡(luò)一致性投影(NCP)和協(xié)同過濾(CF)等。
其中踱讨,KATZ Measure可以在大規(guī)模網(wǎng)絡(luò)中同時重建潛在的關(guān)聯(lián)魏蔗,但GIP內(nèi)核相似性的計算會對那些已知的關(guān)聯(lián)造成不可避免的偏差。LP和RW算法效率高痹筛,使用簡單莺治,但大多數(shù)基于它們的預測方法包含的生物信息較少。在NE中使用的元路徑的概念可以明確地捕獲基本的高階接近性帚稠。然而谣旁,當向網(wǎng)絡(luò)添加更多的信息時,訓練嵌入的難度會增加滋早¢螅基于WN的方法和基于HeteSim的方法具有捕獲潛在細微語義關(guān)聯(lián)的強大能力,但在沒有任何已知關(guān)聯(lián)的情況下馆衔,無法完成對微生物(藥物瘟判、疾病)的預測角溃。
基于矩陣分解的方法(Matrix factorization (MF)-based)
基于MF的方法的核心思想是將輸入矩陣分解為兩個低維矩陣拷获,同時保證這兩個低維矩陣的乘積近似等于原始輸入矩陣。主要有圖正則化非負矩陣分解(GRLNN-MF)减细、邏輯矩陣分解(Logistic-MF)匆瓜、相似約束矩陣分解(SC-MF)、核貝葉斯矩陣分解(KB-MF)、協(xié)同矩陣分解(Collaborative-MF)等驮吱。
基于矩陣分解的方法可以挖掘更深的潛在聯(lián)系茧妒。同時,矩陣分解具有相對較低的空間復雜性左冬。然而桐筏,基于MF的方法通常包含更多的參數(shù)。因此拇砰,選擇最佳參數(shù)更具挑戰(zhàn)性梅忌,模型訓練也很耗時。此外除破,基于矩陣分解的模型是不可解釋的牧氮。他們在優(yōu)化模型時只更新觀察到的項目,而不考慮未觀察到的東西瑰枫。
基于矩陣補全的方法(Matrix completion (MC)-based)
矩陣補全的目的是通過矩陣分解將一個缺失值的矩陣分解為兩個或多個矩陣踱葛,然后將這些分解矩陣相乘,以獲得原始矩陣的近似矩陣光坝,從而將缺失值的矩陣恢復為完整矩陣尸诽。在MDsAs預測方面有BMCMDA和MCHMDA等模型,DgDsAs預測方面包括DRRS和HGIMC等模型教馆。
主要有三種補全模型:基于核范數(shù)松弛的矩陣補全模型逊谋、基于矩陣分解的矩陣補全模型、基于非凸函數(shù)松弛的矩陣補全模型土铺〗鹤蹋基于核范數(shù)松弛的矩陣補全模型的優(yōu)點是屬于凸優(yōu)化模型,存在全局最優(yōu)解悲敷,核范數(shù)近鄰算子具有封閉的分辨率究恤,但該模型的解釋涉及復雜的奇異值分解,求解效率有限后德,且核范數(shù)不能逼近目標矩陣的實際排列部宿。基于矩陣分解的補全模型避免了復雜矩陣奇異值分解瓢湃,可以分布式實現(xiàn)理张,但屬于非凸優(yōu)化,可能存在非全局最優(yōu)解绵患。
基于正則化的方法(Regularization (RL)-based)
基于RL的方法旨在建立不同的正則化最小二乘分類雾叭,這是一種基于核的平方損失正則化網(wǎng)絡(luò),用于解決不同的預測任務(wù)落蝙,其泛化性能受到其核參數(shù)和超參數(shù)設(shè)置的嚴重影響织狐。在MDsAs預測方面有LRLSHMDA和MdAKRLS等模型暂幼;在DgDsAs預測方面有LRSSL、RLSDR和DR2DI等模型移迫;2021年LRLSMDA模型提出旺嬉,其基于LAPLS算法,利用成本函數(shù)的最小化來計算兩個目標函數(shù)厨埋,并進一步用線性平均法轉(zhuǎn)化為預測矩陣邪媳。
正則化方法產(chǎn)生了較少的模型參數(shù),從而節(jié)省了時間荡陷,提高了穩(wěn)健性悲酷。同時,基于RL的模型具有很強的擬合和泛化能力亲善。這些模型通過引入正則化項來增強模型的可解釋性。然而逗柴,正則化可能會帶來計算的復雜性蛹头,而且在正則化中加入懲罰項很容易使模型欠擬合。此外戏溺,基于正則化的模型也很難進行校準渣蜗。
基于神經(jīng)網(wǎng)絡(luò)的方法(Neural network (NN)-based)
基于NN的方法進一步分為六個不同的子類,如卷積神經(jīng)網(wǎng)絡(luò)(CNN)旷祸、基于圖卷積網(wǎng)絡(luò)(GCN)的自動編碼器耕拷、基于圖注意力網(wǎng)絡(luò)(GAT)的自動編碼器、條件變分自編碼器(CVAE)托享、稀疏自動編碼器(SAE)和深度神經(jīng)網(wǎng)絡(luò)(DNN)骚烧。
神經(jīng)網(wǎng)絡(luò)在預測領(lǐng)域得到了廣泛的應用。與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)相比闰围,CNN具有參數(shù)共享機制赃绊,可以有效避免過度擬合,取得更好的性能羡榴。但是池化層會丟失很多有價值的信息碧查,忽略了局部與整體的關(guān)聯(lián)性。GCN改善了翻譯不變性對非矩陣結(jié)構(gòu)數(shù)據(jù)的不適用性校仑,但它的靈活性和擴展性較差忠售。GAT可以有效地提高圖神經(jīng)網(wǎng)絡(luò)的聚集效果,但它很難聚集高階鄰域迄沫,而且對參數(shù)初始化很敏感稻扬。SAE可以有效地學習重要特征,抑制次要特征邢滑,并提取維度更低腐螟、更稀疏的抽象特征愿汰,但它不能指定某個節(jié)點是活躍的還是隱藏的,而且稀疏度參數(shù)設(shè)置得很差乐纸。CVAE可以通過選擇標簽生成特定的數(shù)據(jù)衬廷,但其通用性較弱。
隨后汽绢,研究團隊還對MDsAs吗跋、DgDsAs預測領(lǐng)域的模型做了性能評估,由于缺乏數(shù)據(jù)和代碼的再現(xiàn)性宁昭,就沒有進行MDgAs預測的實驗比較跌宛。
在MDsAs方面,HMDA-Pred代表的基于網(wǎng)絡(luò)的方法可以在留一驗證(LOOCV)中實現(xiàn)最佳性能积仗;BPNNHMDA在10折交叉驗證(10-fold CV)中可以實現(xiàn)最佳性能疆拘;融合微生物和疾病的多種相似性可以顯著提高模型的預測性能;需要將多源數(shù)據(jù)和各種相似性計算方法作為入口寂曹,以提高性能和模型泛化能力哎迄;另一個提高預測可靠性的措施是為每個微生物定義分類級別,然后在同一級別進行預測隆圆。此外漱挚,分類法的引入有利于準確識別微生物數(shù)據(jù)中的微生物,有助于將微生物基因組序列和患者衍生的微生物宏基因組渺氧、轉(zhuǎn)錄和代謝等微生物組整合到MDsAs預測中旨涝;最后,現(xiàn)有的大多數(shù)模型不能解決沒有任何已知關(guān)聯(lián)的新疾病和微生物的預測問題侣背;這個問題可以通過引入相似性來解決白华,而不需要依賴微生物疾病關(guān)聯(lián)網(wǎng)絡(luò)的已知拓撲信息。
在DgDsAs方面秃踩,研究團隊選擇了五種有代表性的方法衬鱼,例如MBiRW、MSBMF憔杨、DR2DI鸟赫、BNNR和DRHGCN。與其他選定的方法相比消别,基于MF的方法MSBMF和基于神經(jīng)網(wǎng)絡(luò)的方法DRHGCN可以獲得更好的預測性能抛蚤。此外,在DRHGCN中寻狂,融合了來自不同領(lǐng)域的不同特征嵌入岁经,避免了未區(qū)分和混合的網(wǎng)絡(luò)拓撲信息造成的大量網(wǎng)絡(luò)特定信息的丟失。同時蛇券,DRHGCN采用注意力機制來增強特征表示能力缀壤。
每種類型的選定方法都有其自身的優(yōu)勢和劣勢樊拓。例如,基于NN的方法更廣泛地用于預測潛在的DgDsAs塘慕,而基于網(wǎng)絡(luò)的方法更廣泛地被用于檢測潛在的MDsAs筋夏。此外,基于MF的方法图呢,如NMFMDA条篷,在DgDsAs預測中表現(xiàn)較好,但在MDsAs預測中未能獲得滿意的結(jié)果蛤织「疤荆基于機器學習的方法適合于處理大量的數(shù)據(jù),在藥物-藥物相互作用預測領(lǐng)域SSI-DDI表現(xiàn)更好指蚜。
挑戰(zhàn)和前景
為單一任務(wù)整合多類型數(shù)據(jù)
為了獲得更好的預測性能乞巧,最簡單的想法是將數(shù)據(jù)資源部分所有典型數(shù)據(jù)庫作為一個整體集成在一起,以預測任何單個問題摊鸡,因為它們彼此密切相關(guān)摊欠。此外,其他一些相關(guān)的數(shù)據(jù)包括微生物之間的相互作用(MMIs)柱宦、藥物之間的相互作用(DgDgIs)和疾病之間的關(guān)聯(lián)(DsDsAs)也可以作為補充,為MDsAs, DgDsAs和MDgAs的預測問題做出貢獻播瞳。
DgDgIs數(shù)據(jù)
在過去的幾年里掸刊,研究人員構(gòu)建了一系列與DgDgIs相關(guān)的數(shù)據(jù)集。例如DrugBank赢乓、KEGG DRUG忧侧、TWOSIDES等。
引入新機制
大多數(shù)現(xiàn)有的計算方法通過比以前的算法豐富更多的實體相似性來提高它們的性能牌芋。除了這種策略外蚓炬,許多其他的方法,如異質(zhì)圖神經(jīng)網(wǎng)絡(luò)(GCN)和注意力機制也適用于這個問題躺屁。此外肯夏,大多數(shù)現(xiàn)有的計算方法都是有監(jiān)督的。有限的已知關(guān)聯(lián)數(shù)據(jù)集被用作訓練集和測試集犀暑,這將嚴重阻礙預測模型的實用性和性能驯击。無監(jiān)督的方法和豐富的數(shù)據(jù)可能會解決這類問題。
基準評價
LOOCV和K-fold CV在上述所有文獻中都得到了廣泛應用耐亏,是鏈接預測的基準評估框架徊都。此外,視覺上有吸引力的ROC圖和AUROC提供了預測器性能的概述广辰,通常用于評估上述預測問題的預測結(jié)果暇矫。針對MDsAs, DgDsAs和MDgAs的預測問題所開發(fā)的計算方法總是使用非常不平衡的數(shù)據(jù)集主之,ROC圖在應用于不平衡預測的情況下可能會產(chǎn)生誤導。替代措施李根,如F-score槽奕、陽性預測值和PR圖的使用頻率較低。此外朱巨,研究人員報告說史翘,在處理高度傾斜的數(shù)據(jù)集時,PR曲線可以提供算法性能的更多信息冀续,而優(yōu)化ROC下面積的算法并不能保證優(yōu)化PR曲線下面積琼讽。因此,探索合理的基準評價在微生物洪唐、藥物和疾病預測三個方面的互動中是至關(guān)重要的钻蹬。
處理陰性樣本
在本文提出的這些預測任務(wù)中,沒有收集和使用任何實際的陰性樣本凭需。陰性樣本的丟失會顯著影響該模型的預測性能问欠。因此,一方面粒蜈,從生物醫(yī)學數(shù)據(jù)庫和文獻中收集陰性樣本至關(guān)重要顺献。另一方面,開發(fā)計算方法生成高質(zhì)量的陰性樣本是解決這個問題的另一種選擇枯怖。到目前為止注整,通過選擇高質(zhì)量的陰性樣本來提高預測性能的工作還很少。此外度硝,研究表明肿轨,選定的陰性樣本可以在蛋白質(zhì)-RNA相互作用識別領(lǐng)域?qū)崿F(xiàn)實質(zhì)性的性能改進。
多類型關(guān)聯(lián)識別
我們從生物學數(shù)據(jù)到計算方法的分析表明蕊程,微生物椒袍、藥物和疾病之間的成對關(guān)系密切相關(guān)。然而藻茂,很少有人在生物醫(yī)學數(shù)據(jù)和計算方法上做出努力來同時識別MDsAs, DgDsAs和MDgAs的多類型關(guān)聯(lián)撬码,這可以讓我們對它們之間的關(guān)系有新的見解听诸。此外,多任務(wù)學習(MTL)作為處理多類型關(guān)聯(lián)預測的計算框架之一,在生物信息學中得到了廣泛的應用申眼。
參考文獻
Wang L, Tan Y, Yang X, et al. Review on predicting pairwise relationships between human microbes, drugs and diseases: from biological data to computational models[J]. Briefings in Bioinformatics, 2022.?
圖片均來源于參考文獻酒来,如有侵權(quán)請聯(lián)系刪除统舀。