作為一枚長(zhǎng)期關(guān)注BT與IT融合的小編仿畸,最近挖到一篇NC綜述迟蜜,作者從蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)、蛋白質(zhì)功能預(yù)測(cè)瑞侮、基因工程碟嘴、系統(tǒng)生物學(xué)和數(shù)據(jù)集成以及系統(tǒng)發(fā)育推斷五個(gè)方面討論了深度學(xué)習(xí)(DL)的最新進(jìn)展溪食、局限性和未來(lái)展望。
深度學(xué)習(xí)(DL)允許使用由多層非線性計(jì)算單元組成的復(fù)雜模型娜扇,找到具有多層抽象的數(shù)據(jù)表示眠菇。
作者從如下四個(gè)方面回顧了DL的進(jìn)展:(i)范式轉(zhuǎn)換(其中DL明顯優(yōu)于其他ML和經(jīng)典方法,并提供了廣泛的影響)袱衷;(ii)重大成功(其中DL性能通常高于其他ML和經(jīng)典方法);(iii)中等成功(DL性能通常與其他ML和經(jīng)典方法相當(dāng))笑窜;(iv)小成功(DL方法未被廣泛采用或與其他ML和經(jīng)典方法相比表現(xiàn)不佳)致燥。然后討論生物科學(xué)中DL的常見(jiàn)挑戰(zhàn)。
深度學(xué)習(xí)在生物科學(xué)領(lǐng)域的應(yīng)用
DL在計(jì)算生物學(xué)中對(duì)經(jīng)典ML技術(shù)的改進(jìn)排截,到目前為止取得了不同程度的成功嫌蚤。
范式轉(zhuǎn)變
蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)可能是DL在計(jì)算生物學(xué)中最成功的應(yīng)用之一。多序列比對(duì)(MSA)形式的大量無(wú)監(jiān)督數(shù)據(jù)断傲,使得學(xué)習(xí)蛋白質(zhì)的非線性進(jìn)化信息表征成為可能脱吱。國(guó)際競(jìng)賽CASP加速了該領(lǐng)域的進(jìn)展,CASP13中由谷歌DeepMind小組開(kāi)發(fā)的AlphaFold幾乎是基于此前版本預(yù)測(cè)的兩倍认罩。遵循該領(lǐng)域最近的趨勢(shì)箱蝠,AlphaFold和AlphaFold2利用了DL和MSA的組合使用。這被證明是一個(gè)成功的策略垦垂,能夠克服缺乏大型蛋白質(zhì)結(jié)構(gòu)訓(xùn)練數(shù)據(jù)集的問(wèn)題宦搬。
AlphaFold2對(duì)結(jié)構(gòu)生物學(xué)領(lǐng)域的影響是不可否認(rèn)的;它成功地展示了基于DL的實(shí)現(xiàn)在高精度蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)中的應(yīng)用劫拗。此外间校,DeepMind還與EMBL合作,創(chuàng)建了一個(gè)以AlphaFold2為模型的蛋白質(zhì)結(jié)構(gòu)開(kāi)放存取數(shù)據(jù)庫(kù)页慷。該數(shù)據(jù)庫(kù)已經(jīng)覆蓋了98.5%的人類(lèi)蛋白質(zhì)憔足,其中至少36%的氨基酸殘基被高度可靠地預(yù)測(cè)。
基于DL的方法可能會(huì)增強(qiáng)實(shí)驗(yàn)方法的準(zhǔn)確性和覆蓋面(不是取代實(shí)驗(yàn)方法)酒繁,正如初步應(yīng)用于解決具有挑戰(zhàn)性的X射線晶體學(xué)和冷凍電鏡數(shù)據(jù)的結(jié)構(gòu)所證明的那樣滓彰。
然而,仍有許多注意事項(xiàng)欲逃、局限性和開(kāi)放性問(wèn)題找蜜。特別是,雖然AlphaFold2成功地預(yù)測(cè)了一個(gè)蛋白質(zhì)的靜態(tài)結(jié)構(gòu)稳析,但關(guān)于蛋白質(zhì)的生物功能的許多關(guān)鍵見(jiàn)解來(lái)自于其動(dòng)態(tài)構(gòu)象洗做。此外弓叛,多種蛋白質(zhì)的動(dòng)態(tài)相互作用仍然是該領(lǐng)域的公開(kāi)挑戰(zhàn)。今后诚纸,監(jiān)測(cè)DL在這些后續(xù)研究領(lǐng)域的應(yīng)用將非常重要撰筷。
重大成功
> 預(yù)測(cè)蛋白質(zhì)功能是蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)之后的下一步。盡管UniProtKB數(shù)據(jù)庫(kù)中可用的蛋白質(zhì)序列有了巨大的增長(zhǎng)畦徘,但絕大多數(shù)蛋白質(zhì)的功能注釋仍然部分或完全未知毕籽。有限且不平衡的訓(xùn)練示例、可能功能的大輸出空間以及GO標(biāo)簽的層次性是與蛋白質(zhì)功能注釋相關(guān)的一些主要瓶頸井辆。為了克服一些問(wèn)題关筒,最近的方法利用不同來(lái)源的特征,包括序列杯缺、結(jié)構(gòu)蒸播、交互網(wǎng)絡(luò)、科學(xué)文獻(xiàn)萍肆、同源性袍榆、領(lǐng)域信息,甚至結(jié)合了一種或多種DL體系結(jié)構(gòu)來(lái)處理預(yù)測(cè)任務(wù)的不同階段(例如特征表示塘揣、特征選擇和分類(lèi))包雀。
DeepGO是解決這個(gè)問(wèn)題最成功的DL方法之一,它結(jié)合CNN學(xué)習(xí)序列級(jí)嵌入亲铡,并將其與從蛋白質(zhì)相互作用(PPI)網(wǎng)絡(luò)獲得的每個(gè)蛋白質(zhì)的知識(shí)圖嵌入相結(jié)合才写。DeepGO是首批基于DL的模型之一,在三個(gè)GO類(lèi)別的功能注釋任務(wù)上奴愉,它的性能優(yōu)于BLAST和此前的方法琅摩。該工具的改進(jìn)版DeepGOPlus在CAFA3挑戰(zhàn)賽中與其他工具相比,在三個(gè)GO類(lèi)別中表現(xiàn)最佳锭硼。
DAEs等無(wú)監(jiān)督方法也有助于學(xué)習(xí)蛋白質(zhì)的密集房资、穩(wěn)定和低維特征。相關(guān)研究人員開(kāi)發(fā)了一個(gè)DAE來(lái)表示用于分配缺失GO注釋的蛋白質(zhì)檀头,并且與非 DL方法相比轰异,在六個(gè)不同的GO數(shù)據(jù)集上顯示了6%到36%的改進(jìn);sdAE學(xué)習(xí)更穩(wěn)定的蛋白質(zhì)特征暑始;deepNF使用多模態(tài)DAE(MDA)從多個(gè)異構(gòu)交互網(wǎng)絡(luò)中提取特征搭独,其性能優(yōu)于基于矩陣分解和線性回歸的方法。
除了預(yù)測(cè)GO注釋標(biāo)簽外廊镜,研究還集中在其他幾個(gè)特定任務(wù)的功能類(lèi)別牙肝,如確定特定的酶功能和潛在的翻譯后修飾位點(diǎn)。
目前的研究表明整合多模態(tài)數(shù)據(jù)類(lèi)型(例如序列、結(jié)構(gòu)配椭、PPI等)特征的模型更有可能優(yōu)于依賴(lài)單一數(shù)據(jù)類(lèi)型的模型虫溜。文獻(xiàn)中的趨勢(shì)表明,依賴(lài)特定于任務(wù)的體系結(jié)構(gòu)可以極大地增強(qiáng)各個(gè)數(shù)據(jù)類(lèi)型的特征表示股缸。在這個(gè)方向上衡楞,未來(lái)的工作可能集中在將DAEs和RNNs結(jié)合起來(lái)用于基于序列的表示,以及將圖卷積網(wǎng)絡(luò)(GCN)結(jié)合起來(lái)用于基于結(jié)構(gòu)以及基于PPI的信息敦姻。在多任務(wù)DNN等分層分類(lèi)器中結(jié)合這些表示與生物學(xué)相關(guān)的正則化方法瘾境,可以為蛋白質(zhì)功能預(yù)測(cè)提供可解釋且計(jì)算可行的DL架構(gòu)。
> 基因工程是生物學(xué)中的一個(gè)重要領(lǐng)域镰惦,DL模型已被越來(lái)越多地使用迷守。在CRISPR/Cas9基因編輯領(lǐng)域,在提高靶向效率的同時(shí)減少脫靶一直是基因工程靶向DL技術(shù)的一個(gè)重要目標(biāo)旺入。已經(jīng)成功開(kāi)發(fā)了幾種計(jì)算工具來(lái)設(shè)計(jì)具有最大目標(biāo)活動(dòng)和最小非目標(biāo)影響的gRNA盒犹,包括DeepCas9、DeepCRISPR眨业、CnnCrispr、ADAPT沮协、SPROUT龄捡、FORECasT和InDelphi等。
DL的未來(lái)是面向新的編輯技術(shù)的慷暂,如CRISPR-Cas12a(cpf1)聘殖、堿基編輯和質(zhì)粒編輯。事實(shí)上行瑞,DL已經(jīng)在預(yù)測(cè)人類(lèi)細(xì)胞中的腺嘌呤堿基編輯(ABEs)和胞嘧啶堿基編輯(CBEs)以及質(zhì)粒編輯2(PE2)活動(dòng)的效率方面顯示出前景奸腺。然而,未來(lái)的挑戰(zhàn)是如何理解這些模型血久。CRISPRLand是一個(gè)最新的框架突照,從高階相互作用的角度解釋和可視化DL模型。除了可解釋性氧吐,我們推測(cè)能夠?qū)︻A(yù)測(cè)結(jié)果進(jìn)行不確定性估計(jì)的方法在基因組編輯中會(huì)更加普遍讹蘑。此外,由于細(xì)胞類(lèi)型對(duì)CRISPR實(shí)驗(yàn)的效率有顯著影響筑舅,因此了解在基因組工程中部署DL模型時(shí)的分布變化至關(guān)重要座慰。整合領(lǐng)域適應(yīng)方法以限制這種分布變化的影響是未來(lái)的其他重要方向之一。
中等成功
系統(tǒng)生物學(xué)和數(shù)據(jù)集成翠拣。系統(tǒng)生物學(xué)從整體的角度對(duì)復(fù)雜的生物過(guò)程進(jìn)行建模版仔,最終揭示基因型和表型之間的聯(lián)系。整合不同的組學(xué)數(shù)據(jù)是彌合這一差距的關(guān)鍵,使穩(wěn)定的預(yù)測(cè)模型成為可能蛮粮,這導(dǎo)致了從基礎(chǔ)生物學(xué)到精密醫(yī)學(xué)的幾項(xiàng)最新突破益缎。數(shù)據(jù)整合任務(wù)分為兩大類(lèi):1)跨不同平臺(tái)的整合和單一數(shù)據(jù)類(lèi)型的研究,有時(shí)與其他非組學(xué)數(shù)據(jù)整合蝉揍;2)不同組學(xué)數(shù)據(jù)類(lèi)型之間的整合链峭。在單一數(shù)據(jù)類(lèi)型內(nèi)的整合方面已經(jīng)開(kāi)發(fā)了經(jīng)典的ML和統(tǒng)計(jì)方法,用于批量校正又沾、全局基因共表達(dá)模式建模弊仪、用于功能預(yù)測(cè)的貝葉斯整合策略和表型分類(lèi)。最近杖刷,單細(xì)胞轉(zhuǎn)錄組的日益流行催生了一系列新的經(jīng)典ML和DL方法励饵,用于跨實(shí)驗(yàn)的數(shù)據(jù)整合。從廣義上講滑燃,考慮到集成的執(zhí)行階段役听,同時(shí)將不同研究或不同類(lèi)型的數(shù)據(jù)類(lèi)型組合在一起的數(shù)據(jù)集成分析通常分為三類(lèi):基于串聯(lián)、基于轉(zhuǎn)換或基于模型表窘。
小成功
系統(tǒng)發(fā)育學(xué)典予。系統(tǒng)發(fā)育是模擬一組分類(lèi)群進(jìn)化歷史的進(jìn)化樹(shù)。系統(tǒng)發(fā)育推斷問(wèn)題涉及從被調(diào)查的分類(lèi)群中獲得的數(shù)據(jù)--通常是分子序列--建立一個(gè)系統(tǒng)發(fā)育乐严。
然而瘤袖,分類(lèi)方法有一個(gè)主要的局限性,即它們不能推斷分支長(zhǎng)度昂验,也不能擴(kuò)展到非常少的分類(lèi)單元之外捂敌,因?yàn)榭赡艿耐負(fù)洌?lèi))的數(shù)量隨著這個(gè)變量呈超指數(shù)增長(zhǎng)。但也許更重要的是既琴,像DL模型這樣的分類(lèi)器需要訓(xùn)練數(shù)據(jù)占婉,而在這個(gè)領(lǐng)域幾乎不可能獲得已知真實(shí)系統(tǒng)發(fā)育的基準(zhǔn)數(shù)據(jù)。相反甫恩,模擬一直是生成訓(xùn)練數(shù)據(jù)的首選方法逆济,但這是一個(gè)主要的依賴(lài)性,并且已知方法在模擬和生物數(shù)據(jù)上有不同的性能磺箕。對(duì)于復(fù)雜版本的系統(tǒng)發(fā)育推理問(wèn)題纹腌,需要更真實(shí)的模擬協(xié)議。最后滞磺,從某種意義上講升薯,對(duì)單個(gè)基因的系統(tǒng)發(fā)育推斷本身就是一個(gè)簡(jiǎn)化的問(wèn)題:從全基因組數(shù)據(jù)推斷單個(gè)系統(tǒng)發(fā)育會(huì)帶來(lái)一種復(fù)雜性,即不同的基因可能有不同的歷史击困,或者真正的系統(tǒng)發(fā)育可能是一個(gè)網(wǎng)絡(luò)涎劈,而不是一棵樹(shù)广凸。由于這些原因,DL要么取得了有限的成功蛛枚,要么僅限于主要推理任務(wù)之外小的子問(wèn)題谅海。
盡管如此,仍有人嘗試將DL用于上述分類(lèi)任務(wù)蹦浦,例如SOTA算法基于神經(jīng)網(wǎng)絡(luò)對(duì)序列進(jìn)行分類(lèi)扭吁,并從序列數(shù)據(jù)重建系統(tǒng)發(fā)育樹(shù);最近CNN被用于推斷四個(gè)分類(lèi)群的無(wú)根系統(tǒng)發(fā)育樹(shù)盲镶。
基于距離的方法是另一類(lèi)常用的系統(tǒng)發(fā)育推理技術(shù)侥袜,其中最常見(jiàn)的是鄰域連接方法,DL已被用于改進(jìn)距離表示溉贿。其他應(yīng)用程序使用DL來(lái)輔助更傳統(tǒng)的推理管道枫吧。例如,用于最大似然搜索的特定似然模型通常被視為理所當(dāng)然的用戶(hù)決策宇色,但最近的一種方法使用DL來(lái)優(yōu)化該決策九杂。
生物科學(xué)領(lǐng)域中深度學(xué)習(xí)的挑戰(zhàn)
DL方法面臨的最常見(jiàn)問(wèn)題源于缺乏注釋數(shù)據(jù)、非模擬數(shù)據(jù)集固有的基礎(chǔ)事實(shí)的缺失宣蠕、訓(xùn)練數(shù)據(jù)分布與真實(shí)測(cè)試(如臨床)數(shù)據(jù)分布之間的嚴(yán)重差異例隆、結(jié)果基準(zhǔn)和解釋方面的潛在困難,最終克服數(shù)據(jù)集和模型中的偏見(jiàn)和倫理問(wèn)題抢蚀。此外裳擎,隨著數(shù)據(jù)和DL模型的增長(zhǎng),訓(xùn)練效率已成為進(jìn)步的主要瓶頸思币。
可解釋性:或許DL模型今天最關(guān)鍵的局限性之一,尤其是在生物學(xué)和臨床應(yīng)用中羡微,它們不像統(tǒng)計(jì)學(xué)中更簡(jiǎn)單的回歸模型那樣可解釋?zhuān)缓茈y解釋網(wǎng)絡(luò)的每個(gè)節(jié)點(diǎn)代表什么谷饿,以及對(duì)性能建模的重要性。DNN的高度非線性決策邊界及其超參數(shù)化性質(zhì)妈倔,使其能夠?qū)崿F(xiàn)高預(yù)測(cè)精度博投,也使其難以解釋。這種可解釋性的缺乏成為計(jì)算生物學(xué)中的一個(gè)重要問(wèn)題盯蝴。ML領(lǐng)域一直在努力開(kāi)發(fā)解釋 "黑盒 "DL模型的方法毅哗。早期的工作是在計(jì)算機(jī)視覺(jué)和生物醫(yī)學(xué)應(yīng)用中開(kāi)發(fā)的,其中一些也被應(yīng)用于計(jì)算生物學(xué)的問(wèn)題捧挺。開(kāi)發(fā)DNN解釋工具的努力仍處于起步階段虑绵;在生物學(xué)中,對(duì)于一個(gè)完全可解釋的系統(tǒng)仍然有很多挑戰(zhàn)闽烙。關(guān)鍵問(wèn)題是翅睛,目前解釋DL模型的通用方法不夠充分声搁,尤其是在臨床環(huán)境中。為了讓科學(xué)家和臨床醫(yī)生相信這些黑盒模型捕发,他們需要能夠以人們可以理解的方式疏旨,以可量化的不確定性水平來(lái)解釋自己,總結(jié)他們行為的原因扎酷,并需要提出附加步驟(例如實(shí)驗(yàn)檐涝、臨床研究等)以支持其決定。筆者推測(cè)法挨,新一代可解釋方法專(zhuān)注于幫助這些黑盒模型從假設(shè)生成機(jī)器過(guò)渡到更容易與醫(yī)生溝通的假設(shè)檢驗(yàn)機(jī)器谁榜。
訓(xùn)練效率:盡管許多DL方法有很高的準(zhǔn)確性,但它們的性能往往要付出很高的費(fèi)用和計(jì)算成本坷剧。例如惰爬,訓(xùn)練最先進(jìn)的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)模型AlphaFold2需要相當(dāng)于100~200個(gè)GPU運(yùn)行幾周的計(jì)算資源。降低DL方法訓(xùn)練成本的最直接方法是對(duì)現(xiàn)有的預(yù)訓(xùn)練通用模型進(jìn)行遷移學(xué)習(xí)惫企,而不是從頭開(kāi)始訓(xùn)練新模型撕瞧。另一種方法是設(shè)計(jì)效率更高的DL模型體系結(jié)構(gòu)。對(duì)于計(jì)算生物學(xué)應(yīng)用狞尔,一種提高效率的方法依賴(lài)于利用生物數(shù)據(jù)固有的稀疏性和局部性丛版。隨著生物數(shù)據(jù)量的不斷增加,神經(jīng)網(wǎng)絡(luò)的規(guī)模也將增加偏序,并導(dǎo)致收斂所需的訓(xùn)練迭代總數(shù)增加页畦。因此,探索數(shù)據(jù)集縮減策略作為解決效率挑戰(zhàn)的方法之一研儒。一個(gè)可行的方案是構(gòu)造訓(xùn)練數(shù)據(jù)集的核心集豫缨。
參考文獻(xiàn)
Sapoval N, Aghazadeh A, Nute M G, et al. Current progress and open challenges for applying deep learning across the biosciences[J]. Nature Communications, 2022, 13(1): 1-12.
圖片均來(lái)源于參考文獻(xiàn),如有侵權(quán)請(qǐng)聯(lián)系刪除端朵。