翻譯文章:Learning the protein language: Evolution, structure, and function
*注:加粗地方為個人研究所需,翻譯提供閱讀指導(dǎo)幫助焦匈,具體細(xì)節(jié)請查看原文
Bepler T, Berger B. Learning the protein language: Evolution, structure, and function[J]. Cell systems, 2021, 12(6): 654-669. e3.
In brief
Bepler和Berger討論了蛋白質(zhì)語言建模及其在下游蛋白質(zhì)性質(zhì)預(yù)測問題上的應(yīng)用的最新進展。他們考慮如何利用先前的生物知識來豐富這些模型荷荤,并引入一種方法,將蛋白質(zhì)結(jié)構(gòu)知識編碼到學(xué)習(xí)到的表示中移稳。
Highlights
1蕴纳、Deep protein language models can learn information from protein sequence
2、They capture the structure, function, and evolutionary fitness of sequence variants
3个粱、They can be enriched with prior knowledge and inform function predictions
4袱蚓、They can revolutionize protein biology by suggesting new ways to approach design
SUMMARY
語言模型最近成為一種強大的機器學(xué)習(xí)方法,可以從大量的蛋白質(zhì)序列數(shù)據(jù)庫中提取信息几蜻。僅從現(xiàn)成的序列數(shù)據(jù)喇潘,這些模型就可以發(fā)現(xiàn)蛋白質(zhì)空間中的進化、結(jié)構(gòu)和功能組織梭稚。使用語言模型颖低,我們可以將氨基酸序列編碼成分布式的向量表示形式,捕捉它們的結(jié)構(gòu)和功能屬性弧烤,并評估序列變體的進化適應(yīng)性忱屑。我們討論了蛋白質(zhì)語言建模的最新進展及其在下游蛋白質(zhì)性質(zhì)預(yù)測問題中的應(yīng)用。然后暇昂,我們考慮如何利用先驗的生物知識來豐富這些模型莺戒,并引入一種方法,將蛋白質(zhì)結(jié)構(gòu)知識編碼到學(xué)習(xí)的表示中急波。這些模型提煉出的知識允許我們通過遷移學(xué)習(xí)改進下游功能預(yù)測从铲。深層蛋白質(zhì)語言模型正在徹底改變蛋白質(zhì)生物學(xué)。他們提出了蛋白質(zhì)和治療設(shè)計的新方法澄暮。然而名段,還需要進一步的發(fā)展,將強大的生物學(xué)先驗編碼到蛋白質(zhì)語言模型中泣懊,并增加其對更廣泛的社區(qū)的可訪問性伸辟。
INTRODUCTION
蛋白質(zhì)是執(zhí)行細(xì)胞大部分分子功能的分子機器。它們是由線性氨基酸序列折疊成復(fù)雜的三維結(jié)構(gòu)集合馍刮,可以從有序到無序信夫,并經(jīng)歷構(gòu)象變化;生物化學(xué)和細(xì)胞功能源于蛋白質(zhì)的序列和結(jié)構(gòu)。了解序列-結(jié)構(gòu)-功能的關(guān)系是蛋白質(zhì)生物學(xué)的中心問題卡啰,是理解疾病機制和設(shè)計治療和生物工程應(yīng)用的蛋白質(zhì)和藥物的關(guān)鍵静稻。
序列-結(jié)構(gòu)-函數(shù)關(guān)系的復(fù)雜性繼續(xù)挑戰(zhàn)著我們的計算建模能力,部分原因是現(xiàn)有的工具沒有充分認(rèn)識到存儲在大型數(shù)據(jù)庫中的序列碎乃、結(jié)構(gòu)和函數(shù)信息數(shù)量不斷增加的潛力姊扔。直到最近,蛋白質(zhì)分析的計算方法都是使用基于第一性原理的結(jié)構(gòu)模擬或統(tǒng)計序列建模方法梅誓,以尋求識別反映進化和功能壓力的序列模式恰梢。(Marks, Hopf and Sander, 2012; Ekeberg et al., 2013; Wang et al., 2017; Liu et al., 2018; Yang et al., 2020) (Figure 1)?在這些方法中,結(jié)構(gòu)分析很大程度上是由第一原則驅(qū)動的梗掰,而序列分析方法主要是基于統(tǒng)計序列模型嵌言,這對進化過程做出了強有力的假設(shè),但隨著可用的自然序列信息數(shù)量的增加及穗,數(shù)據(jù)驅(qū)動的程度越來越高摧茴。
基于物理的方法使用所有的原子能量函數(shù)或者是為蛋白質(zhì)設(shè)計的啟發(fā)式算法來估計給定構(gòu)象的能量并模擬自然運動。這些方法很有吸引力埂陆,因為它們利用了我們對這些系統(tǒng)物理的基本理解苛白,并產(chǎn)生了可解釋的假設(shè)娃豹。Rosetta工具,將與小的恒定大小的連續(xù)子序列相關(guān)聯(lián)的折疊片段縫合在一起购裙,在蛋白質(zhì)折疊和設(shè)計的自由能估算方面取得了顯著的成功(Leaver-Fay等人懂版,2011),分子動力學(xué)軟件如GROMACS被廣泛應(yīng)用于動力學(xué)建模和細(xì)粒度結(jié)構(gòu)預(yù)測(Hess et al., 2008).統(tǒng)計抽樣方法也已發(fā)展躏率,尋求從基于粗粒度能量函數(shù)的可接近構(gòu)象取樣 (Godzik, Kolinski and Skolnick, 1993; Srinivasan and Rose, 1995; Choi and Pappu, 2019).Rosetta通過混合使用結(jié)構(gòu)模板和自由能量最小化來尋找與目標(biāo)結(jié)構(gòu)匹配的序列躯畴,在解決設(shè)計問題方面尤其成功。然而薇芝,盡管Rosetta取得了成功蓬抄,但它和類似的方法都采用了簡化的能量模型,計算成本極高夯到,需要專業(yè)知識才能正確建立嚷缭,而且精度有限。
在光譜的另一端,統(tǒng)計序列模型已被證明對于模擬相關(guān)蛋白質(zhì)組的氨基酸序列非常有用秦叛。這些方法使我們能夠發(fā)現(xiàn)進化壓力對氨基酸施加的限制晦溪,并廣泛用于同源性搜索(Altschul 和 Koonin,1998挣跋;Bateman 等三圆,2004;Rohl 等,2004舟肉;Finn修噪、Clements 和 Eddy,2011路媚; Remmert et al., 2011a) 并用于預(yù)測 3D 蛋白質(zhì)結(jié)構(gòu)中的殘基 - 殘基接觸割按,使用序列中成對位置的氨基酸之間的共變(共同進化)(Gobel et al., 1994; Berger, 1995; Berger 等人,1995磷籍;Wolf、Kim 和 Berger现柠,1997院领;McDonnell 等人,2006够吩;Trigg 等人比然,2011;Marks周循、Hopf 和 Sander强法,2012;de Juan湾笛、Pazos 和 Valencia饮怯,2013;Ekeberg 等人嚎研。 , 2013)蓖墅。蛋白質(zhì)結(jié)構(gòu)預(yù)測的進步是通過構(gòu)建越來越大的深度學(xué)習(xí)系統(tǒng)來預(yù)測序列家族的殘基 - 殘基距離(Liu 等人,2018 年临扮;Xu 和 Wang论矾,2019 年)并基于預(yù)測的距離約束折疊蛋白質(zhì),最近達到頂峰AlphaFold2 在蛋白質(zhì)結(jié)構(gòu)預(yù)測關(guān)鍵評估 (CASP) 14 競賽中的成功(Jumper 等人杆勇,2020 年)贪壳。這些方法依賴于蛋白質(zhì)序列的大型數(shù)據(jù)集,這些數(shù)據(jù)集足夠相似蚜退,可以以高置信度對齊闰靴,但包含足夠的差異,可以可靠地推斷位置之間的統(tǒng)計耦合关霸。因此传黄,他們無法在可能不相關(guān)的蛋白質(zhì)的大規(guī)模數(shù)據(jù)庫中學(xué)習(xí)模式,并且利用越來越多的可用結(jié)構(gòu)和功能信息的能力有限队寇。
語言模型最近已成為序列生成建模的強大范例膘掰,并成為從大規(guī)模序列數(shù)據(jù)集中學(xué)習(xí)“內(nèi)容感知”數(shù)據(jù)表示的一種手段。統(tǒng)計語言模型是標(biāo)記序列上的概率分布(例如,自然語言處理中的單詞或字符识埋,蛋白質(zhì)的氨基酸)凡伊。給定一個標(biāo)記序列,語言模型為整個序列分配一個概率窒舟。在自然語言處理 (NLP) 中系忙,語言模型廣泛用于機器翻譯、問答和信息檢索等應(yīng)用惠豺。在生物學(xué)中银还,輪廓隱馬爾可夫模型 (HMM) 是簡單的語言模型,已廣泛用于同源建模和搜索洁墙。語言模型能夠捕捉氨基酸之間復(fù)雜的依賴關(guān)系蛹疯,并且可以針對所有蛋白質(zhì)序列進行訓(xùn)練,而不是專注于單個家族热监;在這樣做的過程中捺弦,他們有可能突破統(tǒng)計序列建模的極限。在將這些模型引入生物學(xué)時孝扛,我們現(xiàn)在不僅能夠從自然觀察到的序列中學(xué)習(xí)列吼,包括所有已知的序列空間(Alley 等人,2019苦始;Bepler 和 Berger寞钥,2019),而且還能夠整合現(xiàn)有的通過多任務(wù)學(xué)習(xí)獲得結(jié)構(gòu)和功能知識盈简。 (框 1 提供了可能不太熟悉的術(shù)語表凑耻。)語言模型學(xué)習(xí)序列發(fā)生的概率,這可以直接應(yīng)用于預(yù)測序列突變的適應(yīng)度(Riesselman柠贤、Ingraham 和 Marks香浩,2018 年;Hie 等人臼勉。 , 2020a, 2021)邻吭。他們還學(xué)習(xí)摘要表示,強大的特征可用于更好地捕獲序列關(guān)系并通過遷移學(xué)習(xí)將序列鏈接到功能(Alley 等人宴霸,2019囱晴;Bepler 和 Berger,2019瓢谢;Rao 等人畸写,2019;Rives 等人氓扛。 枯芬,2019论笔;Hie 等人,2020b千所;羅等人狂魔,2020)。最后淫痰,語言模型還通過根據(jù)結(jié)構(gòu)(Ingraham 等人最楷,2019a)或功能(Madani 等人,2020)規(guī)范調(diào)節(jié)語言模型待错,為受控序列生成提供了潛力籽孙。
深度語言模型是蛋白質(zhì)序列建模的一個令人興奮的突破,它使我們能夠僅從序列語料庫中存在的進化關(guān)系中發(fā)現(xiàn)結(jié)構(gòu)和功能的各個方面火俄。 然而蚯撩,這些模型的全部潛力尚未實現(xiàn),因為它們繼續(xù)受益于更多參數(shù)烛占、更多計算能力和更多數(shù)據(jù)。 同時沟启,這些模型可以通過多任務(wù)學(xué)習(xí)來豐富強大的生物先驗忆家。
在這里,我們建議結(jié)合大型數(shù)據(jù)集和強大領(lǐng)域知識的方法將是釋放蛋白質(zhì)序列建模全部潛力的關(guān)鍵德迹。具體來說芽卿,基于物理結(jié)構(gòu)的先驗可以通過結(jié)構(gòu)監(jiān)督來學(xué)習(xí),同時也可以從數(shù)億個天然蛋白質(zhì)序列中學(xué)習(xí)進化關(guān)系胳搞。此外卸例,編碼的進化和結(jié)構(gòu)關(guān)系使我們能夠通過遷移學(xué)習(xí)來學(xué)習(xí)蛋白質(zhì)的功能特性。在這種協(xié)同作用中肌毅,我們將討論這些發(fā)展并展示通過多任務(wù)學(xué)習(xí)豐富具有基于結(jié)構(gòu)的先驗的大規(guī)模語言模型的新結(jié)果筷转。首先,我們將討論深度學(xué)習(xí)和語言建模的新發(fā)展及其在具有大型數(shù)據(jù)集的蛋白質(zhì)序列建模中的應(yīng)用悬而。其次呜舒,我們將討論如何通過結(jié)構(gòu)監(jiān)督來豐富這些模型。第三笨奠,我們將討論遷移學(xué)習(xí)袭蝗,并證明我們的深度語言模型中編碼的進化和結(jié)構(gòu)信息可用于改進蛋白質(zhì)功能預(yù)測。最后般婆,我們將討論蛋白質(zhì)機器學(xué)習(xí)和大規(guī)模語言建模的未來方向到腥。
Protein language models distill information frommassive protein sequence databases
隨著自然語言處理 (NLP) 領(lǐng)域大規(guī)模模型的成功,用于蛋白質(zhì)序列表示學(xué)習(xí)的語言模型(圖 2)引起了人們的極大興趣蔚袍。 這些模型借鑒了這樣一種思想乡范,即可以從蛋白質(zhì)序列的生成模型中提取蛋白質(zhì)的分布式向量表示,從跨天然蛋白質(zhì)空間的大型且多樣化的序列數(shù)據(jù)庫中學(xué)習(xí),從而可以捕獲給定序列的語義或功能 . 在這里篓足,功能是指與蛋白質(zhì)功能相關(guān)的任何和所有屬性段誊。 這些特性通常受到進化壓力,因為必須維持或增強這些功能才能使有機體生存和繁殖栈拖。 這些壓力體現(xiàn)在天然蛋白質(zhì)序列中存在的氨基酸分布中连舍,因此,可以從足夠大且多樣化的天然序列中發(fā)現(xiàn)涩哟。
學(xué)習(xí)語義的能力源于分布假設(shè):出現(xiàn)在相似上下文中的標(biāo)記(例如單詞嘁灯、氨基酸)往往具有相似的含義泻蚊。語言模型只需要觀察序列,并使用自回歸公式(圖 2A 和 2B)或掩碼位置預(yù)測公式(在 NLP 中也稱為完形填空任務(wù)丑婿,圖 2C)對氨基酸的概率分布進行訓(xùn)練性雄。在自回歸語言模型中没卸,序列的概率被分解虑椎,使得每個標(biāo)記的概率僅以前面的標(biāo)記為條件工秩。這種分解是精確的捏鱼,并且在從分布中抽樣或評估概率本身是主要興趣時很有用扇丛。這個公式的缺點是為每個位置學(xué)習(xí)的表示只依賴于前面的位置,這可能會使它們作為上下文表示不太有用啤誊。掩蔽位置預(yù)測公式(也稱為掩蔽語言建模)通過考慮以序列中所有其他令牌為條件的每個位置處每個令牌的概率分布來解決此問題豪嚎。掩碼語言建模方法不允許計算整個序列的正確歸一化概率舷礼,但當(dāng)學(xué)習(xí)的表示是主要興趣的結(jié)果時更合適细卧。語言模型最近在自然語言處理方面取得了前所未有的成功尉桩,例如 Google 的 BERT 和 OpenAI 的 GTP-3,很大程度上是因為它們能夠從龐大的在線語料庫中的數(shù)十億文本條目中學(xué)習(xí)贪庙。類似地蜘犁,我們擁有天然蛋白質(zhì)序列數(shù)據(jù)庫,其中包含數(shù)以億計的獨特序列止邮,這些序列還在繼續(xù)快速增長这橙。
NLP 的最新進展是由神經(jīng)網(wǎng)絡(luò)架構(gòu)的創(chuàng)新、新的訓(xùn)練方法导披、計算能力的提高以及龐大文本語料庫的可訪問性提高推動的析恋。已經(jīng)提出了幾種 NLP 方法,它們利用無監(jiān)督學(xué)習(xí)(現(xiàn)在通常稱為自監(jiān)督學(xué)習(xí))(Devlin 等人盛卡,2018 年;彼得斯等人筑凫,2018 年)來擬合大規(guī)模雙向長短期遞歸神經(jīng)網(wǎng)絡(luò)(雙向 LSTM)或 biLSTMs)(Hochreiter 和 Schmidhuber滑沧,1997 年;Graves巍实、Ferna′ndez 和 Schmidhuber滓技,2005 年)或 Transformers(Vaswani 等人,2017 年)及其最近的變體棚潦。 LSTM 是循環(huán)神經(jīng)網(wǎng)絡(luò)令漂。這些模型按順序一次處理一個標(biāo)記,因此學(xué)習(xí)從一個位置和所有先前位置捕獲信息的表示丸边。為了在任何給定位置之前和之后包含來自標(biāo)記的信息叠必,雙向 LSTM 組合了兩個獨立的 LSTM,在每一層中向前和向后方向運行(例如妹窖,如圖 2B 所示)纬朝。盡管這些模型可以學(xué)習(xí)包括整個序列上下文在內(nèi)的表示,但它們學(xué)習(xí)遠(yuǎn)距離依賴關(guān)系的能力在實踐中是有限的骄呼。為了解決這個限制共苛,transformers 通過顯式計算序列中每個位置的注意力向量來學(xué)習(xí)表示判没。在自我注意機制中,每個位置的表示是通過“關(guān)注”同一序列的每個位置來學(xué)習(xí)的隅茎,非常適合掩碼語言建模(圖 2C)澄峰。在自注意力模塊中,序列的每個元素的輸出表示被計算為每個位置處輸入表示的變換的加權(quán)和辟犀,其中加權(quán)本身基于輸入的學(xué)習(xí)變換俏竞。注意力機制通常被認(rèn)為允許transformer更容易地學(xué)習(xí)線性序列中距離較遠(yuǎn)的位置之間的依賴關(guān)系。 Transformer 也可用作自回歸語言模型踪蹬。
在自然語言處理中胞此,Peters 等人。認(rèn)識到 biLSTM 的隱藏層(堆棧神經(jīng)網(wǎng)絡(luò)的中間表示)編碼了上下文中單詞的語義含義跃捣。這一觀察結(jié)果已被新用于生物序列分析(Alley 等人漱牵,2019 年;Bepler 和 Berger疚漆,2019 年)酣胀,以學(xué)習(xí)更多語義上有意義的序列表示。機器翻譯深度轉(zhuǎn)換器的成功啟發(fā)了它們在上下文文本嵌入中的應(yīng)用娶聘,即學(xué)習(xí)單詞和句子的上下文向量嵌入闻镶,從而產(chǎn)生了現(xiàn)在廣泛使用的來自 NLP 中的轉(zhuǎn)換器(BERT)模型的雙向編碼器表示(Devlin 等人。 , 2018)丸升。 BERT 是一個在大型文本語料庫上作為掩碼語言模型訓(xùn)練的深度轉(zhuǎn)換器铆农。結(jié)果,它學(xué)習(xí)了文本的上下文表示狡耻,以捕獲上下文含義并提高下游 NLP 系統(tǒng)的準(zhǔn)確性墩剖。 Transformers 作為自回歸語言模型也表現(xiàn)出令人印象深刻的性能,例如 Generative Pre-trained Transformer (GPT) 系列模型(Radford et al., 2018, 2019; Brown et al., 2020)夷狰,它們在自然語言生成岭皂。這些工作激發(fā)了蛋白質(zhì)序列的后續(xù)應(yīng)用(Rao 等人,2019沼头;Rives 等人爷绘,2019;Elnaggar 等人进倍,2020土至;Vig 等人,2020)猾昆。
盡管 Transformer 是強大的模型毙籽,但它們需要大量參數(shù),并且比典型的遞歸神經(jīng)網(wǎng)絡(luò)訓(xùn)練更慢毡庆。 借助大規(guī)模數(shù)據(jù)集和計算以及時間預(yù)算坑赡,transformers 可以取得令人印象深刻的結(jié)果烙如,但通常,循環(huán)神經(jīng)網(wǎng)絡(luò)(例如 biLSTM)需要較少的訓(xùn)練數(shù)據(jù)和較少的計算毅否,因此可能更適合可用序列較少的問題亚铁,例如 因為對單個蛋白質(zhì)家族的培訓(xùn),或者計算預(yù)算很緊螟加。 構(gòu)建能夠?qū)崿F(xiàn)高精度和更高計算效率的語言模型是該領(lǐng)域的算法挑戰(zhàn)徘溢。 通用預(yù)訓(xùn)練蛋白質(zhì)模型的一個優(yōu)點是我們只需要進行一次昂貴的訓(xùn)練步驟; 然后可以使用模型進行預(yù)測捆探,或者可以通過遷移學(xué)習(xí)(Bengio然爆,2012)將其應(yīng)用于新問題,如下所述黍图。
使用這些和其他工具曾雕,蛋白質(zhì)語言模型能夠通過訓(xùn)練存儲在蛋白質(zhì)數(shù)據(jù)庫中的數(shù)百萬個序列(例如,UniProt助被、Pfam剖张、NCBI (Bateman et al., 2004; Pruitt) 來合成大量已知的蛋白質(zhì)序列。 揩环,Tatusova 和 Maglott搔弄,2007 年;UniProt 聯(lián)盟丰滑,2019 年))顾犹。語言模型學(xué)習(xí)的序列分布捕捉了已知蛋白質(zhì)的進化適應(yīng)度。當(dāng)對數(shù)以萬計的進化相關(guān)蛋白質(zhì)進行訓(xùn)練時褒墨,描述自然發(fā)生序列經(jīng)驗分布的學(xué)習(xí)概率質(zhì)量函數(shù)已顯示出預(yù)測序列變體適應(yīng)度的前景(Riesselman炫刷、Ingraham 和 Marks,2018貌亭;Hie 等人,2020a认臊, 2021)圃庭。因為這些模型直接從進化數(shù)據(jù)中學(xué)習(xí),所以當(dāng)功能反映在自然序列的適應(yīng)度上時失晴,它們可以對蛋白質(zhì)功能做出準(zhǔn)確的預(yù)測剧腻。里塞爾曼等人。首次證明涂屁,適合單個蛋白質(zhì)家族的語言模型是在深度突變掃描數(shù)據(jù)集中測量的變異適應(yīng)度的驚人準(zhǔn)確預(yù)測因子(Riesselman书在、Ingraham 和 Marks,2018 年)拆又。此后的新工作表明儒旬,語言模型學(xué)習(xí)的表示也是學(xué)習(xí)變體適應(yīng)度作為后續(xù)監(jiān)督學(xué)習(xí)任務(wù)的強大特征(Rives 等人栏账,2019;Luo 等人栈源,2020)挡爵,建立在早期觀察到的語言模型的基礎(chǔ)上可以通過遷移學(xué)習(xí)改進蛋白質(zhì)特性預(yù)測(Bepler 和 Berger,2019)甚垦。最近茶鹃,Hie 等人。使用語言模型來學(xué)習(xí)病毒包膜蛋白的進化適應(yīng)性艰亮,并能夠預(yù)測可能使 SARS-CoV-2 刺突蛋白逃脫中和抗體的突變(Hie 等人闭翩,2020a,2021)迄埃。截至發(fā)表時疗韵,在世界各地的 SARS CoV 2 測序工作中出現(xiàn)了幾種預(yù)計具有高逃逸潛力的變體,但病毒逃逸尚未得到實驗驗證(Walensky 等人调俘,2021)伶棒。
最近的一些工作集中在通過添加更多參數(shù)和更多可學(xué)習(xí)層來改進序列建模來增加這些模型的規(guī)模。有趣的是彩库,由于可用的序列如此之多肤无,這些模型繼續(xù)受益于增加的尺寸(Rives 等人,2019 年)骇钦。這與自然語言處理的總體趨勢相似宛渐,其中參數(shù)的數(shù)量而不是特定的架構(gòu)選擇是模型性能的最佳指標(biāo)(Kaplan 等人,2020 年)眯搭。然而窥翩,最終,模型大小受到可用于訓(xùn)練和應(yīng)用這些模型的計算資源的限制鳞仙。在 NLP 中寇蚊,BERT 和 GPT-3 等模型變得如此龐大,以至于只有擁有大量圖形處理單元 (GPU) 計算集群的資金最雄厚的組織才能真正地訓(xùn)練和部署它們棍好。這在最近關(guān)于蛋白質(zhì)模型的一些工作中得到了證明仗岸,其中基于單個轉(zhuǎn)換器的模型在數(shù)百個 GPU 上訓(xùn)練了數(shù)天到數(shù)周(Rives 等人,2019借笙;Elnaggar 等人扒怖,2020;Vig 等人业稼,2020)盗痒,成本可能為 100數(shù)千美元用于培訓(xùn)。增加這些模型的規(guī)模有望繼續(xù)提高我們對蛋白質(zhì)進行建模的能力低散,但需要更多資源有效的算法來使這些模型更容易被更廣泛的科學(xué)界訪問俯邓。
到目前為止骡楼,我們討論的語言模型使用的是自然蛋白質(zhì)序列信息。 然而看成,他們并沒有從過去幾十年蛋白質(zhì)研究積累的蛋白質(zhì)結(jié)構(gòu)和功能知識中學(xué)習(xí)君编。 納入這些知識需要有監(jiān)督的方法。
Supervision encodes biological meaning
蛋白質(zhì)不僅僅是字符序列:它們是氨基酸的物理鏈川慌,可以折疊成三維結(jié)構(gòu)并根據(jù)這些結(jié)構(gòu)執(zhí)行功能吃嘿。序列-結(jié)構(gòu)-功能關(guān)系是蛋白質(zhì)生物學(xué)的核心支柱,已花費大量時間和精力來闡明選擇感興趣的蛋白質(zhì)的這種關(guān)系梦重。特別是兑燥,蛋白質(zhì)結(jié)構(gòu)測定方法(例如 X 射線晶體學(xué)和cryo-EM(Cheng 等人,2015 年琴拧;Callaway降瞳,2020 年))的通量和易用性不斷提高,推動了蛋白質(zhì)結(jié)構(gòu)測定方法的快速增長蚓胸。數(shù)據(jù)庫中可用的已知蛋白質(zhì)結(jié)構(gòu)的數(shù)量挣饥,例如蛋白質(zhì)數(shù)據(jù)庫 (PDB) (Berman et al., 2000)。截至發(fā)布時沛膳,PDB 中有近 175,000 個條目扔枫,而且這個數(shù)字正在迅速增長。 2020 年沉積了 14,000 個新結(jié)構(gòu)锹安,并且新結(jié)構(gòu)的沉積率正在增加短荐。我們追求這樣的直覺,即通過監(jiān)督學(xué)習(xí)將這些知識納入我們的模型可以幫助從序列預(yù)測功能叹哭,繞過對已解決結(jié)構(gòu)的需求忍宋。
監(jiān)督學(xué)習(xí)是在給定一些觀察變量的情況下找到一個數(shù)學(xué)函數(shù)來預(yù)測目標(biāo)變量的問題。就蛋白質(zhì)而言风罩,監(jiān)督學(xué)習(xí)通常用于從序列預(yù)測蛋白質(zhì)結(jié)構(gòu)糠排、從序列預(yù)測蛋白質(zhì)功能,或用于其他序列注釋問題(例如超升,信號肽或跨膜區(qū)域注釋)入宦。除了進行預(yù)測之外,監(jiān)督學(xué)習(xí)還可用于將特定語義編碼為學(xué)習(xí)表示廓俭。這在計算機視覺中很常見云石,例如唉工,使用大型 ImageNet 數(shù)據(jù)集上的預(yù)訓(xùn)練圖像識別模型來為模型提供來自自然圖像類別的信息(Russa kovsky et al., 2015)研乒。
當(dāng)我們使用監(jiān)督方法時,我們將語義先驗編碼到我們的模型中淋硝。 這些先驗對于學(xué)習(xí)從原始數(shù)據(jù)中不明顯的關(guān)系很重要雹熬。 例如宽菜,不相關(guān)的蛋白質(zhì)序列可以形成相同的結(jié)構(gòu)折疊,因此在語義上是相似的竿报。 但是铅乡,我們不能僅從序列中推斷出這種關(guān)系。 需要監(jiān)督來了解這些序列屬于同一語義類別烈菌。 盡管結(jié)構(gòu)比序列更能提供功能信息(Zhang and Kim, 2003; Shin et al., 2007)并且結(jié)構(gòu)是由序列編碼的阵幸,但預(yù)測結(jié)構(gòu)仍然很困難,特別是由于相對于序列數(shù)據(jù)而言結(jié)構(gòu)相對缺乏芽世。 最近在海量計算資源方面取得了重大進展(Jumper 等人挚赊,2020 年); 然而济瓢,在一個完整的序列到結(jié)構(gòu)映射成為可能之前荠割,還有很長的路要走。 即使在原則上旺矾,這種地圖可能或應(yīng)該可能的程度也不清楚蔑鹦。
序列之間的進化關(guān)系是結(jié)構(gòu)和功能關(guān)系的信息,但只有當(dāng)序列同源性程度足夠高時箕宙。超過 30% 的序列同一性嚎朽、結(jié)構(gòu)和功能通常在天然蛋白質(zhì)之間是保守的 (Rost, 1999)。通常被稱為蛋白質(zhì)序列同源性的“暮光區(qū)”扒吁,具有相似結(jié)構(gòu)和功能的蛋白質(zhì)在該水平以下仍然存在火鼻,但僅從序列相似性已無法檢測到它們,其功能是否保守尚不清楚雕崩。盡管通常認(rèn)為具有相似序列的蛋白質(zhì)形成相似的結(jié)構(gòu)魁索,但也有一些有趣的例子表明,高度相似的蛋白質(zhì)序列具有完全不同的結(jié)構(gòu)和功能(Kosloff 和 Kolodny盼铁,2008粗蔚;Wei 等,2020)以及可以形成的序列多重折疊(James 和 Tawfik饶火,2003 年)鹏控。進化創(chuàng)新要求蛋白質(zhì)功能只需幾個突變即可改變。此外肤寝,重要的是要注意当辐,雖然結(jié)構(gòu)和功能是相關(guān)的,但它們不應(yīng)直接混為一談鲤看。
這些現(xiàn)象表明缘揪,僅通過統(tǒng)計序列模型可能無法發(fā)現(xiàn)蛋白質(zhì)生物學(xué)的某些方面。 代表已知蛋白質(zhì)結(jié)構(gòu)、功能和其他先驗知識的監(jiān)督對于將遠(yuǎn)距離序列關(guān)系編碼到學(xué)習(xí)嵌入中可能是必要的找筝。 以此類推蹈垢,汽車和船都是交通工具,但我們不希望生成圖像模型僅從靜止圖像中推斷出這種關(guān)系袖裕。 但是曹抬,我們可以通過監(jiān)督來教授這些關(guān)系。
在此前提下急鳄,我們假設(shè)在訓(xùn)練蛋白質(zhì)語言模型時結(jié)合結(jié)構(gòu)監(jiān)督將提高通過遷移學(xué)習(xí)預(yù)測下游任務(wù)功能的能力谤民。 最終,這樣的語言模型可能會變得足夠強大疾宏,我們可以直接預(yù)測功能赖临,而無需求解結(jié)構(gòu)。 在本綜合的其余部分中灾锯,我們將探討這個想法兢榨。