01 蛋白質(zhì)結(jié)構(gòu)基礎(chǔ)
基礎(chǔ)介紹[1]
- 蛋白質(zhì)是一切生命系統(tǒng)的物質(zhì)基礎(chǔ)巴席,密切每一個(gè)生理過程。
- 每個(gè)蛋白質(zhì)因基酸鏈的組成、扭轉(zhuǎn)拍谐、彎曲等等構(gòu)成不同具有特異的結(jié)構(gòu),決定了蛋白質(zhì)的功能馏段。
- 一般情況下轩拨,蛋白質(zhì)只有正確折疊為特定的3D構(gòu)型,才能發(fā)揮相應(yīng)的生物學(xué)功能院喜。而蛋白質(zhì)四級結(jié)構(gòu)結(jié)構(gòu)的折疊亡蓉,受到大量非共價(jià)相互作用的影響。
-
想要從分子水平上了解蛋白質(zhì)的作用機(jī)制喷舀,就需要精確測出蛋白質(zhì)的3D結(jié)構(gòu)砍濒。
圖片41.png
形成穩(wěn)定分子結(jié)構(gòu)所參與作用的力
- 骨架鏈:連續(xù)的肽鍵
- 側(cè)鏈:R基團(tuán)
- α螺旋/β折疊/β轉(zhuǎn)角/無規(guī)則卷曲
- 氫鍵/范德華力/二硫鍵/殘基的帶點(diǎn)性質(zhì)(鹽橋)/疏水性
目前觀測蛋白質(zhì)空間結(jié)構(gòu)的方法
實(shí)驗(yàn)觀測:
- X-ray
- 冷凍電鏡
- 核磁共振
- 中子散射
實(shí)驗(yàn)觀測的局限:
- 沒有同源蛋白的結(jié)構(gòu)信息淋肾,很難預(yù)測結(jié)構(gòu)
- 測定成本過高
- 需要結(jié)晶,但可結(jié)晶的蛋白質(zhì)只占少數(shù)
結(jié)構(gòu)預(yù)測
- 物理相互作用(從頭計(jì)算法)
- 序列共進(jìn)化
- 拓?fù)浣Y(jié)構(gòu)重構(gòu)
- 綜合法
結(jié)構(gòu)預(yù)測的局限:
- 沒有同源蛋白的結(jié)構(gòu)信息爸邢,很難預(yù)測結(jié)構(gòu)
- 準(zhǔn)確性
總結(jié):核磁共振的精度比較低樊卓,分辨度和靈敏度都不足
02 Alphafold預(yù)測蛋白質(zhì)結(jié)構(gòu)
一般深度神經(jīng)網(wǎng)絡(luò)building model過程 – 以卷積神經(jīng)網(wǎng)絡(luò)為例
一般以數(shù)據(jù)處理,構(gòu)建初始模型杠河,訓(xùn)練模型優(yōu)化參數(shù)等過程為主碌尔,以MINIST手寫體識別為例。
Alphafold中使用deep Learning方法的介紹
Transformer[2] 一種基于 encoder-decoder 結(jié)構(gòu)的模型感猛,Transformer使用注意力機(jī)制興起于NLP領(lǐng)域七扰,用于處理一連串的文本序列。并加入self-attention能幫助當(dāng)前節(jié)點(diǎn)不僅僅只關(guān)注當(dāng)前的詞陪白,從而能獲取到上下文的語義颈走,增加解碼效果,而氨基酸序列正是和文本類似的數(shù)據(jù)結(jié)構(gòu)咱士,AlphaFold2利用多序列比對立由,把蛋白質(zhì)的結(jié)構(gòu)和生物信息整合到了深度學(xué)習(xí)算法中。
如下圖展示Transformer的多頭自注意力模型[3]
self-attention可以不同參數(shù)下形成多注意力頭序厉,增加模型泛化能力锐膜。
在氨基酸文本中,序列上的所有位置的殘基對單一殘基的注意力來表示如下:
Alphafold工作流水線介紹[4][5]
AlphaFold2里使用目標(biāo)氨基酸序列弛房、MSA道盏、模板作為輸入,直接end to end的預(yù)測了目標(biāo)的三維結(jié)構(gòu)文捶,使用了Transformer進(jìn)行預(yù)訓(xùn)練荷逞。
名詞解釋:
- MSA指的是Multiple Sequence Alignment,多序列對齊粹排,指的是把同源的多個(gè)氨基酸序列進(jìn)行對齊之后進(jìn)行序列對比种远,對于任意兩個(gè)氨基酸序列,可以通過補(bǔ)空位顽耳,左右移動位置等等坠敷,使得匹配的全局得分達(dá)到最高,此時(shí)我們就得到了兩條氨基酸序列的對齊射富,這樣的目的在于通過共進(jìn)化分析找到保守區(qū)域和其他特征膝迎,相似性90%以上的氨基酸序列的MSA沒什么意義,因?yàn)樘窳艘群模粢粭l就夠了弄抬;相似性30%以下的氨基酸序列MSA也沒什么意義,因?yàn)樘幌窳撕芸赡懿皇峭吹摹?/li>
- Evoformer塊宪郊,比對后的兩組信息會組成一個(gè)48block的Evoformer塊网杆,然后得到較為相似的比對序列生棍,Evoformer 模塊的關(guān)鍵創(chuàng)新是在 MSA 內(nèi)交換信息的新機(jī)制和允許直接推理空間和進(jìn)化關(guān)系的配對表示。蛋白質(zhì)的每個(gè)殘基的旋轉(zhuǎn)和平移形式(全局剛體框架)。這些表示在微不足道的狀態(tài)下初始化姿现,所有旋轉(zhuǎn)設(shè)置為身份,所有位置設(shè)置為原點(diǎn)健霹,但快速開發(fā)和完善具有精確原子細(xì)節(jié)的高度準(zhǔn)確的蛋白質(zhì)結(jié)構(gòu)买置。這一部分的關(guān)鍵創(chuàng)新包括打破鏈原子結(jié)構(gòu)以允許同時(shí)對結(jié)構(gòu)的所有部分進(jìn)行局部細(xì)化,一種新穎的等變變換器允許網(wǎng)絡(luò)隱式推理未表示的側(cè)鏈原子叹誉,以及一個(gè)損失項(xiàng)殘基的方向正確性的重要權(quán)重鸯两。在結(jié)構(gòu)模塊和整個(gè)網(wǎng)絡(luò)中,通過反復(fù)將最終損失應(yīng)用于輸出长豁,然后將輸出遞歸地提供給相同的模塊來強(qiáng)化迭代細(xì)化的概念钧唐。使用整個(gè)網(wǎng)絡(luò)的迭代細(xì)化顯著提高了準(zhǔn)確性,而額外的訓(xùn)練時(shí)間很少匠襟。
-
pairwise features:每個(gè)殘基之間都有一個(gè)隱狀態(tài)
圖片5.png
搜索同源模板
通過各類數(shù)據(jù)庫比對軟件在各大主流數(shù)據(jù)庫中搜索同源模板钝侠。
特征構(gòu)造
特征描述,包括對氨基酸的描述酸舍,蛋白質(zhì)序列的描述帅韧,氨基酸之間空間位置的信息描述表示等。
通過熱編碼的方式將氨基酸的文本序列轉(zhuǎn)化成熱圖矩陣啃勉。
特征表示
這一步驟定義MSA中的信息向Pair representation轉(zhuǎn)換的過程忽舟,主要通過橫向和縱向的self-attention的方式進(jìn)行實(shí)現(xiàn)。
- 橫向attention就是每個(gè)氨基酸序列里的self-attention
-
縱向attention是相同位置的去看其他氨基酸序列里是否被替換了氨基酸還是大家都相同
圖片12.png
MSA表示殘基對淮阐、信息相互轉(zhuǎn)換
這個(gè)模塊主要就是基于上一步定義的兩個(gè)特征對象叮阅,在信息從MSA提取到Pair representation,不過實(shí)現(xiàn)的方式稍顯復(fù)雜枝嘶,大致流程如下:
- 從MSA中提取蛋白質(zhì)共變信息
主要包括橫向和縱向的self-attention帘饶,更新原有的MSA representation,不過在橫向的self-attention過程中群扶,加了使用pairwise features作為后attention上的一個(gè)bias及刻。
圖片42.png
-
將蛋白質(zhì)共變信息加入到Pair representation中
取任意一對殘基(i,j)的特征竞阐,計(jì)算外積均值以后更新到殘基對表示中缴饭,這里已經(jīng)將MSA representation轉(zhuǎn)化為初始的Pair representation。
圖片16.png 通過周圍殘基對當(dāng)前殘基的信息更新骆莹,這里其實(shí)也是采用了attention的方式進(jìn)行實(shí)現(xiàn)的
-
通過兩個(gè)殘基共起點(diǎn)或共終點(diǎn)的邊來更新邊
圖片17.png -
通過某個(gè)殘基出發(fā)或者終止的所有邊來更新邊
圖片19.png
抽象到具象
將殘基間的轉(zhuǎn)角信息等加入颗搂,比對序列進(jìn)一步組合8 blocks的結(jié)構(gòu)模型,從而直接構(gòu)建出蛋白質(zhì)的3D結(jié)構(gòu)幕垦,最后兩步過程還會進(jìn)行3次循環(huán)丢氢,可以使預(yù)測更加準(zhǔn)確傅联。
- Invariant point attention (IPA)
single repr是指初始的MSA,去掉同源模板只有目標(biāo)序列的的疚察,以及把所有殘基都從坐標(biāo)原點(diǎn)初始化然后再去計(jì)算更新的backbone frames蒸走,最終預(yù)測出具體的3D原子坐標(biāo)。貌嫡。
這些旋轉(zhuǎn)和平移比驻,代表 N-Cα-C 原子的幾何形狀,優(yōu)先考慮蛋白質(zhì)骨架的方向岛抄,以便每個(gè)殘基的側(cè)鏈位置在該框架內(nèi)受到高度限制别惦。相反,肽鍵幾何形狀完全不受約束夫椭,并且在應(yīng)用結(jié)構(gòu)模塊期間觀察到網(wǎng)絡(luò)經(jīng)常違反鏈約束掸掸,因?yàn)榇蚱拼思s束允許對鏈的所有部分進(jìn)行局部細(xì)化,而無需解決復(fù)雜的閉環(huán)問題益楼。在微調(diào)過程中猾漫,通過違反損失項(xiàng)來鼓勵(lì)滿足肽鍵幾何結(jié)構(gòu)。只有在 Amber力場中的梯度下降結(jié)構(gòu)的預(yù)測后松弛感凤,才能實(shí)現(xiàn)肽鍵幾何形狀的精確執(zhí)行悯周。
backbone frames:將每個(gè)殘基表示為一個(gè)自由浮動的骨架(藍(lán)色三角形)和側(cè)鏈的卡角(綠色圓圈)。相應(yīng)的原子結(jié)構(gòu)如下所示:
圖片21.png
在計(jì)算中陪竿,每一層都去更新single repr和backbone frames(每個(gè)殘基一個(gè)backbone frame禽翼,每個(gè)backbone frame記錄了從局部坐標(biāo)系到全局坐標(biāo)系的歐幾里得變換),而計(jì)算得到的pair features只在更新single repr的attention層中計(jì)算成一個(gè)bias族跛。
-
Backbone update - 全局坐標(biāo)系的歐幾里得變換
圖片23.png -
模型預(yù)測準(zhǔn)確性評價(jià)指標(biāo)
這兩篇文獻(xiàn)里提及了諸多的模型準(zhǔn)確性的評價(jià)指標(biāo)闰挡,有針對局部模型最優(yōu)化、有全局最優(yōu)化等指標(biāo)礁哄。
圖片44.png -
構(gòu)建損失函數(shù)
損失函數(shù)的構(gòu)建是為了知道模型優(yōu)化時(shí)的方向长酗,文章里提出了真實(shí)模型到預(yù)測模型的很多損失值,如下:
圖片43.png
03 結(jié)果簡述
預(yù)測結(jié)果評價(jià)
- 與其他參賽的預(yù)測模型準(zhǔn)確率進(jìn)行一致性評價(jià)
- RMSD95:95%殘留覆蓋率下的α均方根偏差
- RMSD95-Cα:組成蛋白質(zhì)主鏈骨架的疊加原子之間的距離中位數(shù)
圖中桐绒,AlphaFold:0.96 ?(CI = 0.85 ? - 1.16 ?)夺脾,Last best G009:2.8 ?(CI = 2.7 ? - 4.0 ?),AlphaFold預(yù)測效果遠(yuǎn)遠(yuǎn)好過其他參數(shù)模型茉继。
-
有無共進(jìn)化模板對模型準(zhǔn)確性的影響
蛋白質(zhì)中兩個(gè)碳原子的距離1.4?咧叭,可見AlphaFold基本實(shí)現(xiàn)了亞原子層面的高精度建模,由于部分蛋白質(zhì)N端氨基酸折疊無序烁竭,所以結(jié)構(gòu)無法預(yù)測菲茬;無共進(jìn)化模板情況下,仍舊可以高精度的進(jìn)行結(jié)構(gòu)預(yù)測。
圖片26.png 全局與局部預(yù)測準(zhǔn)確性的相關(guān)性婉弹、主鏈與側(cè)鏈準(zhǔn)確性的相關(guān)性
- pTM 和全鏈 TM 分?jǐn)?shù)之間的相關(guān)性睬魂。最小二乘線性擬合 TM 分?jǐn)?shù) = 0.98 * pTM + 0.07 (Pearson r=0.85)。 (N=10,795 蛋白質(zhì)鏈)马胧。TM-score應(yīng)能更好地反映全局而不是每個(gè)單獨(dú)結(jié)構(gòu)域的準(zhǔn)確性汉买。
- 主鏈精度和側(cè)鏈精度之間的相關(guān)性。過濾到具有任何觀察到的側(cè)鏈和分辨率優(yōu)于 2.5 ? 的結(jié)構(gòu)(N=5,317 蛋白質(zhì)鏈)佩脊;側(cè)鏈進(jìn)一步過濾到 B 因子 < 30 ?2。如果預(yù)測的扭轉(zhuǎn)角在 40 度以內(nèi)垫卤,則旋轉(zhuǎn)異構(gòu)體被歸類為正確的威彰。每個(gè)點(diǎn)匯總了一系列 lDDT-Cα,箱大小超過 70 lDDT-Cα 2 個(gè)單位穴肘,否則為 5 個(gè)單位歇盼。點(diǎn)對應(yīng)于平均準(zhǔn)確度;誤差線是基于每個(gè)殘差的平均值的 95% 置信區(qū)間 (Student-t)
-
與鏈上的真實(shí)準(zhǔn)確度相比的置信度得分评抚。最小二乘線性擬合 lDDT_Cα = 0.997 * pLDDT - 1.17 (Pearson r=0.76)豹缀。 (N=10,795 蛋白質(zhì)鏈)。
圖片27.png
- 全鏈主干 RMSD 的直方圖(Cα RMSD 覆蓋率 95%)慨代;誤差線是 95% 的置信區(qū)間(泊松)邢笙。總體中值為 1.46 ?侍匙。請注意氮惯,此度量將對域打包和域準(zhǔn)確性高度敏感;對于某些包裝不確定或包裝錯(cuò)誤的鏈條想暗,預(yù)計(jì)較高的 RMSD妇汗。
-
不同蛋白質(zhì)鏈長度預(yù)測結(jié)果準(zhǔn)確性評價(jià)
結(jié)果中可以發(fā)現(xiàn),肽鏈的長度對結(jié)果的準(zhǔn)確性有實(shí)質(zhì)性的影響说莫,且存在臨界點(diǎn)杨箭;另外,蛋白質(zhì)不同的異構(gòu)形式對結(jié)果的預(yù)測結(jié)果也有較大的影響储狭。
圖片31.png
- MSA 深度和跨鏈接觸的影響 - 模型缺陷
- 當(dāng)平均比對深度小于~30 個(gè)序列時(shí)互婿,準(zhǔn)確度會大幅下降; MSA 深度超過約 100 個(gè)序列的改進(jìn)導(dǎo)致小增益的閾值效應(yīng)
-
對多亞基的蛋白質(zhì)復(fù)合體的精準(zhǔn)度有較大誤差
(a) 在我們的訓(xùn)練數(shù)據(jù)截止后,PDB 的冗余減少集的主干精度 (lDDT-Cα)晶密,僅限于蛋白質(zhì)擒悬,其中最多 25% 的遠(yuǎn)程接觸位于不同的異聚體鏈之間。我們進(jìn)一步考慮了基于 30% 序列同一性的模板覆蓋率的兩組蛋白質(zhì):覆蓋超過 60% 的鏈(N=6,743 個(gè)蛋白質(zhì)鏈)和覆蓋少于 30% 的鏈(N=1, 596 個(gè)蛋白質(zhì)鏈) . MSA 深度是通過計(jì)算 MSA 中每個(gè)位置的非間隙殘基的數(shù)量來計(jì)算的(使用 Neff 加權(quán)方案稻艰,詳見方法)并取殘基的中值懂牧。曲線是通過高斯核平均平滑獲得的(窗口大小為 log10 Neff 中的 0.2 個(gè)單位);陰影區(qū)域是使用 10,000 個(gè)樣本的 bootstrap 估計(jì)的 95% 置信區(qū)間。
在沒有輸入化學(xué)計(jì)量和只有弱模板的情況下正確預(yù)測了交織的同源三聚體(藍(lán)色被預(yù)測僧凤,灰色被預(yù)測)
圖片32.png
04 技術(shù)總結(jié)與未來展望
方法總結(jié)
展示了一種聯(lián)合嵌入多序列比對 (MSA) 和成對特征的輸出和損失估計(jì)新架構(gòu)畜侦,可實(shí)現(xiàn)準(zhǔn)確的端到端結(jié)構(gòu)預(yù)測
- 訓(xùn)練神經(jīng)網(wǎng)絡(luò)來對regression target進(jìn)行逐步迭代精化(Iterative refinement)
- 廣泛運(yùn)用了Attention架構(gòu)。一個(gè)二維的表可以橫著做再豎著做attention躯保,一個(gè)圖可以在各種局部結(jié)構(gòu)上做attention旋膳,從而不斷精化embedding的結(jié)構(gòu)。
- 用帶標(biāo)簽數(shù)據(jù)(氨基酸序列與三維坐標(biāo)的對應(yīng))先訓(xùn)練一遍網(wǎng)絡(luò)途事,然后用訓(xùn)練完的網(wǎng)絡(luò)在無標(biāo)簽數(shù)據(jù)(僅有氨基酸序列)上預(yù)測一遍生成新的數(shù)據(jù)集验懊,只保留預(yù)測得好的部分,然后把這兩者混合拿來再進(jìn)行訓(xùn)練
- 類似BERT的masking操作尸变,對各種輸入信息加噪音要求輸出穩(wěn)定义图,提高了魯棒性和泛化能力。
實(shí)際價(jià)值
-
糖代謝 – 血糖平衡 -葡萄糖-6-磷酸酶
從預(yù)測來看,在葡萄糖-6-磷酸醃的結(jié)存在一個(gè)保守的谷氦酸袋穩(wěn)定在閉的構(gòu)象他殘基成鹽橋召烂。該位點(diǎn)也是推定的活性位點(diǎn)中溶劑暴露最多的殘基,表明可能具有門控功能殘基以前從未被討論過碱工。
aa -
WFS1基因 - Wolfram綜合征是(神經(jīng)退行性疾病)- 蛋白質(zhì)招募
圖片34.png 脂肪的生成與代謝 – 脂肪肝 - 二踝喾颍基甘油O-跖屡瘢基轉(zhuǎn)移酶2
現(xiàn)階段局限性
蛋白質(zhì)預(yù)測本身局限
能量最小化
能量最小化計(jì)算依據(jù)是:蛋白質(zhì)折疊是一個(gè)自發(fā)過程,最終會達(dá)到一個(gè)內(nèi)部勢能的低點(diǎn)酗昼,不一定是真的全局“最小”廊谓,但至少應(yīng)該是局部“最小”。
有些蛋白質(zhì)需要的是“堅(jiān)固”仔雷,往往會直接以能量最小化的狀態(tài)出現(xiàn)蹂析;但更多的蛋白質(zhì)是分子機(jī)器,需要運(yùn)動碟婆,需要有改變結(jié)構(gòu)狀態(tài)的余地电抚,因此不會處在能量最小化的狀態(tài)。嚴(yán)重依賴已有結(jié)構(gòu)信息
邏輯:序列相似竖共,結(jié)構(gòu)就該相似
相似只是整體上的蝙叛,不代表細(xì)節(jié)上也一樣
結(jié)構(gòu)未知的蛋白質(zhì)沒有共進(jìn)化信息結(jié)構(gòu)不好預(yù)測無法做到百分之百準(zhǔn)確
通過大量的訓(xùn)練所得到的模型,能夠更準(zhǔn)確地表征序列與結(jié)構(gòu)之間的已知關(guān)系公给。
如果有一種全新折疊形式的蛋白質(zhì)結(jié)構(gòu)借帘,則無法預(yù)測,靶藥設(shè)計(jì)看重細(xì)節(jié)淌铐,結(jié)構(gòu)預(yù)測結(jié)果錯(cuò)誤導(dǎo)致給藥無效