2024年諾貝爾化學(xué)獎揭曉,一半授予大衛(wèi)·貝克(David Baker),以表彰他在計(jì)算蛋白質(zhì)設(shè)計(jì)領(lǐng)域的卓越貢獻(xiàn)蜻势;另一半則由德米斯·哈薩比斯(Demis Hassabis)和約翰·M·詹珀(John M. Jumper)共同獲得,表彰他們在蛋白質(zhì)結(jié)構(gòu)預(yù)測方面取得的突破性成就。
AlphaFold 3 已具備藥物設(shè)計(jì)的能力,能夠精確預(yù)測藥物中常見分子(如配體和抗體)的結(jié)構(gòu)色洞。這些分子可以與蛋白質(zhì)結(jié)合锦针,從而調(diào)控蛋白質(zhì)在人體健康與疾病中的相互作用。在預(yù)測藥物與蛋白質(zhì)的相互作用(如配體與蛋白質(zhì)、抗體與靶蛋白的結(jié)合)方面耗美,AlphaFold 3 實(shí)現(xiàn)了前所未有的準(zhǔn)確度。
AlphaFold2 是 DeepMind 在 2020 年發(fā)布的蛋白質(zhì)結(jié)構(gòu)預(yù)測模型,利用進(jìn)化信息和深度學(xué)習(xí)方法,極大地提升了蛋白質(zhì)結(jié)構(gòu)預(yù)測的準(zhǔn)確性。AlphaFold3 是 AlphaFold2 的升級版盾似,增加了更多的功能并提升了性能溉跃。雖然 AlphaFold3 仍未正式發(fā)布打洼,但根據(jù)預(yù)期炫惩,AlphaFold3 在多個(gè)方面可能做出改進(jìn)。并且最新的De novo design of high-affinity protein binders with AlphaProte 中,利用af2和af3進(jìn)行對binder的篩選扭勉,下面將主要從AlphaFold3的預(yù)測結(jié)果入手,分別解釋輸出文件中哪些指標(biāo)可以作為篩選的標(biāo)準(zhǔn)。
網(wǎng)頁版的AlphaFold3預(yù)測結(jié)果summary_confidences.json結(jié)果舉例:
{
"chain_iptm": [
0.92,
0.92
],
"chain_pair_iptm": [
[
0.92,
0.92
],
[
0.92,
0.85
]
],
"chain_pair_pae_min": [
[
0.76,
1.29
],
[
1.4,
0.76
]
],
"chain_ptm": [
0.92,
0.85
],
"fraction_disordered": 0.0,
"has_clash": 0.0,
"iptm": 0.92,
"num_recycles": 10.0,
"ptm": 0.92,
"ranking_score": 0.92
}
pLDDT
pLDDT(Predicted Local Distance Difference Test)是 AlphaFold 輸出中的一個(gè)關(guān)鍵指標(biāo)震缭,用來評估模型對每個(gè)殘基(氨基酸)位置的預(yù)測置信度烦感。它反映了 AlphaFold 對蛋白質(zhì)結(jié)構(gòu)中每個(gè)位置的預(yù)測準(zhǔn)確度晌该。
pLDDT 的數(shù)值范圍和意義
數(shù)值范圍:pLDDT 分?jǐn)?shù)在 0 到 100 之間。
90-100:非常高的置信度,表示預(yù)測的結(jié)構(gòu)非常可靠,通常是蛋白質(zhì)的核心區(qū)域。
70-90:較高的置信度圆雁,表示該部分結(jié)構(gòu)較為可信汛蝙,但可能在局部有些不確定性坚洽。
50-70:中等置信度,通常表示該區(qū)域結(jié)構(gòu)不穩(wěn)定或柔性較大欣除,如無序區(qū)域或環(huán)住拭。
低于 50:低置信度,表示預(yù)測模型對該部分結(jié)構(gòu)的準(zhǔn)確性非常不確定,可能是無序區(qū)域或靈活的末端結(jié)構(gòu)滔岳。
pLDDT 值越高杠娱,模型對該區(qū)域結(jié)構(gòu)的預(yù)測越有信心,值越低表示模型對該區(qū)域的預(yù)測不確定性更高谱煤。
pLDDT 在復(fù)合物預(yù)測中的作用
- 評估每個(gè)鏈的局部結(jié)構(gòu)準(zhǔn)確性:
- 和單鏈預(yù)測一樣摊求,pLDDT 在復(fù)合物預(yù)測中同樣用于衡量每個(gè)殘基的局部置信度。它幫助預(yù)測結(jié)構(gòu)的可信度刘离,尤其是復(fù)合物中不同鏈的獨(dú)立結(jié)構(gòu)室叉。
通過分析每個(gè)鏈的 pLDDT 分?jǐn)?shù),可以確定哪個(gè)鏈的預(yù)測結(jié)構(gòu)更為可靠硫惕,哪個(gè)鏈可能存在較大的不確定性茧痕。
- 識別鏈間相互作用界面:
- 復(fù)合物預(yù)測的關(guān)鍵之一是識別鏈間相互作用界面。pLDDT 分?jǐn)?shù)在這些界面區(qū)域的表現(xiàn)尤為重要恼除。
- 如果鏈間相互作用界面區(qū)域的 pLDDT 值較高(通常超過 70 或 80)踪旷,說明 AlphaFold 對這些相互作用界面的預(yù)測非常有信心。
- 相反豁辉,若界面區(qū)域的 pLDDT 分?jǐn)?shù)較低令野,則可能意味著該界面預(yù)測不穩(wěn)定或不準(zhǔn)確,提示用戶需要進(jìn)一步驗(yàn)證這些相互作用區(qū)域秋忙。
- 區(qū)分穩(wěn)定區(qū)域與柔性區(qū)域:
- 復(fù)合物中常常有部分結(jié)構(gòu)或鏈的區(qū)域具有較大的柔性彩掐,例如無序區(qū)域或暴露在溶劑中的片段。這些區(qū)域通常會有較低的 pLDDT 分?jǐn)?shù)灰追。
- pLDDT 可以幫助識別這些柔性區(qū)域堵幽,使用戶在分析復(fù)合物時(shí)區(qū)分哪些是穩(wěn)定的核心結(jié)構(gòu),哪些是具有靈活性的區(qū)域弹澎。柔性較大的區(qū)域通常位于兩個(gè)鏈之間或復(fù)合物的外圍朴下。
4.過濾低可信度結(jié)構(gòu):
- 在復(fù)合物預(yù)測中,如果某些鏈或某些區(qū)域的 pLDDT 分?jǐn)?shù)低于一定閾值(如 50 以下)苦蒿,則可以認(rèn)為這些區(qū)域的預(yù)測不太可信殴胧。
- 在分析復(fù)合物時(shí),用戶可以根據(jù) pLDDT 對低置信度的區(qū)域進(jìn)行過濾佩迟,保留置信度高的核心結(jié)構(gòu)团滥。這在處理復(fù)雜的多鏈復(fù)合體時(shí)尤為有用,可以避免被不準(zhǔn)確的預(yù)測結(jié)果誤導(dǎo)报强。
PAE
PAE(Predicted Aligned Error灸姊,預(yù)測比對誤差)是 AlphaFold2 用來衡量模型對兩個(gè)殘基在預(yù)測結(jié)構(gòu)中相對位置的置信度的指標(biāo)。PAE 的定義是秉溉,當(dāng)預(yù)測結(jié)構(gòu)與實(shí)際結(jié)構(gòu)在某個(gè)殘基 Y 上對齊時(shí)力惯,殘基 X 的預(yù)期位置誤差碗誉,單位為埃(?)。
因此父晶,PAE 實(shí)際上是衡量 AlphaFold2 對不同結(jié)構(gòu)域的排列是否合理以及這些結(jié)構(gòu)域在預(yù)測結(jié)構(gòu)中的相對位置是否準(zhǔn)確的置信度哮缺。
數(shù)值解釋:
- 低 PAE 值(接近 0) 表示模型對兩個(gè)殘基或結(jié)構(gòu)域的相對位置預(yù)測很有信心。
- 高 PAE 值 表示模型對殘基或結(jié)構(gòu)域的相對位置存在不確定性甲喝,表明這些預(yù)測結(jié)構(gòu)的部分可能需要更多關(guān)注或可能本身是柔性的尝苇。
在蛋白質(zhì)復(fù)合物預(yù)測中,PAE(Predicted Aligned Error俺猿,預(yù)測比對誤差)同樣具有重要作用茎匠,幫助評估多鏈復(fù)合物中不同蛋白質(zhì)或結(jié)構(gòu)域之間相對位置的預(yù)測置信度。由于復(fù)合物預(yù)測涉及多個(gè)蛋白質(zhì)或不同亞基的相互作用押袍,PAE 可以幫助用戶理解這些蛋白質(zhì)或亞基之間的相對位置準(zhǔn)確性诵冒,從而評估復(fù)合物整體預(yù)測的可靠性。
PAE 在復(fù)合物預(yù)測中的作用:
- 評估鏈間相互作用的準(zhǔn)確性:
- 在復(fù)合物中谊惭,PAE 矩陣用于評估不同蛋白質(zhì)鏈之間相互作用區(qū)域的預(yù)測精度汽馋。如果鏈間相互作用區(qū)域的 PAE 值較低(即預(yù)測誤差小)圈盔,則說明這些區(qū)域的相對位置較為可信豹芯,預(yù)測較為可靠。相反驱敲,較高的 PAE 值意味著這些相互作用區(qū)域的預(yù)測不太準(zhǔn)確或可信铁蹈。
- 識別相互作用界面:
- PAE 有助于識別復(fù)合物中兩個(gè)蛋白質(zhì)或亞基的相互作用界面是否可靠。如果界面區(qū)域的 PAE 值較低众眨,說明 AlphaFold 對該界面的預(yù)測較為自信握牧,反之,則界面區(qū)域可能存在不確定性娩梨。
- 多鏈蛋白質(zhì)的結(jié)構(gòu)排列:
- 在復(fù)合物預(yù)測中沿腰,不僅需要預(yù)測每個(gè)蛋白質(zhì)鏈的內(nèi)部結(jié)構(gòu),還需要預(yù)測它們在復(fù)合物中的相對排列狈定。PAE 可以幫助識別這些蛋白質(zhì)鏈在復(fù)合物中的位置是否準(zhǔn)確颂龙,如果不同鏈之間的 PAE 值較大,表示復(fù)合物的整體排列可能存在問題纽什。
- 揭示柔性區(qū)域和結(jié)構(gòu)域運(yùn)動:
- PAE 也能夠揭示復(fù)合物中可能具有較大柔性的區(qū)域或運(yùn)動較大的結(jié)構(gòu)域措嵌。如果某些鏈或結(jié)構(gòu)域之間的 PAE 值較高,這可能表明這些區(qū)域是靈活的芦缰,或者模型對這些區(qū)域的相對位置預(yù)測不確定铅匹。這對于分析蛋白質(zhì)復(fù)合物中可能發(fā)生的運(yùn)動或構(gòu)象變化非常有幫助。
在很多文章中饺藤,都是PAE的數(shù)值作為過濾的標(biāo)準(zhǔn)包斑,例如Improving de novo Protein Binder Design with Deep Learning 中以AF2預(yù)測結(jié)果中pae interaction<10作為binder過濾的閾值。在最新的AF3中涕俗,AlphaProteo以 min pae interaction < 1.5 作為過濾的標(biāo)準(zhǔn)罗丰。同樣對于pae,過濾的閾值確實(shí)不一樣的再姑,他們是怎么樣得到這個(gè)數(shù)值的呢萌抵?下面我將以PAE矩陣為基礎(chǔ),詳細(xì)的介紹計(jì)算方法元镀。
首先绍填,簡單的將PAE預(yù)測分成四個(gè)區(qū)域1,2栖疑,3讨永,4。那么1和2分別代表的是binder和target protein遇革,3和4則代表binder和target protein的互作卿闹,過濾的數(shù)值就是通過3和4來計(jì)算的。并且我們要知道萝快,雖然3和4是對稱的锻霎,但是他們的數(shù)值確實(shí)不同的。
在AF2揪漩,Improving de novo Protein Binder Design with Deep Learning 中:
- 分別計(jì)算區(qū)域3和區(qū)域4的均值mean1和mean2旋恼;
- 再進(jìn)一步計(jì)算mean1和mean2的均值,得到pae interaction奄容,并利用這個(gè)數(shù)值進(jìn)一步進(jìn)行過濾冰更。
在AF3,AlphaProteo中:
- 分別計(jì)算區(qū)域3和區(qū)域4的最小值min1和min2嫩海;
- 再進(jìn)一步計(jì)算min1和min2的最小值冬殃,得到 min pae interaction ,并利用這個(gè)數(shù)值進(jìn)一步進(jìn)行過濾叁怪。
再AF3的網(wǎng)頁版預(yù)測結(jié)果中审葬,我們可以直接看summary_confidences中的 chain_pair_pae_min結(jié)果,以上面的結(jié)果舉例奕谭,
如圖3所示涣觉,[[0.76,1,29],[1.4,0.76]],在圖2中代表的區(qū)域分別是[[1,3],[4,2]]每個(gè)區(qū)域的最小值血柳,我們直接可以通過這個(gè)結(jié)果得到1.29作為min pae interaction來進(jìn)一步過濾官册。
PTM
Predicted Template Modelling (pTM) 是 AlphaFold2 中的一種擴(kuò)展評分,用于評估預(yù)測的蛋白質(zhì)結(jié)構(gòu)的整體準(zhǔn)確性难捌,特別是對不同結(jié)構(gòu)域和多鏈復(fù)合物的相對位置進(jìn)行評估膝宁。與用于評估局部結(jié)構(gòu)準(zhǔn)確性的 pLDDT(predicted Local Distance Difference Test) 不同鸦难,pTM 主要針對蛋白質(zhì)的全局結(jié)構(gòu),包括結(jié)構(gòu)域之間和不同鏈之間的相對關(guān)系员淫。
pTM 的核心概念
全局結(jié)構(gòu)評估:pTM 評估的是蛋白質(zhì)結(jié)構(gòu)中不同殘基或結(jié)構(gòu)域的相對位置是否準(zhǔn)確合蔽,而不僅僅是單個(gè)殘基或小范圍區(qū)域的精度。它通過綜合多個(gè)殘基之間的距離誤差介返,來估計(jì)蛋白質(zhì)結(jié)構(gòu)的整體準(zhǔn)確性拴事。
基于模板建模的得分:pTM 評分與經(jīng)典的模板建模(TM-score)類似。TM-score 是一種用于評估兩個(gè)蛋白質(zhì)結(jié)構(gòu)整體相似度的標(biāo)準(zhǔn)圣蝎,而 pTM 是 AlphaFold 在其預(yù)測模型中引入的刃宵,用來評估整個(gè)預(yù)測結(jié)構(gòu)(或復(fù)合物)的準(zhǔn)確性。
結(jié)合 PAE 矩陣計(jì)算:pTM 結(jié)合了 AlphaFold 的 PAE(Predicted Aligned Error)矩陣數(shù)據(jù)徘公,利用這些殘基之間的預(yù)測誤差牲证,推導(dǎo)出整個(gè)結(jié)構(gòu)的相對置信度。它不僅考慮了單個(gè)殘基的局部結(jié)構(gòu)精度步淹,還考慮了殘基對之間的全局距離關(guān)系从隆。
在AF3的summary_confidences結(jié)果中,有兩個(gè)ptm結(jié)果:
- 第一個(gè)是chain_ptm 缭裆,一個(gè) [num_chains] 數(shù)組键闺,給出每個(gè)鏈與所有其他鏈之間的接口的平均置信,上面json例子中澈驼,[0.92,0.85]則分別代表target protein和binder的ptm辛燥,AlphaProt,則利用ptm binder來進(jìn)一步過濾缝其。
- 第二個(gè)是ptm挎塌,0-1 范圍內(nèi)的標(biāo)量,表示完整結(jié)構(gòu)的預(yù)測 TM 分?jǐn)?shù)内边。
pTM 是一個(gè)綜合指標(biāo)榴都,用于衡量 AlphaFold-Multimer 對復(fù)合物整體結(jié)構(gòu)的預(yù)測效果。它是預(yù)測結(jié)構(gòu)與假設(shè)真實(shí)結(jié)構(gòu)之間的預(yù)測 TM 評分漠其。TM 評分超過 0.5 表示復(fù)合物的整體預(yù)測折疊可能與真實(shí)結(jié)構(gòu)相似嘴高;而 TM 評分低于 0.5 則意味著預(yù)測結(jié)構(gòu)可能是錯誤的:pTM 評分遵循相同的定義。需要謹(jǐn)慎解讀 pTM 評分和屎。例如拴驮,假設(shè)一種情況,其中一個(gè)相互作用的蛋白質(zhì)較大且結(jié)構(gòu)預(yù)測正確柴信,而較小的伴侶蛋白結(jié)構(gòu)預(yù)測不準(zhǔn)確套啤。結(jié)果,復(fù)合物的 pTM 評分可能會受到較大蛋白質(zhì)的主導(dǎo)随常,顯示出超過 0.5 的 pTM 評分潜沦。相比之下萄涯,ipTM 測量形成蛋白質(zhì)-蛋白質(zhì)復(fù)合物的亞基的預(yù)測相對位置的準(zhǔn)確性。
ipTM
iPTM(interface predicted TM-score) 是一種度量止潮,用于評估預(yù)測的蛋白質(zhì)-蛋白質(zhì)復(fù)合物中蛋白質(zhì)間界面的準(zhǔn)確性窃判。它基于 TM-score 的概念,但專注于預(yù)測的蛋白質(zhì)復(fù)合物中不同蛋白質(zhì)之間的界面相互作用喇闸。
iPTM 的作用
- 評估界面預(yù)測的可靠性:iPTM 主要用于評估蛋白質(zhì)復(fù)合物中,兩個(gè)或多個(gè)蛋白質(zhì)之間相互作用界面的預(yù)測質(zhì)量询件。一個(gè)較高的 iPTM 值表明 AlphaFold 對這些蛋白質(zhì)間相互作用界面的預(yù)測是可靠的燃乍。
- 識別界面錯誤:iPTM 值高于 0.8 代表高置信度的高質(zhì)量預(yù)測,而低于 0.6 的值表明預(yù)測可能失敗宛琅。iPTM 介于 0.6 和 0.8 之間時(shí)屬于灰色區(qū)域刻蟹,預(yù)測可能正確也可能錯誤。這些數(shù)值假設(shè)使用了多個(gè)循環(huán)步驟進(jìn)行建模嘿辟,因此預(yù)測過程達(dá)到了某種程度的收斂舆瘪。在大規(guī)模的蛋白質(zhì)-蛋白質(zhì)相互作用篩選中,通常會使用為預(yù)測速度優(yōu)化的設(shè)置红伦,例如很少或不使用循環(huán)步驟英古。在這種情況下,iPTM 閾值低至 0.3 也可以用于初步篩選昙读;
ipTM 可能比 pTM 對用戶更有用召调。這是因?yàn)樽訂卧鄬ξ恢玫念A(yù)測質(zhì)量和整個(gè)復(fù)雜預(yù)測的質(zhì)量是高度相互依賴的:如果子單元的相對位置正確(如高 ipTM 分?jǐn)?shù)所反映),用戶可以期望整個(gè)綜合體也是正確的蛮浑。
在AF3的summary_confidences結(jié)果中唠叛,有三個(gè)iptm結(jié)果:
- chain_iptm :一個(gè) [num_chains] 數(shù)組,給出每個(gè)鏈與所有其他鏈之間的接口的平均置信度(ipTM沮稚。當(dāng)我們關(guān)心該鏈與復(fù)合體的其余部分結(jié)合的位置并且我們不知道它與哪些其他鏈相互作用時(shí)艺沼,可用于對特定鏈進(jìn)行排名。
- chain_pair_iptm :一個(gè) [num_chains, num_chains] 數(shù)組蕴掏。數(shù)組的非對角元素 (i, j) 包含僅限于鏈 i 和 j 中的令牌的 ipTM障般。對角元素 (i, i) 包含限制于鏈 i 的 pTM。我的理解和上面提到的chain_pair_pae_min表示的數(shù)值含義類似囚似。
- iPTM:一個(gè)范圍為 0-1 的標(biāo)量剩拢,表示預(yù)測的界面 TM 分?jǐn)?shù)(對預(yù)測界面的置信度),適用于結(jié)構(gòu)中的所有界面饶唤。
其他
- fraction_disordered :0-1 范圍內(nèi)的標(biāo)量徐伐,指示預(yù)測結(jié)構(gòu)的哪一部分是無序的,通過可訪問的表面積來測量
- has_clash :一個(gè)布爾值募狂,指示結(jié)構(gòu)是否具有大量沖突原子(超過鏈的 50%办素,或具有超過 100 個(gè)沖突原子的鏈)角雷。
- ranking_score :[-100, 1.5]范圍內(nèi)的標(biāo)量,可用于排名預(yù)測性穿,它將 ptm勺三、iptm、fraction_disordered 和 has_clash 合并為一個(gè)數(shù)字需曾,公式如下: 0.8 × ipTM + 0.2 × pTM + 0.5 × disorder ? 100 × has_clash
參考
PAE: A measure of global confidence in AlphaFold2 predictions | AlphaFold (ebi.ac.uk)
2409.08022 (arxiv.org)
AlphaFold 服務(wù)器 --- AlphaFold Server (google.com)