AlphaFold2 是由 DeepMind 在 2020 年提出的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)模型磷斧,其核心是通過(guò)深度學(xué)習(xí)技術(shù)從氨基酸序列預(yù)測(cè)蛋白質(zhì)的三維結(jié)構(gòu)动分,并在 CASP14(Critical Assessment of Structure Prediction)競(jìng)賽中實(shí)現(xiàn)了接近實(shí)驗(yàn)精度的突破毅糟。以下從模型構(gòu)造和關(guān)鍵創(chuàng)新點(diǎn)進(jìn)行解讀。
AlphaFold2 是一個(gè)端到端的深度學(xué)習(xí)模型澜公,結(jié)合了進(jìn)化信息姆另、物理約束和幾何建模。具體可將模型分成三個(gè)部分:特征提取坟乾、Encoder迹辐、 Decoder。
一. 輸入特征提取
- 多序列比對(duì)(MSA):通過(guò)搜索同源序列(如 UniRef 數(shù)據(jù)庫(kù))構(gòu)建 MSA甚侣,捕捉進(jìn)化保守性和協(xié)同突變信息明吩。
- 模板信息:使用已知結(jié)構(gòu)的同源蛋白質(zhì)(如 PDB 數(shù)據(jù)庫(kù))作為模板,提供結(jié)構(gòu)先驗(yàn)殷费。
- 氨基酸序列嵌入:將氨基酸殘基的類型印荔、位置和物理化學(xué)性質(zhì)編碼為高維向量。
- Pairwise 特征:表征殘基對(duì)之間的潛在相互作用(如距離详羡、方向等)仍律。
1、多序列比對(duì)(MSA)工具
AlphaFold2 通過(guò)多序列比對(duì)(MSA)捕捉進(jìn)化信息实柠,使用的工具包括:
-
HHblits(來(lái)自 HH-suite):
- 作用:快速搜索大型數(shù)據(jù)庫(kù)(如 UniRef30/90)中的同源序列染苛。
- 特點(diǎn):基于隱馬爾可夫模型(HMM),適合高效處理大規(guī)模序列數(shù)據(jù)。
-
輸出:生成包含同源序列的 MSA 文件(如
.a3m
格式)茶行。
-
Jackhmmer(來(lái)自 HMMER 套件):
- 作用:迭代搜索更廣泛的序列數(shù)據(jù)庫(kù)(如 UniProt),補(bǔ)充 HHblits 的結(jié)果登钥。
- 特點(diǎn):適用于檢測(cè)遠(yuǎn)緣同源序列畔师,但計(jì)算成本較高。
-
Kalign:
- 作用:對(duì)搜索到的序列進(jìn)行多序列比對(duì)(MSA 對(duì)齊)牧牢。
- 特點(diǎn):高效且準(zhǔn)確看锉,用于生成最終的 MSA 對(duì)齊文件。
-
UniRef 數(shù)據(jù)庫(kù):
- 數(shù)據(jù)源:UniRef30/90(聚類去冗余的蛋白質(zhì)序列數(shù)據(jù)庫(kù))塔鳍,用于減少冗余序列的干擾伯铣。
2、結(jié)構(gòu)模板搜索工具
AlphaFold2 利用已知結(jié)構(gòu)的蛋白質(zhì)(PDB 數(shù)據(jù)庫(kù))作為模板轮纫,使用以下工具:
-
HHSearch(來(lái)自 HH-suite):
- 作用:將目標(biāo)序列與 PDB 中的結(jié)構(gòu)模板進(jìn)行比對(duì)腔寡。
- 特點(diǎn):基于 HMM-HMM 比對(duì),適合檢測(cè)遠(yuǎn)緣結(jié)構(gòu)相似性掌唾。
-
PDB70 數(shù)據(jù)庫(kù):
- 數(shù)據(jù)源:包含 PDB 中代表性蛋白質(zhì)結(jié)構(gòu)的聚類數(shù)據(jù)庫(kù)放前,用于模板搜索。
-
MMseqs2:
- 作用(在部分流程中替代 HHSearch):快速篩選潛在模板糯彬。
- 特點(diǎn):計(jì)算速度快凭语,適合大規(guī)模數(shù)據(jù)處理。
3撩扒、Pairwise 特征生成
Pairwise 特征表征殘基間的相互作用似扔,生成工具包括:
-
自定義深度學(xué)習(xí)模型:
- 作用:從 MSA 和模板信息中提取殘基對(duì)的潛在相互作用(如距離、方向)搓谆。
- 工具:基于 TensorFlow 或 JAX 框架開發(fā)的內(nèi)部模型炒辉。
-
物理化學(xué)性質(zhì)計(jì)算:
- 作用:補(bǔ)充殘基對(duì)的靜電、疏水作用等特征挽拔。
- 工具:可能使用開源庫(kù)(如 BioPython)計(jì)算氨基酸的物化屬性辆脸。
二. Evoformer 模塊(核心創(chuàng)新)
Evoformer 的主要任務(wù)是通過(guò)迭代的信息交換,將 進(jìn)化信息(MSA) 和 殘基相互作用(Pairwise) 統(tǒng)一建模螃诅,逐步優(yōu)化對(duì)蛋白質(zhì)結(jié)構(gòu)的幾何約束(如殘基間距離啡氢、方向等),為后續(xù)的結(jié)構(gòu)模塊(Structure Module)提供高精度的隱式表征术裸。Evoformer 由48個(gè)堆疊的 Evoformer Block 組成倘是,每個(gè) Block 包含以下關(guān)鍵組件:
AlphaFold2 的 Evoformer 模塊 是其核心創(chuàng)新之一,負(fù)責(zé)將多序列比對(duì)(MSA)和殘基對(duì)(Pairwise)特征進(jìn)行深度融合袭艺,通過(guò)自注意力機(jī)制和幾何約束建模搀崭,提取蛋白質(zhì)結(jié)構(gòu)的全局和局部信息。以下是 Evoformer 模塊的詳細(xì)解析:
1、Evoformer 的模塊結(jié)構(gòu)
Evoformer 由多個(gè)堆疊的 Evoformer Block 組成瘤睹,每個(gè) Block 包含以下關(guān)鍵組件:
1. MSA 行注意力(Row-wise Attention)
- 作用:在同一 MSA 的不同序列之間交換信息升敲,捕捉跨序列的進(jìn)化保守性和協(xié)同突變模式,這里是加了Pairwise的pair bias的轰传。
-
實(shí)現(xiàn)方式:
- 對(duì) MSA 的每一行(即每個(gè)同源序列)應(yīng)用自注意力機(jī)制驴党,并且有門控。
- 關(guān)注不同序列中同一殘基位置的變異模式(例如获茬,哪些殘基共同進(jìn)化)港庄。
- 輸出:更新后的 MSA 表征,增強(qiáng)了對(duì)全局進(jìn)化關(guān)系的理解恕曲。
2. MSA 列注意力(Column-wise Attention)
- 作用:在同一殘基位置的不同序列之間交換信息鹏氧,捕捉該位置的保守性,這里和行的是一樣的佩谣,除了沒(méi)加pair bias把还。
-
實(shí)現(xiàn)方式:
- 對(duì) MSA 的每一列(即所有序列中的同一殘基位置)應(yīng)用自注意力機(jī)制,并且有門控稿存。
- 識(shí)別該位置在不同物種中的保守性(例如笨篷,關(guān)鍵功能位點(diǎn)通常高度保守)。
- 輸出:更新后的 MSA 表征瓣履,增強(qiáng)了對(duì)局部殘基重要性的建模率翅。
3. MSA transition
- 作用:一個(gè)線性層的轉(zhuǎn)換,對(duì)MSA信息的提煉袖迎。
-
實(shí)現(xiàn)方式:
- 將原始長(zhǎng)度變成4倍大小冕臭,再通過(guò)relu及下一個(gè)線性層還原成原始長(zhǎng)度。
- 輸出:更新后的 MSA 表征燕锥,增強(qiáng)了MSA結(jié)果的理解辜贵。
4. 外積融合(Outer Product)
- 作用:將 MSA 信息顯式映射到 Pairwise 空間,增強(qiáng)殘基對(duì)特征的表達(dá)能力归形。
-
實(shí)現(xiàn)方式:
- 對(duì) MSA 表征進(jìn)行外積運(yùn)算(如兩個(gè)殘基的嵌入向量外積)托慨,生成殘基對(duì)的特征。
- 將外積結(jié)果與原有的 Pairwise 特征拼接暇榴,輸入后續(xù)網(wǎng)絡(luò)層厚棵。
- 意義:直接建立 MSA 與 Pairwise 特征的關(guān)聯(lián),提升對(duì)長(zhǎng)程相互作用的建模能力蔼紧。
5. 三角乘法更新( Triangular multiplicative update using “outgoing” edges.)
作用:本來(lái)想用跟簡(jiǎn)單的層代替后面的注意力層婆硬,發(fā)現(xiàn)單獨(dú)適應(yīng)效果不好,所以在兩個(gè)三角自注意力層前加了兩層三角乘法更新奸例。
-
實(shí)現(xiàn)方式:
- 輸入:來(lái)自 MSA 外積融合和模板的 Pairwise 特征矩陣彬犯。
- 行更新:沿行方向應(yīng)用軸向注意力(Axial Attention),生成行敏感特征。
- 列更新:沿列方向應(yīng)用另一軸向注意力谐区,生成列敏感特征湖蜕。
- 乘法融合:將行和列更新結(jié)果逐元素相乘,增強(qiáng)關(guān)鍵信號(hào)卢佣。
- 殘差連接:與原始 Pairwise 特征相加重荠,保留初始信息。
- 輸出:更新后的 Pairwise 特征傳遞至三角自注意力(Triangular self-attention)虚茶。
6. 三角自注意力(Triangular self-attention)
作用:Triangular Self-Attention(三角自注意力) 是一種專門設(shè)計(jì)的注意力機(jī)制,用于處理蛋白質(zhì)結(jié)構(gòu)中殘基對(duì)(Pairwise)間的復(fù)雜幾何關(guān)系仇参,尤其是在三維空間中捕捉殘基間的距離和方向依賴(和之前的行注意力的模式是非常相似的)嘹叫,先做行的再做列的。
-
實(shí)現(xiàn)方式:
- 初始Pairwise特征:來(lái)自MSA的外積融合和模板信息诈乒。
- 通過(guò)軸向分解處理三元組信息罩扇,生成幾何敏感的注意力權(quán)重。
- 更新殘基對(duì)的相互作用特征(如距離分布怕磨、氫鍵概率)喂饥。
- 輸出傳遞:優(yōu)化后的Pairwise特征輸入結(jié)構(gòu)模塊(Structure Module),用于生成原子坐標(biāo)肠鲫。
三员帮、Evoformer 的關(guān)鍵創(chuàng)新
1. 雙向信息傳遞
-
MSA ? Pairwise 的協(xié)同更新:
Evoformer 允許 MSA 和 Pairwise 特征在每一層中相互更新。例如:- MSA 的注意力機(jī)制可以捕捉殘基對(duì)的協(xié)同進(jìn)化信號(hào)导饲,更新 Pairwise 矩陣捞高。
- Pairwise 的幾何約束可以反饋到 MSA 中,修正對(duì)齊錯(cuò)誤渣锦。
- 效果:避免傳統(tǒng)方法中 MSA 和結(jié)構(gòu)預(yù)測(cè)的割裂硝岗,實(shí)現(xiàn)端到端優(yōu)化。
2. 幾何約束的隱式建模
-
Pairwise 矩陣的物理意義:
Pairwise 矩陣不僅包含統(tǒng)計(jì)相關(guān)性袋毙,還直接編碼殘基對(duì)的幾何約束(如距離分布的置信區(qū)間)型檀。 - 應(yīng)用:后續(xù)的結(jié)構(gòu)模塊(Structure Module)可直接利用這些約束生成三維坐標(biāo)。
3. 軸向注意力降低復(fù)雜度
-
傳統(tǒng)注意力的瓶頸:
標(biāo)準(zhǔn) Transformer 的自注意力復(fù)雜度為 (O(N^2))((N) 為序列長(zhǎng)度)听盖,而 MSA 的維度為 (S \times N)((S) 為同源序列數(shù))胀溺,直接計(jì)算會(huì)導(dǎo)致計(jì)算量爆炸。 -
軸向注意力的優(yōu)化:
通過(guò)對(duì)行和列分別進(jìn)行注意力計(jì)算媳溺,將復(fù)雜度降至 (O(S \times N + N \times S))月幌,顯著提升效率。
三悬蔽、Structure Module(結(jié)構(gòu)模塊)
AlphaFold2的Structure Module(結(jié)構(gòu)模塊)是其從進(jìn)化與幾何特征生成蛋白質(zhì)三維結(jié)構(gòu)的核心組件扯躺。該模塊通過(guò)結(jié)合深度學(xué)習(xí)與幾何建模,將Evoformer提取的特征轉(zhuǎn)換為原子坐標(biāo)。以下是其構(gòu)造與工作原理的詳細(xì)分步解釋:
輸入與輸出
-
輸入:
-
MSA表征(形狀:
):經(jīng)過(guò)Evoformer處理的多序列比對(duì)特征录语。
-
Pairwise表征(形狀:
):殘基對(duì)間的相互作用特征(如距離倍啥、方向)。
- 初始結(jié)構(gòu)猜測(cè)(可選):若使用模板澎埠,可能包含初始Cα坐標(biāo)虽缕。
-
MSA表征(形狀:
-
輸出:
-
原子坐標(biāo):所有重原子(如Cα、C蒲稳、N氮趋、O等)的三維坐標(biāo)(形狀:
)。
- 置信度評(píng)分(pLDDT):每個(gè)殘基的預(yù)測(cè)局部置信度(范圍0-100)江耀。
-
原子坐標(biāo):所有重原子(如Cα、C蒲稳、N氮趋、O等)的三維坐標(biāo)(形狀:
1. 不變點(diǎn)注意力(Invariant Point Attention, IPA)
- 目標(biāo):在保持旋轉(zhuǎn)和平移不變性的前提下剩胁,捕捉殘基間的空間依賴關(guān)系。
-
實(shí)現(xiàn)步驟:
-
局部參考系定義:
- 對(duì)每個(gè)殘基(i)祥国,以其Cα原子坐標(biāo)
為原點(diǎn)昵观。
- 構(gòu)建局部坐標(biāo)系:基于主鏈方向(如Cα到C的向量)和正交化后的基向量。
- 對(duì)每個(gè)殘基(i)祥国,以其Cα原子坐標(biāo)
-
注意力權(quán)重計(jì)算:
- 將查詢(Query)舌稀、鍵(Key)啊犬、值(Value)投影到局部坐標(biāo)系中。
- 計(jì)算注意力分?jǐn)?shù)時(shí)壁查,結(jié)合幾何距離與方向:
-
:距離編碼函數(shù)(如高斯核或MLP)觉至。
-
-
值更新與坐標(biāo)生成:
- 在局部坐標(biāo)系下聚合值向量,生成新的殘基位置和方向潮罪。
- 通過(guò)剛體變換(旋轉(zhuǎn)+平移)更新全局坐標(biāo)康谆。
-
局部參考系定義:
2. 結(jié)構(gòu)更新
- 目標(biāo):迭代優(yōu)化坐標(biāo)和特征。
-
步驟:
-
IPA輸出:通過(guò)IPA層生成更新的特征和坐標(biāo)調(diào)整量(
)嫉到。
-
坐標(biāo)更新:應(yīng)用剛體變換(旋轉(zhuǎn)矩陣
和平移向量
):
- 特征融合:將坐標(biāo)更新后的特征與原始特征通過(guò)殘差連接結(jié)合沃暗。
-
IPA輸出:通過(guò)IPA層生成更新的特征和坐標(biāo)調(diào)整量(
3. 局部幾何約束
- 目標(biāo):確保預(yù)測(cè)的鍵長(zhǎng)、鍵角符合物理規(guī)律何恶。
-
實(shí)現(xiàn):
-
物理化學(xué)損失函數(shù):在訓(xùn)練時(shí)約束以下項(xiàng):
- 鍵長(zhǎng)誤差(如Cα-C的距離應(yīng)與實(shí)驗(yàn)值接近)孽锥。
- 鍵角誤差(如N-Cα-C的夾角)。
- 二面角分布(如主鏈φ/ψ角)细层。
-
物理化學(xué)損失函數(shù):在訓(xùn)練時(shí)約束以下項(xiàng):
4惜辑、工作流程
Structure Module通常由多個(gè)重復(fù)的塊(Block)組成,每個(gè)塊執(zhí)行以下步驟:
-
輸入處理:
- 接收來(lái)自Evoformer的MSA和Pairwise特征疫赎。
- 若為首次迭代盛撑,初始化Cα坐標(biāo)為線性鏈或模板結(jié)構(gòu)。
-
IPA層:
- 計(jì)算不變點(diǎn)注意力捧搞,生成新的特征和坐標(biāo)調(diào)整量抵卫。
- 保持幾何不變性狮荔,避免整體旋轉(zhuǎn)/平移影響預(yù)測(cè)。
-
結(jié)構(gòu)更新層:
- 通過(guò)全連接層預(yù)測(cè)剛體變換參數(shù)(旋轉(zhuǎn)和平移)介粘。
- 應(yīng)用變換更新所有殘基的坐標(biāo)殖氏。
-
特征傳遞:
- 將更新后的坐標(biāo)信息反饋到特征中,供下一層使用姻采。
-
迭代優(yōu)化:
- 重復(fù)上述步驟多次(如4次)雅采,逐步細(xì)化結(jié)構(gòu)。
5慨亲、損失函數(shù)
Structure Module的損失函數(shù)包含多個(gè)部分婚瓜,共同指導(dǎo)模型生成合理結(jié)構(gòu):
-
坐標(biāo)損失:
- 均方根偏差(RMSD):預(yù)測(cè)坐標(biāo)與真實(shí)坐標(biāo)的差異。
- 局部坐標(biāo)系對(duì)齊誤差:確保剛體變換后的局部幾何一致刑棵。
-
幾何約束損失:
- 鍵長(zhǎng)闰渔、鍵角、二面角:與已知物理化學(xué)參數(shù)的一致性铐望。
-
置信度損失(pLDDT):
- 預(yù)測(cè)每個(gè)殘基的置信度,與真實(shí)誤差(如實(shí)驗(yàn)結(jié)構(gòu)差異)對(duì)齊乒验。
6、關(guān)鍵創(chuàng)新
-
不變點(diǎn)注意力(IPA):
- 通過(guò)局部參考系實(shí)現(xiàn)旋轉(zhuǎn)/平移不變性蒂阱,解決傳統(tǒng)注意力在三維空間中的敏感性問(wèn)題锻全。
-
端到端幾何建模:
- 直接預(yù)測(cè)剛體變換參數(shù),而非逐步優(yōu)化坐標(biāo)录煤,減少誤差累積鳄厌。
-
物理約束融合:
- 在損失函數(shù)中顯式引入鍵長(zhǎng)、角度等約束妈踊,提升結(jié)構(gòu)合理性了嚎。
文章正文對(duì)模型的描寫較少歪泳,需要斯克補(bǔ)充文件,為了更好的理解AF3露筒,只能硬著頭皮看了呐伞,下面會(huì)再看一下af2代碼層面一些內(nèi)容。