AlphaFold2 IDR 復(fù)數(shù)預(yù)測
這是我們之前關(guān)于 AlphaFold2 如何擅長從序列中識別無序蛋白質(zhì)區(qū)域的觀察的后續(xù)茂浮。有關(guān) AlphaFold2 如何用作二元無序預(yù)測的詳細(xì)信息澜沟,請在此處閱讀我們的注釋:https?:?//github.com/normandavey/ProcessedAlphafold
在這里,我們評估了可以從 AlphaFold2 對無序蛋白質(zhì)如何相互作用的預(yù)測中得出的信息录煤。鑒于測試集的限制名斟、運行時間和無序蛋白質(zhì)相互作用的復(fù)雜性慎玖,我們沒有展示全面的分析。相反蹬蚁,我們專注于突出顯示各種無序蛋白質(zhì)結(jié)合的選定示例。
AlphaFold 接受過訓(xùn)練郑兴,可以從單體形式的序列中識別蛋白質(zhì)的結(jié)構(gòu)犀斋。然而,在 AlphaFold2 發(fā)布后不久情连,很明顯在一些情況下叽粹,即使不重新設(shè)計或重新訓(xùn)練算法,AlphaFold 也可以成功預(yù)測蛋白質(zhì)復(fù)合物的結(jié)構(gòu)却舀。使用靈活的接頭連接兩個或多個蛋白質(zhì)并將其用作輸入可以通過共折疊蛋白質(zhì)來模擬蛋白質(zhì)之間的相互作用球榆。這為探索蛋白質(zhì)-蛋白質(zhì)相互作用開辟了令人興奮的可能性。
固有無序蛋白質(zhì)/區(qū)域 (IDP/IDR) 經(jīng)常通過與其他蛋白質(zhì)伙伴的相互作用發(fā)揮其功能禁筏。短結(jié)合 IDR 通常包含短線性基序 (SLiM)持钉,其中與伴侶折疊域的相互作用由幾個殘基驅(qū)動。SLiMs 的結(jié)合結(jié)構(gòu)可以是螺旋狀的篱昔、不規(guī)則的每强,或者它們可以在伙伴域的現(xiàn)有β折疊中形成額外的β鏈。更長的 IDR 可以包含 SLiM 陣列州刽,并可以形成更長的結(jié)合區(qū)域空执,結(jié)合形式的二級結(jié)構(gòu)含量變化很大。IDR 還可以通過彼此相互作用形成同源或異源寡聚復(fù)合物來形成穩(wěn)定的結(jié)構(gòu)穗椅。
在這里辨绊,我們選擇了 14 個涉及一個或多個 IDR 的復(fù)合體案例。這些復(fù)合體中的每一個的結(jié)構(gòu)都已通過實驗確定并在 PDB 中匹表。我們一一瀏覽這些復(fù)合體门坷,描述它們的區(qū)別特征宣鄙,并看看 AlphaFold2 是如何預(yù)測實驗復(fù)合體的。在這里默蚌,您可以在交互式結(jié)構(gòu)查看器中并排或疊加查看預(yù)測和確定的結(jié)構(gòu):http?:?//slim.icr.ac.uk/projects/alphafold??page=?alphafold_IDR_interface_prediction
在示例之后冻晤,我們總結(jié)了似乎影響 AlphaFold 成功識別正確復(fù)雜結(jié)構(gòu)的因素。
所有 AlphaFold 預(yù)測都是使用 PDB 文件中定義的序列(不包括修飾的殘基和其他分子)運行的绸吸。預(yù)測是由 Sergey Ovchinnikov (@sokrypton)鼻弧、Milot Mirdita (@milot_mirdita) 和 Martin Steinegger (@thesteinegger) 使用 Google Colab 筆記本完成的。歸功于 Minkyung Baek (@minkbaek) 和 Yoshitaka Moriwaki (@Ag_smith) 以及 AlphaFold2 中蛋白質(zhì)復(fù)合物預(yù)測的概念驗證锦茁。
使用單體/同質(zhì)低聚物的筆記本預(yù)測同質(zhì)低聚物攘轩,可在此處訪問:https?://colab.research.google.com/github/sokrypton/ColabFold/blob/main/AlphaFold2.ipynb
使用專用筆記本預(yù)測異寡聚體,可在此處訪問:https?://colab.research.google.com/github/sokrypton/ColabFold/blob/main/AlphaFold2_complexes.ipynb在二聚體的情況下码俩,使用默認(rèn)設(shè)置度帮。對于更高階的低聚物,單獨使用一條鏈(如果只有一條握玛,則通常使用 IDR)够傍,其余鏈?zhǔn)褂瞄L接頭連接(幾個“U”或“SG”的幾個重復(fù))
在每個示例中,折疊的蛋白質(zhì)域以表面表示形式顯示挠铲,IDR 以帶狀形式顯示冕屯。AlphaFold 預(yù)測以棕褐色顯示,而實驗確定的結(jié)構(gòu)以紫色(或類似)顏色顯示拂苹。在低于 AlphaFold 的所有情況下安聘,幾乎完美地預(yù)測折疊域的結(jié)構(gòu)(通常在 1-2A RMSD 內(nèi))。這些預(yù)測結(jié)構(gòu)沒有單獨顯示瓢棒,因為它們的表面與從實驗結(jié)構(gòu)產(chǎn)生的表面重合浴韭。
NRIP1 中的 NRBOX 基序與 ERR3 結(jié)合
定義:?形成兩親性螺旋的短基序結(jié)合到伴侶結(jié)構(gòu)域表面上明確定義的單個疏水口袋中。組成:1 個有序蛋白質(zhì) + 1 個 IDR PDB:2gpo
結(jié)果:?預(yù)測和實驗配體構(gòu)象之間的RMSD:0.718A 在原始結(jié)構(gòu)中脯宿,只有核心基序是可見的念颈,AlphaFold 還預(yù)測了側(cè)翼區(qū)域的螺旋結(jié)構(gòu)。這是因為 AlphaFold 需要為所有輸入殘基分配坐標(biāo)连霉;然而榴芳,它為該區(qū)域分配了一個低 pLDDT 分?jǐn)?shù),正確地標(biāo)記了它是一個低置信度結(jié)構(gòu)預(yù)測(低 pLDDT 是一個很好的無序預(yù)測器)跺撼。在負(fù)責(zé)親和力/特異性的基序區(qū)域上窟感,AF 模型甚至可以正確預(yù)測側(cè)鏈構(gòu)象。
?
RanBP2 SIM(SUMO 交互基序)綁定到 SUMO
定義:?短基序在伙伴結(jié)構(gòu)域的β 折疊中形成附加鏈(β 增強(qiáng))歉井。組成:1 個有序蛋白質(zhì) + 1 個 IDR PDB:2las
結(jié)果:?預(yù)測和實驗配體構(gòu)象之間的 RMSD:1.279A AlphaFold 正確識別了核心基序中的 β 增強(qiáng)和側(cè)鏈構(gòu)象柿祈。它確實錯過了邊緣的一些穩(wěn)定接觸,最值得注意的是它將 C 端 Phe 置于天然結(jié)合口袋的外部(在圖像的右上角向上翻轉(zhuǎn))。AlphaFold 相應(yīng)地將較低的 pLDDT 值分配給肽的末端區(qū)域躏嚎。
?
組蛋白去乙趺圩裕化酶 4 14-3-3 磷酸基序與 14-3-3gamma 結(jié)合
定義:?與 14-3-3 結(jié)構(gòu)域內(nèi)的凹槽結(jié)合的短 IDR,采用不規(guī)則構(gòu)象紧索。相互作用需要磷酸化的絲氨酸袁辈。組成:1 個有序蛋白質(zhì) + 1 個 IDR PDB:3uzd
結(jié)果:?AlphaFold 正確識別了結(jié)合槽并正確地為肽分配了線圈狀構(gòu)象菜谣,但無法將肽安裝到正確的位置珠漂。原因之一可能是 AlphaFold 無法模擬修改后的殘基(原始結(jié)構(gòu)中的 pSer 和預(yù)測結(jié)構(gòu)中的 Ser 以紅色顯示)。
?
使用磷模擬物(在肽中將 Ser 轉(zhuǎn)換為 Glu 后對相互作用進(jìn)行建模)稍微改善了方向尾膊,但 pSer 和 Glu 占據(jù)非常不同的位置媳危,并且置信度得分沒有提高,因此這可能是由于隨機(jī)機(jī)會冈敛。
?
pKID 綁定到 KIX 域
定義:?無序的 KID 區(qū)域在磷酸化后與 KIX 結(jié)構(gòu)域結(jié)合待笑。pKID采用螺旋結(jié)合結(jié)構(gòu)與 KIX上的兩個不同補(bǔ)丁結(jié)合。相互作用是磷酸依賴性的抓谴,KIX 在未結(jié)合的形式下并不完全穩(wěn)定暮蹂,因此域結(jié)構(gòu)的預(yù)測可能比平時更具挑戰(zhàn)性。組成:1 個有序蛋白質(zhì) + 1 個 IDR PDB:1kdx
結(jié)果:?AlphaFold 正確折疊了 KIX 域癌压,它也正確地將 KID 折疊成非常接近實際綁定結(jié)構(gòu)的螺旋結(jié)構(gòu)仰泻。但是,它將 KID 置于 KIX 域上完全不同的表面滩届。與之前的錯誤相反集侯,這里的 AlphaFold 為預(yù)測分配了高置信度。有趣的是帜消,AlphaFold 模型中 KID 占據(jù)的區(qū)域是真正的結(jié)合位點棠枉,結(jié)合 FOXO3 TAD 區(qū)域的 C 端部分顯示出與預(yù)測模型中的 KID 高度相似(PDB:2lqh)(類似于賴氨酸 N-甲基轉(zhuǎn)移酶 2A 肽 (PDB:2agh) 和 p65 肽 (PDB:5u4k) 結(jié)合結(jié)構(gòu))。
?
RelA 的 TAD 與 CREB 結(jié)合蛋白 (CBP) 的 TAZ 結(jié)構(gòu)域結(jié)合
定義:?無序的 RelA 結(jié)合區(qū)明顯長于前面的例子泡挺。它環(huán)繞 TAZ 域辈讶,在4 個不同的斑塊處形成接觸,在這 4 個位點采用主要螺旋構(gòu)象娄猫。組成:1 個有序蛋白質(zhì) + 1 個 IDR PDB:2lww
結(jié)果:?AlphaFold 正確折疊了 CBP 的 TAZ 結(jié)構(gòu)域贱除,即使天然結(jié)構(gòu)包含 3 個 Zn2+ 離子,AF 無法對其進(jìn)行明確建模(但是稚新,它被訓(xùn)練為即使沒有離子存在,也能正確預(yù)測含離子蛋白質(zhì)的結(jié)構(gòu))褂删。AlphaFold 還正確識別了四個結(jié)合表面飞醉,并且還在這些位點將 RelA 折疊成螺旋構(gòu)象。然而缅帘,在預(yù)測結(jié)構(gòu)中,RelA 的方向錯誤钦无。在下圖中逗栽,測量的 RelA(紫色)逆時針環(huán)繞失暂,兩個終端都在底部。預(yù)測的 RelA 以相反的方向包裹弟塞,兩個終點都在頂部凭峡。AlphaFold 再次為肽預(yù)測分配高置信度分?jǐn)?shù)。
?
細(xì)胞周期蛋白-A2 與 Cdc20 結(jié)合
定義:?細(xì)胞周期蛋白-A2 的無序尾部與 Cdc20 的 β 螺旋槳結(jié)構(gòu)域結(jié)合决记,使用三個基序與三個獨立的口袋結(jié)合摧冀。IDR 的結(jié)合結(jié)構(gòu)是線圈狀的,沒有任何規(guī)則的二級結(jié)構(gòu)系宫,三個基序之間的接頭即使在結(jié)合時也保持無序索昂。組成:1 個有序蛋白質(zhì) + 1 個 IDR PDB:6q6g
結(jié)果:?AlphaFold 幾乎完美地折疊了域;但是扩借,它不能在域表面折疊 IDR椒惨。它確實識別了 IDR (AALAVL) 中的疏水貼片,并且它靠近該位的真正結(jié)合口袋往枷,但是處于錯誤的構(gòu)象(α 螺旋而不是線圈狀構(gòu)象)框产。IDR 的其余部分沒有與域的預(yù)測聯(lián)系。
?
Phactr1 綁定到 PP1
定義:?Phactr1 的無序部分環(huán)繞 PP1 域错洁,在幾個點建立聯(lián)系秉宿。N-末端區(qū)域在β-增強(qiáng)中采用具有兩個短位的線圈狀結(jié)構(gòu)。C-末端區(qū)域采用主要螺旋構(gòu)象屯碴。組成:1 個有序蛋白質(zhì) + 1 個 IDR PDB:6zee
結(jié)果:?AlphaFold 正確折疊了域描睦,并且非常精確地找到了 IDR 的正確位置和方向 (RMSD=0.903A)。高精度可能與 IDR 不對稱(一端為螺旋导而,另一端為β)忱叭、采用規(guī)則二級結(jié)構(gòu)且相當(dāng)長有關(guān)。
?
與二聚體結(jié)構(gòu)伙伴結(jié)合的基序/IDR
p27 與 CDK2:cyclinA 復(fù)合物結(jié)合
定義:?p27 完全無序今艺,具有與有序 CDK2:cyclinA 二聚體結(jié)合的長83 個殘基拉伸韵丑。結(jié)合后,p27 采用細(xì)長結(jié)構(gòu)虚缎,其中包含幾個規(guī)則二級結(jié)構(gòu)的短片和較長的螺旋撵彻,僅形成非常弱的接觸,并作為 N 和 C 端結(jié)合區(qū)域之間的結(jié)構(gòu)接頭。組成:2 個有序蛋白質(zhì) + 1 個 IDR PDB:1jsu
結(jié)果:?AlphaFold 正確折疊域并且它們具有正確的相對方向陌僵。它還為無序的 p27 分配了一個結(jié)構(gòu)轴合,該結(jié)構(gòu)非常接近實際的結(jié)合構(gòu)象;然而碗短,它不能在域二聚體的表面折疊它受葛。它確實找到了 C 端位的正確結(jié)合口袋,但預(yù)測 p27 與域沒有聯(lián)系偎谁。AlphaFold 在預(yù)測中的置信度很高总滩,反映了 p27 局部結(jié)構(gòu)的置信度(確實接近實際綁定的),而不是它與折疊域的關(guān)系搭盾。PAE 圖清楚地表明 AlphaFold 正確評估了 p27 的相對方向(下圖的末尾)與二聚體的位置相比咳秉,置信度非常低婉支。
口蹄疫病毒衣殼蛋白中與整合素 $\alphaV$\beta6 結(jié)合的 RGDLxxL 基序
定義:?在短期IDR包含RGD基序結(jié)合到兩個有序的整合二聚體亞基精氨酸接觸到$ \ alphaV亞基和天冬氨酸通過接觸$ \ beta6亞單位協(xié)調(diào)二價陽離子嵌入在整合領(lǐng)域的互動鸯隅。此外,RGD 基序的 C 端側(cè)翼形成一個短螺旋向挖,與 $\beta6 亞基上的兩個小疏水補(bǔ)丁結(jié)合蝌以。組成:2 個有序蛋白質(zhì) + 1 個 IDR PDB:5nem
結(jié)果:?AlphaFold 幾乎完美地折疊了整合素的兩個折疊亞基 (RMSD=0.552)。肽沒有折疊到結(jié)合槽中何之;AlphaFold 無法識別肽適合的結(jié)合構(gòu)象或結(jié)合口袋跟畅。這可能是因為肽段很短,并且與結(jié)構(gòu)域的相互作用是通過 AF 無法模擬的二價陽離子的配位介導(dǎo)的溶推。與 p27 示例相反徊件,這個 IDR 足夠短,AlphaFold 無法學(xué)習(xí)綁定構(gòu)象蒜危。
?
GCN4原型亮氨酸拉鏈
定義:?一種卷曲螺旋狀二聚體虱痕,由同一兩性螺旋的兩個拷貝組成,通過主要由 Leu 殘基介導(dǎo)的幾種疏水相互作用結(jié)合在一起辐赞。組成:0 個有序蛋白質(zhì) + 2 個 IDR PDB:1zik
結(jié)果:?AlphaFold 獲得接近完美的結(jié)構(gòu) (RMSD=0.311A)部翘,包括將復(fù)合物固定在一起的 Leu 側(cè)鏈。它確實為殘基賦予了很高的置信度响委,但是新思,它確實將兩個螺旋的相對方向標(biāo)記為非常不確定(參見右下角的 PAE 圖)。這也體現(xiàn)在預(yù)測結(jié)構(gòu)中赘风,因為兩個螺旋的方向比實驗結(jié)構(gòu)中的彼此相距更遠(yuǎn)一些。事實上邀窃,在同一個復(fù)合體的幾個預(yù)測結(jié)構(gòu)中,兩個螺旋的距離甚至更遠(yuǎn)敲茄,AlphaFold 預(yù)測它們之間沒有接觸。
p53 四聚化結(jié)構(gòu)域
定義:?p53 的 C 端四聚化區(qū)域的四個拷貝形成二聚體的二聚體堰燎,采用具有高螺旋含量的交織結(jié)構(gòu),并用短的β折疊進(jìn)一步穩(wěn)定秆剪。組成:0 個有序蛋白質(zhì) + 4 個 IDR PDB:2j0z
結(jié)果:?四個鏈的構(gòu)象和相對取向都接近完美(RMSD=0.909A)。與 GCN4 示例相反陶缺,這里的 AlphaFold 不僅對殘基的構(gòu)象很有信心,而且對四個鏈的相對位置也很有信心(參見右下角的 PAE 圖)洁灵。這種差異可能是由于 p53 四聚體是一個更加交織的結(jié)構(gòu),在沿 IDR 的結(jié)合結(jié)構(gòu)方面具有不對稱性苫费。
自噬 SNARE 核心復(fù)合物 (Vamp8 / Syntaxin-17 / SNAP29)
定義:?經(jīng)典四聚體卷曲螺旋(具有 SNAP29 的 2 個區(qū)域和其他蛋白質(zhì)的 1-1 個區(qū)域)。由于 SNARE 復(fù)合物組裝和拆卸百框,未結(jié)合的無序狀態(tài)在生物學(xué)上是相關(guān)的牍汹。四聚體組裝成四個長而對稱的螺旋的緊密堆積的完全平行的盤繞線圈。組成:0 個有序蛋白質(zhì) + 4 個 IDR PDB:4wy4
結(jié)果:?AlphaFold 正確地將四個鏈組裝成一個整體的卷曲螺旋狀構(gòu)象(參見頂部結(jié)構(gòu)圖)慎菲,并且對單個殘基的構(gòu)象具有高置信度(參見左下角的 pLDDT 圖,低置信度區(qū)域是接頭钧嘶,它們是從結(jié)構(gòu)中移除)。鏈條 C 和 D 相對于彼此正確折疊和定位有决。然而,AlphaFold 表明它對鏈 A 和 B 的相對方向的置信度較低(參見右下角的 PAE 圖)新荤。相應(yīng)地,這兩條鏈都處于與其他鏈幾乎沒有接觸的構(gòu)象中苛骨,并且鏈 A 的方向相反篱瞎,與其他鏈相比反向平行俐筋。
Rb:E2F1:DP1 異源三聚體
定義:?甲高度交織三聚復(fù)合物與三個深入審查作為單個折疊單元严衬。所得結(jié)構(gòu)相當(dāng)緊湊、高度不對稱并且具有較高的規(guī)則二級結(jié)構(gòu)含量请琳。組成:0 個有序蛋白質(zhì) + 3 個 IDR PDB:2aze
結(jié)果:?AlphaFold 對所有三個鏈(總體 RMSD=0.996A)給出了近乎完美的預(yù)測,包括它們的構(gòu)象和相對方向俄精。AlphaFold 還為預(yù)測分配了高置信度。
?
結(jié)合血管性血友病因子 (vWF) 的 A3 結(jié)構(gòu)域的膠原三螺旋
定義:?膠原三螺旋由三個相同的鏈構(gòu)成竖慧,具有非常高的甘氨酸和脯氨酸含量(一些脯氨酸被修飾為羥脯氨酸),每條鏈都采用類似PPII 的構(gòu)象灌危。這種三螺旋需要折疊成正確的構(gòu)象碳胳,以創(chuàng)建 vWF 結(jié)構(gòu)域的結(jié)合位點沫勿,它可以通過與三個膠原鏈中的兩個接觸來結(jié)合。實際上产雹,這是按順序發(fā)生的,AlphaFold 需要在一個步驟中構(gòu)建整個復(fù)合體蔓挖。組成:1 個有序蛋白質(zhì) + 3 個 IDR PDB:4dmu
結(jié)果:?AlphaFold 能夠近乎完美地折疊來自 vWF 的域(域的RMSD=0.592),但無法組裝膠原三螺旋——盡管它對膠原殘基具有很高的置信度怨绣】交瘢看起來高 Pro/Gly 含量與 AlphaFold 的折疊結(jié)構(gòu)不兼容。缺乏疏水核心匆瓜、規(guī)則的二級結(jié)構(gòu)和序列復(fù)雜性可能是導(dǎo)致失敗的原因(注意:即使沒有 vWF 結(jié)構(gòu)域未蝌,AlphaFold 也無法組裝膠原蛋白三螺旋)茧妒。
?
預(yù)測綁定 LxxLL 基序的結(jié)構(gòu)
在之前的所有示例中,結(jié)構(gòu)均取自 PDB(均在 2018 年之前發(fā)布)桐筏,因此它們都是 AlphaFold2 訓(xùn)練集的一部分。為了了解 AlphaFold 在預(yù)測新的模體邊界結(jié)構(gòu)方面的效果如何绊袋,我們在 LxxLL 模體的 10 個實例(列在ELM 數(shù)據(jù)庫中)上運行了它) 沒有解出的結(jié)構(gòu)。所有這些實例都已被證實為真陽性癌别,并且由于它們都包含相同的基序,我們希望它們都與域表面上的相同疏水凹槽結(jié)合展姐。在所有 10 個測試示例中剖毯,AlphaFold 正確地將肽折疊成螺旋構(gòu)象并將它們放入正確的結(jié)合口袋中(新預(yù)測在透明卡通中,NRIP1 LxxLL 基序(PDB:2gpo)的實驗驗證結(jié)構(gòu)以紫色顯示):
基于這些示例擂达,IDR 的幾個屬性似乎可以更好地預(yù)測復(fù)雜結(jié)構(gòu):
在結(jié)合的 IDP 構(gòu)象(螺旋構(gòu)象或 β 增強(qiáng))中存在規(guī)則的二級結(jié)構(gòu)
明確的疏水結(jié)合溝
不對稱結(jié)合的 IDP 結(jié)構(gòu)(就沿 IDR 序列的二級結(jié)構(gòu)元素而言)
其他似乎降低成功預(yù)測機(jī)會的屬性:
短 IDR
不規(guī)則束縛結(jié)構(gòu)
磷酸化依賴性結(jié)合
界面中存在離子
高度對稱的束縛結(jié)構(gòu)胶滋,例如長螺旋或短相似結(jié)構(gòu)元素的陣列
一般來說,AlphaFold 在預(yù)測結(jié)構(gòu)中 IDR 是多 IDR 單折疊單元(例如 p53 四聚體或 E2F1-DP1-Rb)的一部分或 IDR 與疏水性驅(qū)動的折疊域結(jié)合的結(jié)構(gòu)方面表現(xiàn)非常好究恤。在其他情況下,AlphaFold 通常找不到正確的結(jié)合模式部宿,但即使如此,它也經(jīng)常正確識別結(jié)合的 IDR 結(jié)構(gòu)(或至少二級結(jié)構(gòu)的存在/不存在)和域表面上的結(jié)合位點(但并不總是正確的——例如在 KID/KIX 復(fù)合體中)赫蛇。