Nat Biotech | AI從測序數(shù)據(jù)中預(yù)測蛋白質(zhì)-配體的結(jié)合力
原創(chuàng)?蘇安?圖靈基因?2022-06-14 07:03?發(fā)表于江蘇
收錄于合集#前沿生物大數(shù)據(jù)分析
撰文:蘇安
IF:54.908
推薦度:?????
亮點(diǎn):
1.?作者描述了一種靈活的機(jī)器學(xué)習(xí)方法,稱為ProBound,它可以量化平衡結(jié)合常數(shù)或動力學(xué)速率來準(zhǔn)確地實(shí)現(xiàn)序列識別此迅,并且在量化轉(zhuǎn)錄因子(TF)模型中預(yù)測結(jié)合力的效果大大超越其他資源思灰。
2.?當(dāng)ProBound與KD-seq方法結(jié)合分析時卢肃,可以預(yù)測蛋白質(zhì)-配體的結(jié)合親和力;ProBound也可以應(yīng)用于激酶-底物相互作用的動力學(xué)研究。ProBound為解碼生物網(wǎng)絡(luò)和量化蛋白質(zhì)-配體相互作用開辟了新的途徑辽幌。
生命由細(xì)胞構(gòu)成忠蝗,細(xì)胞中的重要過程(比如細(xì)胞調(diào)控和信號轉(zhuǎn)導(dǎo))高度依賴序列特異性的蛋白質(zhì)-配體的相互作用现横,因此,全面定量地分析序列識別對解碼這些分子網(wǎng)絡(luò)至關(guān)重要阁最。雖然大規(guī)模并行測序提高了序列識別的速度戒祠,但是目前并未精確量化分子之間相互作用的生化物理參數(shù)。
近期闽撤,在Nature biotechnology雜志上發(fā)表了一篇名為“Prediction of protein–ligand binding affinity from sequencing data with interpretable machine learning”的文章得哆,本文的研究人員通過建立一種“ProBound”的機(jī)器學(xué)習(xí)框架,以平衡結(jié)合常數(shù)和動力學(xué)速率來定義序列識別哟旗,實(shí)現(xiàn)了對蛋白質(zhì)-配體結(jié)合親和力的預(yù)測贩据,并且ProBound在激酶-底物相互作用的動力學(xué)中也得到了應(yīng)用,這項(xiàng)方法為解碼生物網(wǎng)絡(luò)和量化蛋白質(zhì)-配體相互作用開辟了新的途徑闸餐。
首先饱亮,作者向我們展示了ProBound的框架。ProBound使用三層對多庫測序數(shù)據(jù)進(jìn)行系統(tǒng)建模(圖1):結(jié)合層使用序列識別模型預(yù)測序列的結(jié)合自由能或酶效率舍沙;分析層編碼生成文庫的選擇步驟近上,并預(yù)測所有配體的頻率;測序?qū)訉y序過程中文庫的隨機(jī)采樣進(jìn)行建模拂铡。這些層被合并成一個函數(shù)壹无,該函數(shù)被優(yōu)化以推斷識別模型。每一層都具備可擴(kuò)展性感帅,可以聯(lián)合多種分析方法斗锭,實(shí)現(xiàn)復(fù)雜現(xiàn)象的解析(如酶修飾和甲基化)。圖1.ProBound方法的概述
為了在更廣泛的范圍內(nèi)量化TF的序列識別失球,作者利用已經(jīng)發(fā)表的SELEX數(shù)據(jù)庫對算法進(jìn)行訓(xùn)練岖是,得到了1632個綁定模型(圖2a)。為了評估模型的性能实苞,作者將每個TF與已發(fā)表的蛋白結(jié)合微陣列(PBM)豺撑、染色質(zhì)免疫沉淀測序(ChIP-seq)和非訓(xùn)練SELEX數(shù)據(jù)聯(lián)系起來,并計算了三個互補(bǔ)的性能指標(biāo):有意義的親和折疊范圍(MAFR)黔牵,模型解釋的信號方差的比例r2聪轿,精度召回曲線下的面積(AUPRC)。結(jié)果顯示荧止,ProBound在所有指標(biāo)上都優(yōu)于當(dāng)前的資源(圖2b)屹电。圖2.TF綁定模型性能的驗(yàn)證
除了序列本身影響TF的序列識別之外阶剑,輔助因子的相互作用和DNA甲基化也會影響TF的序列識別。為了量化在輔助因子作用下TF的特異性和協(xié)同性危号,作者團(tuán)隊利用三個高度保守的果蠅同源結(jié)構(gòu)域蛋白形成的復(fù)合物:同胸(Hth)牧愁、胞外膜(Exd)和超胸(Ubx)來建模分析。為了表征Hth:Exd:Ubx外莲,作者首先對所有三個因素進(jìn)行了SELEX-seq猪半,然后將這些數(shù)據(jù)與之前的單體和異質(zhì)二聚體數(shù)據(jù)結(jié)合進(jìn)行分析(圖3a)。結(jié)果顯示偷线,當(dāng)Hth結(jié)合Exd:Ubx上游的8-13個堿基對(bp)時磨确,模型具有顯著的協(xié)同性(ΔΔGconfig≈2RT)(圖3b)。為了量化甲基化對模型的影響声邦,作者同時學(xué)習(xí)了所有三種二聚體的甲基化感知結(jié)合模型(圖3c)乏奥,作者使用ChIP-seq數(shù)據(jù)來估計體內(nèi)這些位置特異性甲基化敏感性的影響,發(fā)現(xiàn)甲基化顯著影響了模型預(yù)測的結(jié)合方向(圖3d)亥曹,并且其他的DNA修飾方式如6mA邓了、5hmc也會對TF產(chǎn)生影響(圖3e)。圖3.互補(bǔ)分析的綜合建模量化了甲基化和輔助因子對TF結(jié)合的影響
當(dāng)前測試方法的局限性是僅能用于蛋白-配體相對親和度的分析媳瞪,為了能夠?qū)崿F(xiàn)蛋白-配體絕對親和度的分析骗炉,作者開發(fā)了名為KD-seq的檢測方法。KD-seq使用一個和規(guī)則關(guān)聯(lián)的三個庫的相對配體頻率來推斷絕對結(jié)合概率蛇受,然后以一種修正結(jié)合飽和的方法轉(zhuǎn)換為KD估計值(圖4a)句葵。作者首先在低DNA和TF濃度(分別為100nM和20nM)下使用果蠅同源結(jié)構(gòu)域蛋白遠(yuǎn)端無端(Dll)測試KD-seq,以實(shí)現(xiàn)強(qiáng)富集和避免過度結(jié)合飽和兢仰。所得到的模型(圖4b)準(zhǔn)確地預(yù)測了KD中束縛庫和自由庫中超過三個數(shù)量級的富集情況(圖4c)乍丈。為了驗(yàn)證,作者使用標(biāo)準(zhǔn)電遷移率測定法測量了最優(yōu)模型預(yù)測的結(jié)合位點(diǎn)和三個次優(yōu)序列的KD值把将,發(fā)現(xiàn)了很好的定量一致性(圖4d),盡管在幾種條件下诗赌,最高親和序列的KD估計值是相似的,但當(dāng)TF濃度比KD極高或DNA濃度遠(yuǎn)高于TF時秸弛,它就發(fā)生了變化(圖4e)。圖4.ProBound推斷絕對KD值洪碳。
為了從ChIP-seq數(shù)據(jù)中了解它們在體內(nèi)的影響递览,作者使用ProBound發(fā)現(xiàn)了驅(qū)動IMR90細(xì)胞系中糖皮質(zhì)激素受體(GR)ChIP-seq數(shù)據(jù)選擇的因素。研究發(fā)現(xiàn)了4種結(jié)合模型:一種與GR序列一致瞳腌,另外3種與已知的GR輔助因子AP-1绞铃、FOXA1和TEAD一致(圖5a)。多濃度模型是建立在每個文庫被有意下調(diào)到105次或0.03次基因組序列的數(shù)據(jù)上(kb)構(gòu)建的嫂侍。因此儿捧,即使在極低的覆蓋率下荚坞,ChIP-seq數(shù)據(jù)也明確地包含了足夠的信息來可靠地推斷TF結(jié)合模型,并量化具有生物學(xué)意義的細(xì)胞狀態(tài)參數(shù)菲盾。兩種GR結(jié)合模型的自由能參數(shù)與體外數(shù)據(jù)(r2=0.97和r2=0.92颓影;圖5a,b)懒鉴,表明體外和體內(nèi)結(jié)合特異性的觀察實(shí)際上是高度一致的诡挂。
圖5.ProBound使用無峰ChIP-seq分析學(xué)習(xí)定量結(jié)合模型和樣本特異性TF活性
為了探究激酶-底物相互作用的動力學(xué),作者在一個固定的中心酪氨酸周圍隨機(jī)化10個氨基酸殘基临谱,并將該文庫暴露在c-Src中(圖6a)璃俗,將推斷出的效率模型可視化為一個序列標(biāo)志(圖6b),顯示了與早期研究一致的有利殘基的位置特異性模式悉默。該模型還準(zhǔn)確地捕獲了所有三個時間點(diǎn)在keff的100倍范圍內(nèi)觀察到的磷酸化肽的部分(圖6c)城豁,為了驗(yàn)證該模型,作者使用高效液相色譜(HPLC)測量了11個多肽的磷酸化率抄课,它們的歸一化初始磷酸化速率的測量值在ProBound模型預(yù)測的方向上有顯著差異(圖6d)唱星。圖6.ProBound定量了酪氨酸激酶c-Src的序列依賴性動力學(xué)
本文作者向我們展示了,通過明確地建模分析過程剖膳,我們可以使用機(jī)器學(xué)習(xí)準(zhǔn)確地量化生物物理參數(shù)魏颓。作者預(yù)計ProBound能夠?qū)崿F(xiàn)的序列識別的準(zhǔn)確和無偏分析將在生物技術(shù)領(lǐng)域有許多應(yīng)用,其中配體或底物的合理工程設(shè)計至關(guān)重要吱晒。
教授介紹:
Harmen J. Bussemaker
Harmen J. Bussemaker是是生物科學(xué)系的主席和教授甸饱。Bussemaker博士以其通過整合有關(guān)基因組序列,轉(zhuǎn)錄因子結(jié)合和基因表達(dá)數(shù)據(jù)的信息來理解基因調(diào)控網(wǎng)絡(luò)的開創(chuàng)性努力而聞名仑濒。Bussemaker實(shí)驗(yàn)室使用高通量測序和基于親和力的選擇叹话,旨在以前所未有的分辨率量化轉(zhuǎn)錄因子的DNA結(jié)合特異性。他還使用生物物理模型從全基因組mRNA表達(dá)水平推斷轉(zhuǎn)錄因子調(diào)節(jié)活性的細(xì)胞狀態(tài)特異性變化墩瞳。
參考文獻(xiàn):
Rube, H.T., Rastogi, C., Feng, S. et al. Prediction of protein–ligand binding affinity from sequencing data with interpretable machine learning. Nat Biotechnol (2022).https://doi.org/10.1038/s41587-022-01307-0