2022-06-14

Nat Biotech | AI從測序數(shù)據(jù)中預(yù)測蛋白質(zhì)-配體的結(jié)合力

原創(chuàng)?蘇安?圖靈基因?2022-06-14 07:03?發(fā)表于江蘇

收錄于合集#前沿生物大數(shù)據(jù)分析

撰文:蘇安

IF54.908

推薦度:?????

亮點(diǎn):

1.?作者描述了一種靈活的機(jī)器學(xué)習(xí)方法,稱為ProBound,它可以量化平衡結(jié)合常數(shù)或動力學(xué)速率來準(zhǔn)確地實(shí)現(xiàn)序列識別此迅,并且在量化轉(zhuǎn)錄因子(TF)模型中預(yù)測結(jié)合力的效果大大超越其他資源思灰。

2.?當(dāng)ProBoundKD-seq方法結(jié)合分析時卢肃,可以預(yù)測蛋白質(zhì)-配體的結(jié)合親和力;ProBound也可以應(yīng)用于激酶-底物相互作用的動力學(xué)研究。ProBound為解碼生物網(wǎng)絡(luò)和量化蛋白質(zhì)-配體相互作用開辟了新的途徑辽幌。

生命由細(xì)胞構(gòu)成忠蝗,細(xì)胞中的重要過程(比如細(xì)胞調(diào)控和信號轉(zhuǎn)導(dǎo))高度依賴序列特異性的蛋白質(zhì)-配體的相互作用现横,因此,全面定量地分析序列識別對解碼這些分子網(wǎng)絡(luò)至關(guān)重要阁最。雖然大規(guī)模并行測序提高了序列識別的速度戒祠,但是目前并未精確量化分子之間相互作用的生化物理參數(shù)。

近期闽撤,在Nature biotechnology雜志上發(fā)表了一篇名為“Prediction of proteinligand binding affinity from sequencing data with interpretable machine learning”的文章得哆,本文的研究人員通過建立一種“ProBound”的機(jī)器學(xué)習(xí)框架,以平衡結(jié)合常數(shù)和動力學(xué)速率來定義序列識別哟旗,實(shí)現(xiàn)了對蛋白質(zhì)-配體結(jié)合親和力的預(yù)測贩据,并且ProBound在激酶-底物相互作用的動力學(xué)中也得到了應(yīng)用,這項(xiàng)方法為解碼生物網(wǎng)絡(luò)和量化蛋白質(zhì)-配體相互作用開辟了新的途徑闸餐。


首先饱亮,作者向我們展示了ProBound的框架。ProBound使用三層對多庫測序數(shù)據(jù)進(jìn)行系統(tǒng)建模(圖1):結(jié)合層使用序列識別模型預(yù)測序列的結(jié)合自由能或酶效率舍沙;分析層編碼生成文庫的選擇步驟近上,并預(yù)測所有配體的頻率;測序?qū)訉y序過程中文庫的隨機(jī)采樣進(jìn)行建模拂铡。這些層被合并成一個函數(shù)壹无,該函數(shù)被優(yōu)化以推斷識別模型。每一層都具備可擴(kuò)展性感帅,可以聯(lián)合多種分析方法斗锭,實(shí)現(xiàn)復(fù)雜現(xiàn)象的解析(如酶修飾和甲基化)。圖1.ProBound方法的概述


為了在更廣泛的范圍內(nèi)量化TF的序列識別失球,作者利用已經(jīng)發(fā)表的SELEX數(shù)據(jù)庫對算法進(jìn)行訓(xùn)練岖是,得到了1632個綁定模型(圖2a)。為了評估模型的性能实苞,作者將每個TF與已發(fā)表的蛋白結(jié)合微陣列(PBM)豺撑、染色質(zhì)免疫沉淀測序(ChIP-seq)和非訓(xùn)練SELEX數(shù)據(jù)聯(lián)系起來,并計算了三個互補(bǔ)的性能指標(biāo):有意義的親和折疊范圍(MAFR)黔牵,模型解釋的信號方差的比例r2聪轿,精度召回曲線下的面積(AUPRC)。結(jié)果顯示荧止,ProBound在所有指標(biāo)上都優(yōu)于當(dāng)前的資源(圖2b)屹电。圖2.TF綁定模型性能的驗(yàn)證


除了序列本身影響TF的序列識別之外阶剑,輔助因子的相互作用和DNA甲基化也會影響TF的序列識別。為了量化在輔助因子作用下TF的特異性和協(xié)同性危号,作者團(tuán)隊利用三個高度保守的果蠅同源結(jié)構(gòu)域蛋白形成的復(fù)合物:同胸(Hth)牧愁、胞外膜(Exd)和超胸(Ubx)來建模分析。為了表征Hth:Exd:Ubx外莲,作者首先對所有三個因素進(jìn)行了SELEX-seq猪半,然后將這些數(shù)據(jù)與之前的單體和異質(zhì)二聚體數(shù)據(jù)結(jié)合進(jìn)行分析(圖3a)。結(jié)果顯示偷线,當(dāng)Hth結(jié)合Exd:Ubx上游的8-13個堿基對(bp)時磨确,模型具有顯著的協(xié)同性(ΔΔGconfig≈2RT)(圖3b)。為了量化甲基化對模型的影響声邦,作者同時學(xué)習(xí)了所有三種二聚體的甲基化感知結(jié)合模型(圖3c)乏奥,作者使用ChIP-seq數(shù)據(jù)來估計體內(nèi)這些位置特異性甲基化敏感性的影響,發(fā)現(xiàn)甲基化顯著影響了模型預(yù)測的結(jié)合方向(圖3d)亥曹,并且其他的DNA修飾方式如6mA邓了、5hmc也會對TF產(chǎn)生影響(圖3e)。圖3.互補(bǔ)分析的綜合建模量化了甲基化和輔助因子對TF結(jié)合的影響


當(dāng)前測試方法的局限性是僅能用于蛋白-配體相對親和度的分析媳瞪,為了能夠?qū)崿F(xiàn)蛋白-配體絕對親和度的分析骗炉,作者開發(fā)了名為KD-seq的檢測方法。KD-seq使用一個和規(guī)則關(guān)聯(lián)的三個庫的相對配體頻率來推斷絕對結(jié)合概率蛇受,然后以一種修正結(jié)合飽和的方法轉(zhuǎn)換為KD估計值(圖4a)句葵。作者首先在低DNA和TF濃度(分別為100nM和20nM)下使用果蠅同源結(jié)構(gòu)域蛋白遠(yuǎn)端無端(Dll)測試KD-seq,以實(shí)現(xiàn)強(qiáng)富集和避免過度結(jié)合飽和兢仰。所得到的模型(圖4b)準(zhǔn)確地預(yù)測了KD中束縛庫和自由庫中超過三個數(shù)量級的富集情況(圖4c)乍丈。為了驗(yàn)證,作者使用標(biāo)準(zhǔn)電遷移率測定法測量了最優(yōu)模型預(yù)測的結(jié)合位點(diǎn)和三個次優(yōu)序列的KD值把将,發(fā)現(xiàn)了很好的定量一致性(圖4d),盡管在幾種條件下诗赌,最高親和序列的KD估計值是相似的,但當(dāng)TF濃度比KD極高或DNA濃度遠(yuǎn)高于TF時秸弛,它就發(fā)生了變化(圖4e)。圖4.ProBound推斷絕對KD值洪碳。


為了從ChIP-seq數(shù)據(jù)中了解它們在體內(nèi)的影響递览,作者使用ProBound發(fā)現(xiàn)了驅(qū)動IMR90細(xì)胞系中糖皮質(zhì)激素受體(GR)ChIP-seq數(shù)據(jù)選擇的因素。研究發(fā)現(xiàn)了4種結(jié)合模型:一種與GR序列一致瞳腌,另外3種與已知的GR輔助因子AP-1绞铃、FOXA1和TEAD一致(圖5a)。多濃度模型是建立在每個文庫被有意下調(diào)到105次或0.03次基因組序列的數(shù)據(jù)上(kb)構(gòu)建的嫂侍。因此儿捧,即使在極低的覆蓋率下荚坞,ChIP-seq數(shù)據(jù)也明確地包含了足夠的信息來可靠地推斷TF結(jié)合模型,并量化具有生物學(xué)意義的細(xì)胞狀態(tài)參數(shù)菲盾。兩種GR結(jié)合模型的自由能參數(shù)與體外數(shù)據(jù)(r2=0.97和r2=0.92颓影;圖5a,b)懒鉴,表明體外和體內(nèi)結(jié)合特異性的觀察實(shí)際上是高度一致的诡挂。

圖5.ProBound使用無峰ChIP-seq分析學(xué)習(xí)定量結(jié)合模型和樣本特異性TF活性


為了探究激酶-底物相互作用的動力學(xué),作者在一個固定的中心酪氨酸周圍隨機(jī)化10個氨基酸殘基临谱,并將該文庫暴露在c-Src中(圖6a)璃俗,將推斷出的效率模型可視化為一個序列標(biāo)志(圖6b),顯示了與早期研究一致的有利殘基的位置特異性模式悉默。該模型還準(zhǔn)確地捕獲了所有三個時間點(diǎn)在keff的100倍范圍內(nèi)觀察到的磷酸化肽的部分(圖6c)城豁,為了驗(yàn)證該模型,作者使用高效液相色譜(HPLC)測量了11個多肽的磷酸化率抄课,它們的歸一化初始磷酸化速率的測量值在ProBound模型預(yù)測的方向上有顯著差異(圖6d)唱星。圖6.ProBound定量了酪氨酸激酶c-Src的序列依賴性動力學(xué)


本文作者向我們展示了,通過明確地建模分析過程剖膳,我們可以使用機(jī)器學(xué)習(xí)準(zhǔn)確地量化生物物理參數(shù)魏颓。作者預(yù)計ProBound能夠?qū)崿F(xiàn)的序列識別的準(zhǔn)確和無偏分析將在生物技術(shù)領(lǐng)域有許多應(yīng)用,其中配體或底物的合理工程設(shè)計至關(guān)重要吱晒。

教授介紹:

Harmen J. Bussemaker

Harmen J. Bussemaker是是生物科學(xué)系的主席和教授甸饱。Bussemaker博士以其通過整合有關(guān)基因組序列,轉(zhuǎn)錄因子結(jié)合和基因表達(dá)數(shù)據(jù)的信息來理解基因調(diào)控網(wǎng)絡(luò)的開創(chuàng)性努力而聞名仑濒。Bussemaker實(shí)驗(yàn)室使用高通量測序和基于親和力的選擇叹话,旨在以前所未有的分辨率量化轉(zhuǎn)錄因子的DNA結(jié)合特異性。他還使用生物物理模型從全基因組mRNA表達(dá)水平推斷轉(zhuǎn)錄因子調(diào)節(jié)活性的細(xì)胞狀態(tài)特異性變化墩瞳。

參考文獻(xiàn):

Rube, H.T., Rastogi, C., Feng, S. et al. Prediction of protein–ligand binding affinity from sequencing data with interpretable machine learning. Nat Biotechnol (2022).https://doi.org/10.1038/s41587-022-01307-0

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末驼壶,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子喉酌,更是在濱河造成了極大的恐慌热凹,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,839評論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件泪电,死亡現(xiàn)場離奇詭異般妙,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)相速,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,543評論 2 382
  • 文/潘曉璐 我一進(jìn)店門碟渺,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人突诬,你說我怎么就攤上這事苫拍∥叻保” “怎么了?”我有些...
    開封第一講書人閱讀 153,116評論 0 344
  • 文/不壞的土叔 我叫張陵绒极,是天一觀的道長骏令。 經(jīng)常有香客問我,道長集峦,這世上最難降的妖魔是什么伏社? 我笑而不...
    開封第一講書人閱讀 55,371評論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮塔淤,結(jié)果婚禮上摘昌,老公的妹妹穿的比我還像新娘。我一直安慰自己高蜂,他們只是感情好聪黎,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,384評論 5 374
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著备恤,像睡著了一般稿饰。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上露泊,一...
    開封第一講書人閱讀 49,111評論 1 285
  • 那天喉镰,我揣著相機(jī)與錄音,去河邊找鬼惭笑。 笑死侣姆,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的沉噩。 我是一名探鬼主播捺宗,決...
    沈念sama閱讀 38,416評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼川蒙!你這毒婦竟也來了蚜厉?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,053評論 0 259
  • 序言:老撾萬榮一對情侶失蹤畜眨,失蹤者是張志新(化名)和其女友劉穎昼牛,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體康聂,經(jīng)...
    沈念sama閱讀 43,558評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡匾嘱,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,007評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了早抠。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,117評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡撬讽,死狀恐怖蕊连,靈堂內(nèi)的尸體忽然破棺而出悬垃,到底是詐尸還是另有隱情,我是刑警寧澤甘苍,帶...
    沈念sama閱讀 33,756評論 4 324
  • 正文 年R本政府宣布尝蠕,位于F島的核電站,受9級特大地震影響载庭,放射性物質(zhì)發(fā)生泄漏看彼。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,324評論 3 307
  • 文/蒙蒙 一囚聚、第九天 我趴在偏房一處隱蔽的房頂上張望靖榕。 院中可真熱鬧,春花似錦顽铸、人聲如沸茁计。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,315評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽星压。三九已至,卻和暖如春鬼譬,著一層夾襖步出監(jiān)牢的瞬間娜膘,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,539評論 1 262
  • 我被黑心中介騙來泰國打工优质, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留竣贪,地道東北人。 一個月前我還...
    沈念sama閱讀 45,578評論 2 355
  • 正文 我出身青樓盆赤,卻偏偏與公主長得像贾富,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子牺六,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,877評論 2 345

推薦閱讀更多精彩內(nèi)容