1.背景
蛋白質(zhì)磷酸化是生物體中較常見(jiàn)的一種蛋白質(zhì)翻譯后修飾方式障涯,它可以通過(guò)激發(fā)罐旗、調(diào)節(jié)諸多信號(hào)通路進(jìn)而參與調(diào)控生物體生長(zhǎng)、發(fā)育像樊、逆境應(yīng)激尤莺、疾病發(fā)生等多種生命過(guò)程,所以磷酸化一直是生物學(xué)研究的重點(diǎn)與熱點(diǎn)生棍。磷酸化的定量方法如下:
但是由于以下原因?qū)е履壳按蠖鄶?shù)研究集中在單個(gè)磷酸化蛋白與激酶上颤霎,或僅限于使用聚類與富集分析的方法:
(1)每個(gè)激酶潛在的靶點(diǎn)數(shù)目(磷酸化位點(diǎn))往往很多。
(2)充當(dāng)激酶靶點(diǎn)的蛋白可在多個(gè)位點(diǎn)被磷酸化涂滴。
(3)每個(gè)位點(diǎn)也可能被多個(gè)激酶靶向友酱。
注:激酶是使蛋白磷酸化,而磷酸酶則相反柔纵。
在這里缔杉,我們介紹一種機(jī)器學(xué)習(xí)算法,該算法根據(jù)PhosphoSitePlus數(shù)據(jù)庫(kù)中的激酶目標(biāo)信息從磷酸化蛋白質(zhì)組學(xué)數(shù)據(jù)推斷激酶的活性搁料。通過(guò)將估計(jì)的激酶活性譜與測(cè)得的磷酸化位點(diǎn)譜進(jìn)行比較或详,得到最可能磷酸化相應(yīng)磷酸化位點(diǎn)的激酶。
2.方法
該方法由一系列MATLAB函數(shù)組成郭计,主要分為三大部分:
(1)激酶活性的估計(jì)霸琴。
(2)推斷激酶與靶點(diǎn)的關(guān)聯(lián)。
(3)通過(guò)數(shù)據(jù)庫(kù)昭伸、文獻(xiàn)等信息進(jìn)行驗(yàn)證梧乘。
2.1激酶活性的估計(jì)
(1)對(duì)于每個(gè)磷酸化位點(diǎn)(蛋白序列),在PSP數(shù)據(jù)庫(kù)中搜索出會(huì)使其磷酸化的激酶。
(2)通過(guò)蛋白質(zhì)組數(shù)據(jù)篩選找到的激酶选调,確保所研究的細(xì)胞中存在這些激酶(可選)夹供。后去掉那些在數(shù)據(jù)庫(kù)中沒(méi)有注釋激酶信息的磷酸化位點(diǎn)。[data_red,kin]
(3)第三步是為簡(jiǎn)化后的數(shù)據(jù)集中的激酶-磷酸位點(diǎn)相互作用生成真值表仁堪。有相互作用code為1哮洽,否則code為0。[A]
(4)利用data_red枝笨、kin袁铐、A,找到最能解釋所用數(shù)據(jù)的激酶活性横浑。
下面是一些定義:
下面為示例模型:
2.2推斷激酶與靶點(diǎn)關(guān)聯(lián)
在這一部分中剔桨,將計(jì)算出的活性譜用于通過(guò)相關(guān)系數(shù)推斷每個(gè)磷酸位點(diǎn)最可能的激酶。這里有一個(gè)假設(shè):一個(gè)位點(diǎn)的磷酸化狀態(tài)與主導(dǎo)該位點(diǎn)磷酸化的激酶的活性相關(guān)徙融。如果一個(gè)位點(diǎn)有一個(gè)主導(dǎo)激酶洒缀,那么該位點(diǎn)的磷酸化狀態(tài)和激酶的活性會(huì)導(dǎo)致高相關(guān)系數(shù)。因此欺冀,高度顯著的相關(guān)性指向激酶與底物關(guān)聯(lián)树绩。
(1)通過(guò)計(jì)算估計(jì)出的激酶活性譜與測(cè)得的磷酸位點(diǎn)之間的相關(guān)系數(shù),計(jì)算出所有激酶-磷酸位點(diǎn)的p值隐轩。(dist)
(以新生成的距離矩陣(dist)饺饭、激酶列表(kin)、期望的FDR职车,生成psig(含所有顯著的激酶-磷酸位點(diǎn)及p值)
2.3驗(yàn)證
現(xiàn)在我們已經(jīng)得出了每個(gè)磷酸位點(diǎn)最可能的激酶瘫俊,我們通過(guò)IPA和MetaBase的數(shù)據(jù)庫(kù)信息以及NetworKIN的基序信息來(lái)驗(yàn)證新發(fā)現(xiàn)的相互作用。
(1)生成一個(gè)列表pnsig悴灵,該列表具有與psig相同的大小扛芽,并包含隨機(jī)獲取的激酶-磷酸位點(diǎn)關(guān)聯(lián)以進(jìn)行比較。
(2)為了驗(yàn)證我們的顯著的聯(lián)系积瞒,我們建立了在IPA和MetaBase數(shù)據(jù)庫(kù)中存在的所有激酶靶點(diǎn)聯(lián)系的列表川尖。
(3)通過(guò)NetworKIN以基于motif的方式檢查所發(fā)現(xiàn)的相互作用的可能性,該數(shù)據(jù)庫(kù)通過(guò)將序列特異性與STRING數(shù)據(jù)庫(kù)中的細(xì)胞環(huán)境相結(jié)合來(lái)模擬激酶信號(hào)網(wǎng)絡(luò)。
3.結(jié)果
3.1激酶活性以及最有可能的激酶-靶點(diǎn)對(duì)
對(duì)于HeLaS3數(shù)據(jù)茫孔,測(cè)量的值相對(duì)于相應(yīng)的蛋白豐度變化進(jìn)行標(biāo)準(zhǔn)化叮喳,以確定是磷酸化狀態(tài)的變化,而不是蛋白豐度的變化缰贝。這里嘲更,所有的值都以log2的形式給出,并且位于區(qū)間[-15,15]內(nèi)揩瞪。數(shù)據(jù)總共包含24714個(gè)磷酸位點(diǎn),是在六個(gè)細(xì)胞周期階段G1篓冲,G1 / S李破,early S宠哄,late S,G2和M測(cè)量得到的嗤攻。
通過(guò)應(yīng)用IKAP第1部分毛嫉,我們首先獲得了包含1069個(gè)磷酸位點(diǎn)的簡(jiǎn)化數(shù)據(jù)集,其中至少有一個(gè)激酶是從PSP已知的妇菱。通過(guò)蛋白質(zhì)組學(xué)對(duì)獲得的激酶進(jìn)行篩選承粤,得到了一個(gè)包含118個(gè)激酶的列表 ,這些激酶在HeLaS3中表達(dá)闯团,已知可使我們數(shù)據(jù)集中的一個(gè)肽在相應(yīng)位置磷酸化辛臊。通過(guò)應(yīng)用迭代次數(shù)為100的第4步,我們估計(jì)了六個(gè)細(xì)胞周期階段中這118種激酶的活性房交。
注:mit代表HeLaS3有絲分裂,i.d.代表小鼠胰島素動(dòng)態(tài)變化彻舰。
僅僅介紹HeLaS3數(shù)據(jù)集的結(jié)果
(1)表1顯示了在每個(gè)細(xì)胞周期階段的五個(gè)活性最高和活性最低的激酶。在所有階段中候味,我們看到五個(gè)上調(diào)的激酶中至少有一個(gè)MAP激酶途徑的成員刃唤。這表明該途徑在HeLaS3細(xì)胞中特別活躍。
(2)圖3顯示了激酶的平均活性白群。我們可以看到尚胞,總體激酶活性在G1和G2時(shí)最高,在S和M期最低帜慢,這是我們所期望的(這兩個(gè)時(shí)期是合成蛋白的時(shí)期)笼裳。
(3) 估計(jì)的激酶譜圖及最有可能的激酶-靶點(diǎn)對(duì)。藍(lán)色的為激酶崖堤,紅色為磷酸化位點(diǎn)(靶點(diǎn))侍咱。
3.2驗(yàn)證
本文由博客一文多發(fā)平臺(tái) OpenWrite 發(fā)布!