1. lncPro原理
參閱文獻(xiàn)《Computational prediction of associations between long non-coding RNAs and proteins》
lncRNA常常被當(dāng)作一種功能元件夺鲜,lncRNA通過與結(jié)合蛋白互作來發(fā)揮其一定的生物學(xué)功能,所以lncPro的主要功能就是預(yù)測lncRNA與目標(biāo)蛋白互作的得分,從而從生物信息學(xué)的角度判斷l(xiāng)ncRNA與protein是否有互作
lncPro的基本原理是將RNA sequence和protein sequence轉(zhuǎn)換為數(shù)值型向量,并利用矩陣的乘法來計算RNA與蛋白質(zhì)的得分
依據(jù)所計算的得分設(shè)定閾值新蟆,來判斷RNA與蛋白質(zhì)是否存在互作训柴,在人類中發(fā)現(xiàn)lncRNA結(jié)合最多的是核蛋白和RBP
method:
第一步是訓(xùn)練數(shù)據(jù)缸濒,即要訓(xùn)練很多對的RNA和蛋白質(zhì)序列對宝惰,lncRNA與蛋白質(zhì)形成的復(fù)合物可以從PDB數(shù)據(jù)庫里面下載植榕,并且規(guī)定分子距離小于5 ?(?為距離單位)的認(rèn)為是有結(jié)合的
第二步,基于三個序列特征來描述lncRNA與蛋白質(zhì)的結(jié)合得分:
首先是二級結(jié)構(gòu)尼夺,對應(yīng)RNA來說尊残,利用Vienna包中的RNAsubopt來預(yù)測RNA的二級結(jié)構(gòu),而RNAsubopt會給出若干具有最低自由能的二級結(jié)構(gòu)汞斧,然后lncPro將會把這些結(jié)果轉(zhuǎn)換為數(shù)字特征向量
對于蛋白質(zhì)序列夜郁,同樣的道理,利用Predator來預(yù)測蛋白質(zhì)的二級結(jié)構(gòu)粘勒,然后lncPro將會把這些結(jié)果轉(zhuǎn)換為數(shù)字特征向量
而另外兩個特征分別是氫鍵和范德華力竞端,對于RNA來說,作者選取了41種RNA-蛋白質(zhì)復(fù)合物的嘌呤和嘧啶的信息庙睡,用于編碼用于氫鍵和范德華相互作用的RNA數(shù)字特征向量
而對于蛋白質(zhì)則是依據(jù)其序列特征按照Grantham’s propensities 和 Zimmerman’s propensities 標(biāo)準(zhǔn)編碼為數(shù)字特征向量
總的特征選取圖如下:
那么經(jīng)過RNA和蛋白質(zhì)轉(zhuǎn)換為數(shù)字特征向量后事富,由于量綱的問題,需要做轉(zhuǎn)換乘陪,作者采用傅里葉級數(shù)做變換:
其中:
- L表示特征向量的長度(元素個數(shù))
- n表示特征向量里面的元素個數(shù)
- k表示當(dāng)前僅使用傅里葉級數(shù)的前十項(xiàng)作為新的數(shù)字特征向量(傅里葉級數(shù)展開10項(xiàng))
- Xn表示的是變換前的數(shù)字特征向量
- X'k表示轉(zhuǎn)換后的數(shù)字特征向量统台,里面一共有10個元素
假設(shè)蛋白質(zhì)的那三個特征對應(yīng)的數(shù)字特征向量記為p1,p2啡邑,p3贱勃,RNA的那三個特征對應(yīng)的數(shù)字特征向量記為r1,r2谤逼,r3贵扰,我們利用矩陣乘法來計算對應(yīng)的得分:
而M矩陣是通過已知的lncRNA和蛋白質(zhì)的復(fù)合物訓(xùn)練出來的
所計算的
即為最后lncRNA與蛋白質(zhì)互作的得分
2. lncPro使用
正常我們打開其網(wǎng)站:http://bioinfo.bjmu.edu.cn/lncpro/,按照提示來即可