真核生物mRNA的5’ 帽子結(jié)構(gòu)可以介導(dǎo)核糖體的結(jié)合踏施,從而開(kāi)啟翻譯過(guò)程叮叹,circRNA由于是一個(gè)閉合的環(huán)狀結(jié)構(gòu),缺失了5’端帽子結(jié)構(gòu)娃属,所以歸類為非編碼RNA的一種六荒。
隨著環(huán)狀RNA研究的深入护姆,有科學(xué)家發(fā)現(xiàn)部分環(huán)狀RNA可以編碼蛋白。除了常見(jiàn)的5’帽子結(jié)構(gòu)介導(dǎo)核糖體結(jié)合外掏击,還存在了一種特殊情況卵皂,在一些基因上存在一段長(zhǎng)度在150-250bp的序列,這些序列能夠折疊成類似tRNA的結(jié)構(gòu)砚亭,介導(dǎo)核糖體與RNA結(jié)合灯变,起始蛋白質(zhì)的翻譯。這樣的位點(diǎn)稱之為內(nèi)部核糖體進(jìn)入位點(diǎn)序列,Internal ribosome entry site, 簡(jiǎn)稱IRES捅膘。
能夠編碼蛋白的環(huán)狀RNA上就是通過(guò)IRES來(lái)實(shí)現(xiàn)翻譯過(guò)程的添祸,為例研究環(huán)狀RNA的蛋白編碼潛能,有學(xué)者開(kāi)發(fā)了識(shí)別IRES的軟件寻仗,IRESfinder就是這樣一款軟件刃泌,用于識(shí)別真核生物的IRES位點(diǎn),網(wǎng)址如下
https://github.com/xiaofengsong/IRESfinder
利用實(shí)驗(yàn)驗(yàn)證過(guò)的583個(gè)人類的IRES序列署尤,挑選了19個(gè)kmer用于區(qū)分IRES和非IRES的序列耙替,在論文中,給出了測(cè)試數(shù)據(jù)集中二種序列的kmer分布
[圖片上傳失敗...(image-d5b8e1-1587005039277)]
在上圖中曹体,只包含了18個(gè)kmer,另外還有一個(gè)kmer是T林艘,可以看到在IRES和非IRES序列之間,這些kmer的頻率分布是有差異的混坞。
軟件采用Python進(jìn)行開(kāi)發(fā)狐援,基本用法如下
python IRESfinder.py -f circRNA.fa -o IRES.out.xls
-f參數(shù)指定輸入的fasta格式的序列,-o參數(shù)指定輸出的結(jié)果文件究孕。輸出文件的內(nèi)容示意如下
ID Index Score
hsa_circ_0018046 IRES 0.817344005
hsa_circ_0039868 IRES 0.795083668
hsa_circ_0089160 IRES 0.53322605
hsa_circ_0048972 IRES 0.784080068
hsa_circ_0018658 IRES 0.745230164
hsa_circ_0067857 IRES 0.704497116
hsa_circ_0019137 IRES 0.742607966
hsa_circ_0063162 IRES 0.738372532
hsa_circ_0087609 IRES 0.793042932
hsa_circ_0006254 IRES 0.64587644
通過(guò)這個(gè)軟件啥酱,可以快速分析得到RNA上的IRES序列信息,不過(guò)軟件的結(jié)果中假陽(yáng)性肯定是很高的厨诸,后續(xù)還要通過(guò)實(shí)驗(yàn)手段來(lái)驗(yàn)證镶殷。