最近一直在做基因組區(qū)間上的突變分析歪脏,在研究CDS/UTR長度時(shí)發(fā)現(xiàn)了一些有意思但也頗為困惑的事情。
以CDS
為例粮呢,我先是用Ensembl v75
的gtf
注釋文件抓取CDS
信息婿失,然后觀察它們的區(qū)間長度:
> summary(CDS$end - CDS$start)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.0 79.0 116.0 152.3 164.0 21692.0
可以看到差值最小的是0,也就是start
位點(diǎn)和stop
位點(diǎn)是同一個(gè)位置鬼贱,也就是有的CDS
才1bp長移怯。
看看有多少個(gè):
> nrow(CDS[CDS$end - CDS$start == 0, ])
[1] 355
剛發(fā)現(xiàn)這個(gè)問題的時(shí)候還怎么注意,以為是0bp長(咳咳--)这难,怎么編碼蛋白舟误??在https://www.biostars.org/p/261324/#261348 還提了問題姻乓,才知道有microexon這個(gè)東東嵌溢。百度一個(gè)介紹http://www.life.umd.edu/labs/mount/RNAinfo/microexons.html,microexon就是那種特別短的外顯子蹋岩。那么到底它有啥用赖草,參加蛋白編碼嗎?who can tell me剪个?
我看一些文獻(xiàn)用GENCODE
數(shù)據(jù)庫的注釋文件秧骑,所以也下載下來看看它CDS區(qū)域的情況,發(fā)現(xiàn)類似:
zcat gencode.v19.annotation.gtf.gz | awk '{OFS="\t";}{if ($3=="CDS") {print $1,$2,$3,$4,$5}}' | gzip > hg19_CDS_from_gencode.gz
wsx@wsx-ubuntu:~/下載$ zcat hg19_CDS_from_gencode.gz | awk '{OFS="\t";}{if(($5 - $4)==0)print $0}'
chr1 HAVANA CDS 1636464 1636464
chr1 HAVANA CDS 1636464 1636464
chr1 HAVANA CDS 6522723 6522723
chr1 HAVANA CDS 6522723 6522723
chr1 HAVANA CDS 6523132 6523132
(只截取了一部分)
UTR區(qū)間的長度結(jié)果類似扣囊『跽郏看來我還是太年輕啊~