轉(zhuǎn)載:https://biozx.top/gtf.html
參考
UCSC GTF format
https://blog.csdn.net/sinat_38163598/article/details/72851239
簡介
GFF和GTF是兩種最常用
的基因組注釋格式袖肥,在信息分析中建庫時除了需要fasta文件一般還會需要這兩種文件砌庄,提取需要的信息進行注釋掖疮。
GTF是GFF2的擴展存璃。前八個GTF字段與GFF相同,但是GTF還包含可選字段
: 5UTR, 3UTR, inter, inter_CNS, and intron_CNS革答。
前八個字段:
-
seq_id
:序列的編號蠢络,一般為chr或者scanfold編號弹砚; -
source
: 注釋的來源,一般為數(shù)據(jù)庫或者注釋的機構(gòu)向图,如果未知泳秀,則用點“.”代替; -
type
: 注釋信息的類型榄攀,比如Gene嗜傅、cDNA、mRNA檩赢、CDS等 -
start
:該基因或轉(zhuǎn)錄本在參考序列上的起始位置吕嘀; -
end
: 該基因或轉(zhuǎn)錄本在參考序列上的終止位置; -
score
: 得分贞瞒,數(shù)字偶房,是注釋信息可能性的說明,可以是序列相似性比對時的E-values值或者基因預(yù)測是的P-values值憔狞,“.”表示為空蝴悉; -
strand
: 該基因或轉(zhuǎn)錄本位于參考序列的正鏈(+)或負鏈(-)上; -
phase
: 僅對注釋類型為“CDS”有效,表示起始編碼的位置瘾敢,有效值為0拍冠、1、2(對于編碼蛋白質(zhì)的CDS來說簇抵,本列指定下一個密碼子開始的位置庆杜。每3個核苷酸翻譯一個氨基酸,從0開始碟摆,CDS的起始位置晃财,除以3,余數(shù)就是這個值典蜕,断盛,表示到達下一個密碼子需要跳過的堿基個數(shù)。該編碼區(qū)第一個密碼子的位置愉舔,取值0,1,2钢猛。0表示該編碼框的第一個密碼子第一個堿基位于其5'末端;1表示該編碼框的第一個密碼子的第一個堿基位于該編碼區(qū)外轩缤;2表示該編碼框的第一個密碼子的第一命迈、二個堿基位于該編碼區(qū)外贩绕;如果Feature為CDS時,必須指明具體值壶愤。)
例子:
browser position chr22:10000000-10025000
browser hide all
track name=regulatory description="TeleGene(tm) Regulatory Regions" visibility=2
chr22 TeleGene enhancer 10000000 10001000 500 + . touch1
chr22 TeleGene promoter 10010000 10010100 900 + . touch1
chr22 TeleGene promoter 10020000 10025000 800 - . touch2
什么時候用到GTF文件
Cufflinks/Tophat 軟件
需要 GTF文件作為基因注釋文件淑倾。
與GFF比較
GFF
全稱為general feature format,這種格式主要是用來注釋基因組
征椒。
GTF
全稱為gene transfer format娇哆,主要是用來對基因
進行注釋。
目前兩種文件可以方便的相互轉(zhuǎn)化
陕靠,比如:使用Cufflinks軟件的 的gffread
迂尝。
GTF文件下載
以gencode
最為權(quán)威,Ensemble剪芥、NCBI 垄开、UCSC也有提供下載。
genecode的FTP:ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/
gencode官網(wǎng)的統(tǒng)計信息
#下載release_24所有的gtf文件
wget -c -r -np -nd -k -L -A “*gtf.gz” ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_24/