基因組注釋文件格式 -- (二)GTF文件格式

轉(zhuǎn)載:https://biozx.top/gtf.html

參考

UCSC GTF format
https://blog.csdn.net/sinat_38163598/article/details/72851239

簡介

GFF和GTF是兩種最常用的基因組注釋格式袖肥,在信息分析中建庫時除了需要fasta文件一般還會需要這兩種文件砌庄,提取需要的信息進行注釋掖疮。

GTF是GFF2的擴展存璃。前八個GTF字段與GFF相同,但是GTF還包含可選字段: 5UTR, 3UTR, inter, inter_CNS, and intron_CNS革答。
前八個字段:

  1. seq_id:序列的編號蠢络,一般為chr或者scanfold編號弹砚;
  2. source: 注釋的來源,一般為數(shù)據(jù)庫或者注釋的機構(gòu)向图,如果未知泳秀,則用點“.”代替;
  3. type: 注釋信息的類型榄攀,比如Gene嗜傅、cDNA、mRNA檩赢、CDS等
  4. start:該基因或轉(zhuǎn)錄本在參考序列上的起始位置吕嘀;
  5. end: 該基因或轉(zhuǎn)錄本在參考序列上的終止位置;
  6. score: 得分贞瞒,數(shù)字偶房,是注釋信息可能性的說明,可以是序列相似性比對時的E-values值或者基因預(yù)測是的P-values值憔狞,“.”表示為空蝴悉;
  7. strand: 該基因或轉(zhuǎn)錄本位于參考序列的正鏈(+)或負鏈(-)上;
  8. phase: 僅對注釋類型為“CDS”有效,表示起始編碼的位置瘾敢,有效值為0拍冠、1、2(對于編碼蛋白質(zhì)的CDS來說簇抵,本列指定下一個密碼子開始的位置庆杜。每3個核苷酸翻譯一個氨基酸,從0開始碟摆,CDS的起始位置晃财,除以3,余數(shù)就是這個值典蜕,断盛,表示到達下一個密碼子需要跳過的堿基個數(shù)。該編碼區(qū)第一個密碼子的位置愉舔,取值0,1,2钢猛。0表示該編碼框的第一個密碼子第一個堿基位于其5'末端;1表示該編碼框的第一個密碼子的第一個堿基位于該編碼區(qū)外轩缤;2表示該編碼框的第一個密碼子的第一命迈、二個堿基位于該編碼區(qū)外贩绕;如果Feature為CDS時,必須指明具體值壶愤。)

例子:

browser position chr22:10000000-10025000
browser hide all
track name=regulatory   description="TeleGene(tm) Regulatory Regions" visibility=2
chr22   TeleGene    enhancer    10000000    10001000    500 +   .   touch1
chr22   TeleGene    promoter    10010000    10010100    900 +   .   touch1
chr22   TeleGene    promoter    10020000    10025000    800 -   .   touch2

用Genome Browser查看該例子

什么時候用到GTF文件

Cufflinks/Tophat 軟件需要 GTF文件作為基因注釋文件淑倾。

與GFF比較

GFF全稱為general feature format,這種格式主要是用來注釋基因組征椒。
GTF全稱為gene transfer format娇哆,主要是用來對基因進行注釋。
目前兩種文件可以方便的相互轉(zhuǎn)化陕靠,比如:使用Cufflinks軟件的 的gffread迂尝。

GTF文件下載

gencode最為權(quán)威,Ensemble剪芥、NCBI 垄开、UCSC也有提供下載。
genecode的FTPftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/
gencode官網(wǎng)的統(tǒng)計信息

#下載release_24所有的gtf文件
wget -c -r -np -nd -k -L -A “*gtf.gz” ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_24/
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末税肪,一起剝皮案震驚了整個濱河市溉躲,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌益兄,老刑警劉巖锻梳,帶你破解...
    沈念sama閱讀 206,839評論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異净捅,居然都是意外死亡疑枯,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,543評論 2 382
  • 文/潘曉璐 我一進店門蛔六,熙熙樓的掌柜王于貴愁眉苦臉地迎上來荆永,“玉大人,你說我怎么就攤上這事国章【咴浚” “怎么了?”我有些...
    開封第一講書人閱讀 153,116評論 0 344
  • 文/不壞的土叔 我叫張陵液兽,是天一觀的道長骂删。 經(jīng)常有香客問我,道長四啰,這世上最難降的妖魔是什么宁玫? 我笑而不...
    開封第一講書人閱讀 55,371評論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮柑晒,結(jié)果婚禮上撬统,老公的妹妹穿的比我還像新娘。我一直安慰自己敦迄,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 64,384評論 5 374
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著罚屋,像睡著了一般苦囱。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上脾猛,一...
    開封第一講書人閱讀 49,111評論 1 285
  • 那天撕彤,我揣著相機與錄音,去河邊找鬼猛拴。 笑死羹铅,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的愉昆。 我是一名探鬼主播职员,決...
    沈念sama閱讀 38,416評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼跛溉!你這毒婦竟也來了焊切?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,053評論 0 259
  • 序言:老撾萬榮一對情侶失蹤芳室,失蹤者是張志新(化名)和其女友劉穎专肪,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體堪侯,經(jīng)...
    沈念sama閱讀 43,558評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡嚎尤,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,007評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了伍宦。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片芽死。...
    茶點故事閱讀 38,117評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖雹拄,靈堂內(nèi)的尸體忽然破棺而出收奔,到底是詐尸還是另有隱情,我是刑警寧澤滓玖,帶...
    沈念sama閱讀 33,756評論 4 324
  • 正文 年R本政府宣布坪哄,位于F島的核電站,受9級特大地震影響势篡,放射性物質(zhì)發(fā)生泄漏翩肌。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,324評論 3 307
  • 文/蒙蒙 一禁悠、第九天 我趴在偏房一處隱蔽的房頂上張望念祭。 院中可真熱鬧,春花似錦碍侦、人聲如沸粱坤。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,315評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽站玄。三九已至枚驻,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間株旷,已是汗流浹背再登。 一陣腳步聲響...
    開封第一講書人閱讀 31,539評論 1 262
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留晾剖,地道東北人锉矢。 一個月前我還...
    沈念sama閱讀 45,578評論 2 355
  • 正文 我出身青樓,卻偏偏與公主長得像齿尽,于是被迫代替她去往敵國和親沽损。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 42,877評論 2 345

推薦閱讀更多精彩內(nèi)容