GTF與GFF

一礼搁、格式介紹

(一)gtf 文件。GTF 為General Transfer Format縮寫目尖,跟 GFF2格式類似馒吴。相信大家做轉(zhuǎn)錄組分析時候經(jīng)常會看到Cufflinks或者Stringtie軟件對轉(zhuǎn)錄組進行定量與組裝會時產(chǎn)生一個gtf文件,里面包含的信息如下:

gtf文件示例

每列信息的含義如下:

seqname?- 序列的ID卑雁,可以是染色體的ID也可以是Scaffold或者Contig的ID募书。

source?- 產(chǎn)生此文件的軟件,如Stringtie產(chǎn)生的則為Stringtie测蹲,CUfflinks產(chǎn)生的則為Cufflinks莹捡,不知道的使用點 “.” 表示。

feature?- 后面start和end之間區(qū)域代表的特征扣甲,如果此區(qū)域是基因篮赢,則此處為gene,如果是外顯子琉挖,則為exon启泣,如果是轉(zhuǎn)錄本,則為transcript示辈,如果是非編碼RNA則為lncRNA寥茫,如果是重復(fù)序列,則為TE矾麻,等等纱耻,主要表明這一塊區(qū)域的特征。

start?-上述feature的在序列上的起始位置险耀。

end?- 上述feature的在序列上的終止位置弄喘。

score?- 一個浮點數(shù)值,也可以為點 “.” 甩牺。有值的時候代表上述feature的可靠

性蘑志。因為無論是gene還是mRNA,都是基于預(yù)測差生的,因而必然會有一個值來衡量預(yù)測準確性急但。

strand?- + (forward)或者 - (reverse)澎媒,代表上述feature是位于正鏈還是負鏈上。

frame?- 內(nèi)含子相位羊始,只能為'0', '1' or '2'旱幼,或者為點 “.”。 '0' 代表feature起始堿基為三聯(lián)體密碼子的第一個堿基, '1' 代表三聯(lián)體密碼子的第2個堿基, 2代表第3個堿基突委。

attribute?-備注列柏卤。主要備注該feature的一些信息,常見的是gene或者transcript等的ID信息以及FPKM值等匀油,多個備注信息之間通常用分號分隔缘缚。

(二)gff 格式。為general feature format縮寫敌蚜,目前采用的是version 3桥滨,即我們常說的gff3文件。該文件常用來對基因組進行注釋弛车,表示基因齐媒,外顯子,CDS纷跛,UTR等在基因組上的位置喻括。眾多基因預(yù)測軟件如Glean,EVM贫奠,AUGUSTUS等會產(chǎn)生此格式文件唬血。

gff文件示例

與gtf文件不同之處只是在第9列。此列格式為“標簽=值”(tag=value)唤崭,標簽與值之間用“=”拷恨,不同的標簽之間用“;”隔開谢肾,一個標簽可以有多個值腕侄,不同值用“,”分割。

二芦疏、gtf與gff轉(zhuǎn)換以及對GFF文件進行過濾冕杠。

常采用的軟件是gffread,為Cufflinks自帶的一個程序眯分,他不僅可以實現(xiàn)GTF與GFF的互相轉(zhuǎn)換拌汇,而且還可以對GFF文件進行過濾處理柒桑。以下是gffread的幫助信息:

Usage:

gffread <input_gff> [-g <genomic_seqs_fasta> | <dir>][-s <seq_info.fsize>]?

?[-o <outfile.gff>] [-t <tname>] [-r [[<strand>]<chr>:]<start>..<end> [-R]]

?[-CTVNJMKQAFGUBHZWTOLE] [-w <exons.fa>] [-x <cds.fa>] [-y <tr_cds.fa>]

?[-i <maxintron>]?

<input_gffmatch>為一個GFF/GTF文件弊决,必填的一個文件

常用參數(shù)介紹:

?-g ?序列文件,即GFF/GTF文件第一列ID對應(yīng)的序列文件。

?-i ?丟棄掉內(nèi)含子大于的轉(zhuǎn)錄本(mRNA/transcript)

?-r ?起始和終止位置飘诗,填寫示例100.10000即為輸出與100到10000有重疊的所有轉(zhuǎn)錄組与倡,也可以限制序列ID及鏈,填寫示例:+Chr1:100..10000昆稿。

?-R ?丟棄掉此范圍的轉(zhuǎn)錄本纺座,與-r相反。

?-U ?丟棄掉 single-exon的轉(zhuǎn)錄本

?-C ?丟低調(diào)無CDS的轉(zhuǎn)錄本溉潭。

?-V ?丟棄掉含有移碼突變的轉(zhuǎn)錄本净响。

?-H ?如果使用了-V,則重新檢查并調(diào)整內(nèi)含子相位喳瓣,避免由于翻譯起始位點選擇的位置不對導(dǎo)致移碼突變的產(chǎn)生馋贤。

?-B 如果使用了-V, 對于單外顯子基因畏陕,則重新檢查相反的鏈配乓,是否存在移碼突變。

?-N ?丟棄掉多外顯子基因剪接位點不是常見的 GT-AG, GC-AG or AT-AC序列惠毁。

?-J ?丟棄掉沒有起始密碼子或者終止密碼子的轉(zhuǎn)錄本犹芹,僅保留有完整編碼框的轉(zhuǎn)錄本。

?--no-pseudo:過濾掉含有 'pseudo' 的注釋信息

?-M/--merge : 合并完全相同的或者存在包含關(guān)系的轉(zhuǎn)錄本鞠绰。

-d:使用 -M 腰埂,將合并信息輸出到文件中

?--cluster-only: 類似于 --merge 但是不合并轉(zhuǎn)錄本

-K ?對于-M 選項:also collapse shorter, fully contained transcripts

? ? ? with fewer introns than the container

-Q?對于-M 選項:移除包含關(guān)系的轉(zhuǎn)錄本的限制條件:多外顯子轉(zhuǎn)錄本將會合并,如果他們內(nèi)含子位置完全一樣洞豁,單外顯子轉(zhuǎn)錄本只需要有80%一樣即可合并盐固。

?--force-exons: ?使GFF features的最小層級為exon

?-E 對于重復(fù)的 ID或者?GFF/GTF 其他潛在的格式問題給出警告信息。

-Z ?將內(nèi)含子小于4 bp的鄰近的兩個外顯子合并為一個丈挟。

?-w ?輸出每個轉(zhuǎn)錄本的外顯子序列

?-x ?輸出CDS序列

?-W ?對于 -w 和 -x 選項刁卜,輸出外顯子位置坐標到FASTA序列的ID中

?-y ?輸出蛋白質(zhì)序列

?-L ?將Ensembl GTF 轉(zhuǎn)換為 GFF3 conversion (implies -F; should be used with -m)

?-o ? 輸出"filtered" 后的GFF文件 。

-T ?-o 參數(shù)將輸出 GTF格式曙咽。

示例命令:

1.GFF轉(zhuǎn)換GTF

gffread input.gff3 -T -o out.gtf‘

2.GTF轉(zhuǎn)換GFF3

gffread input.gtf -o out.gff3

3.根據(jù)GFF或者GTF提取蛋白質(zhì)蛔趴,CDS和外顯子序列

gffread gene.gff3 -g genome.fa -x cds.fa -y pep.fa -w cdna.fa

三、GFF文件比較

主要采用gffcompare(https://github.com/gpertea/gffcompare)例朱,其主要具有三個功能:1)評估Cufflinks/Stringtie等轉(zhuǎn)錄本組裝軟件的準確性孝情;2)合并多個GFF/GTF中重疊的部分(多個樣本組裝結(jié)果的合并)3)可以對一個或多個GTF/GFF文件的注釋相對于參考的GTF/GFF文件進行分類(with "class codes" assigned to transcripts as per their relationship with the matching/overlapping reference transcript),如Pacbio預(yù)測的GTF與參考GFF比較洒嗤,修正和評估參考的注釋結(jié)果箫荡。

Usage:

gffcompare [-r <reference_mrna.gtf> [-R]] [-G] [-T] [-V] [-s <seq_path>]

? ? [-o <outprefix>] [-p <cprefix>]?

? ? {-i <input_gtf_list> | <input1.gtf> [<input2.gtf> .. <inputN.gtf>]}

常用參數(shù)介紹:

-i ?多個GTF 文件時,使用此選項較方便渔隶,將多個GTF文件寫在一個文件中羔挡,通過此選項傳入即可洁奈。

-r 參考的 GTF/GFF文件

-R ?針對的是-r參數(shù),僅考慮參考與任何輸入的注釋文件有重疊的 绞灼。

-Q 針對的是-r參數(shù)利术,僅考慮輸入的注釋文件與任何參考有重疊的 。 ? ?(警告低矮,這將丟棄所有的新的注釋位點)

-M 丟棄(忽略)掉輸入的注釋文件和參考注釋文件中單外顯子轉(zhuǎn)錄本

-N 丟棄(忽略)掉參考注釋文件中單外顯子轉(zhuǎn)錄本

-s 基因組序列文件

-e 當評估外顯子準確性時印叁,離參考末端外顯子最遠的距離(默認100)

-d 轉(zhuǎn)錄本聚類時起始位點相差的最大距離 (默認100)

-C ?在.combined.gtf文件中包含 "contained" 類型的轉(zhuǎn)錄本

-F 如果僅是3’端不同,則不丟棄輸入的GTF文件中被參考包含的冗余的轉(zhuǎn)錄本注釋信息军掂。

-G 不丟棄輸入的GTF文件中被參考包含的冗余的轉(zhuǎn)錄本注釋信息轮蜕,主要是鑒于可變剪接。

-T 對于每一個輸入文件不產(chǎn)生 .tmap 和 .refmap文件

-V 給出 GFF 解析時的警告信息

參考命令:

gffcompare ?-r refChr.gff3 ?-R -G -o combine input.gtf

輸出結(jié)果中有以下幾個文件:

combine.combined.gtf

combine.loci

combine.stats

combine.tracking

其中在combine.combined.gtf中有一個class_code 代表輸入的注釋文件與參考注釋文件相似性信息蝗锥,具體如下:

#Transfrag class codes

PriorityCodeDescription

1=Complete match of intron chain

2cContained

3jPotentially novel isoform (fragment): at least one splice junction is shared with a reference transcript

4eSingle exon transfrag overlapping a reference exon and at least 10 bp of a reference intron, indicating a possible pre-mRNA fragment.

5iA transfrag falling entirely within a reference intron

6oGeneric exonic overlap with a reference transcript

7pPossible polymerase run-on fragment (within 2Kbases of a reference transcript)

8rRepeat. Currently determined by looking at the soft-masked reference sequence and applied to transcripts where at least 50% of the bases are lower case

9uUnknown, intergenic transcript

10xExonic overlap with reference on the opposite strand

11sAn intron of the transfrag overlaps a reference intron on the opposite strand (likely due to read mapping errors)

12.(.tracking file only, indicates multiple classifications)

由于輸出文件幾乎跟cuffcompare格式幾乎是一樣的肠虽,

更詳細輸出介紹參見http://cole-trapnell-lab.github.io/cufflinks/cuffcompare/。


轉(zhuǎn)自:http://www.huoyunjn.com/wuliuxinwen/2/33709819.htm

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末玛追,一起剝皮案震驚了整個濱河市税课,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌痊剖,老刑警劉巖韩玩,帶你破解...
    沈念sama閱讀 219,427評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異陆馁,居然都是意外死亡找颓,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,551評論 3 395
  • 文/潘曉璐 我一進店門叮贩,熙熙樓的掌柜王于貴愁眉苦臉地迎上來击狮,“玉大人,你說我怎么就攤上這事益老”肱睿” “怎么了?”我有些...
    開封第一講書人閱讀 165,747評論 0 356
  • 文/不壞的土叔 我叫張陵捺萌,是天一觀的道長档冬。 經(jīng)常有香客問我,道長桃纯,這世上最難降的妖魔是什么酷誓? 我笑而不...
    開封第一講書人閱讀 58,939評論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮态坦,結(jié)果婚禮上盐数,老公的妹妹穿的比我還像新娘。我一直安慰自己伞梯,他們只是感情好玫氢,可當我...
    茶點故事閱讀 67,955評論 6 392
  • 文/花漫 我一把揭開白布着茸。 她就那樣靜靜地躺著,像睡著了一般琐旁。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上猜绣,一...
    開封第一講書人閱讀 51,737評論 1 305
  • 那天灰殴,我揣著相機與錄音,去河邊找鬼掰邢。 笑死牺陶,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的辣之。 我是一名探鬼主播掰伸,決...
    沈念sama閱讀 40,448評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼怀估!你這毒婦竟也來了狮鸭?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,352評論 0 276
  • 序言:老撾萬榮一對情侶失蹤多搀,失蹤者是張志新(化名)和其女友劉穎歧蕉,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體康铭,經(jīng)...
    沈念sama閱讀 45,834評論 1 317
  • 正文 獨居荒郊野嶺守林人離奇死亡惯退,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,992評論 3 338
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了从藤。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片催跪。...
    茶點故事閱讀 40,133評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖夷野,靈堂內(nèi)的尸體忽然破棺而出懊蒸,到底是詐尸還是另有隱情,我是刑警寧澤悯搔,帶...
    沈念sama閱讀 35,815評論 5 346
  • 正文 年R本政府宣布榛鼎,位于F島的核電站,受9級特大地震影響鳖孤,放射性物質(zhì)發(fā)生泄漏者娱。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,477評論 3 331
  • 文/蒙蒙 一苏揣、第九天 我趴在偏房一處隱蔽的房頂上張望黄鳍。 院中可真熱鬧,春花似錦平匈、人聲如沸框沟。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,022評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽忍燥。三九已至拧晕,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間梅垄,已是汗流浹背厂捞。 一陣腳步聲響...
    開封第一講書人閱讀 33,147評論 1 272
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留队丝,地道東北人靡馁。 一個月前我還...
    沈念sama閱讀 48,398評論 3 373
  • 正文 我出身青樓,卻偏偏與公主長得像机久,于是被迫代替她去往敵國和親臭墨。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 45,077評論 2 355

推薦閱讀更多精彩內(nèi)容