GFF3格式
發(fā)表于<time class="entry-date" datetime="2013-05-22T22:22:12+00:00">2013 年 5 月 22 日</time>
</header>
GFF3的官方介紹:Generic Feature Format Version 3 (GFF3)
1. GFF3文件格式描述
GFF3格式文件為文本文件,分為9列线得,以TAB分開∧伎瘢控制符使用 RFC 3986 Percent-Encoding 編碼办素。比如:%20 代表著ASCII的空格性穿。
9列文件依次是:
1. seqid:參考序列的id雷滚。該id的取名不能以’>’開頭,不能包含空格祈远。
2. source :注釋的來源。如果未知桑嘶,則用點(.)代替。一般指明產(chǎn)生此gff3文件的軟件或方法逃顶。
3. type :屬性的類型充甚。建議使用符合SO慣例的名稱(sequence ontology,參看[[Sequence Ontology Project]]) ,如gene伴找,repeat_region,exon抖誉,CDS等衰倦。
4. start position :屬性對應(yīng)片段的起點。從1開始計數(shù)樊零。
5. end position :屬性對應(yīng)片段的終點。一般比起點的數(shù)值要大夺艰。
6. score :得分,對于一些可以量化的屬性郁副,可以在此設(shè)置一個數(shù)值以表示程度的不同厢蒜。如果為空烹植,用點(.)代替愕贡。
7. strand :“+”表示正鏈,“-”表示負鏈墩虹,“.”表示不需要指定正負鏈。
8. phase :步進诫钓。對于編碼蛋白質(zhì)的CDS來說篙螟,本列指定下一個密碼子開始的位置”槁裕可以是0,1或2下愈,表示到達下一個密碼子需要跳過的堿基個數(shù)。
對于其它屬性势似,則用點(.)代替僧著。
9. attributes :屬性
一個包含眾多屬性的列表。格式為“標(biāo)簽=值”(tag=value)搓逾。不同屬性之間以分號相隔。可以存在空格世蔗,不過若有“,=;”則用URL轉(zhuǎn)義(URL escaping rule),同時TAB也需要轉(zhuǎn)換為“%09”表示污淋。所有以大寫字幕開頭的標(biāo)簽被保留,用于大眾認可的用途礁鲁,而以小寫字母開頭的標(biāo)簽則根據(jù)自己安排隨意應(yīng)用。
常用的標(biāo)簽有:
ID
Feature的標(biāo)識仅醇。該ID具有唯一性。
Name
Feature的展示名稱析二。Name的值在可視化的時候得到展示。因此属韧,Name可以根據(jù)自己展示的需要隨意取值。
Alias
Feature的第2個Name宵喂。
Parent
指明feature所從屬的上一級ID会傲。用于將exons聚集成transcript,將transripts聚集成gene唆铐。
Target
指明比對的目標(biāo)區(qū)域,一般用于表明序列的比對結(jié)果顺少。格式為”target_id start end [strand]”,其中strand是可選的(“+”或”-“), target_id中如果包含空格王浴,則要轉(zhuǎn)換成’%20’。
Gap
比對結(jié)果的gap信息氓辣,和Target一起,用于表明序列的比對結(jié)果几蜻。
Note
文本描述
Is_circular
表明featrue是否為環(huán)化的。用于環(huán)狀基因組序列梭稚。
同一個tag如果有多個值絮吵,則多個值之間使用逗號隔開,比如:
Parent=AF2312,AB2812,abc-3
Alias=M19211,gna-12,GAMMA-GLOBULIN
能夠使用多個值的tag有:Parent, Alias, Note, Dbxref and Ontology_term暇昂。
2. GFF3文件檢測
檢驗GFF3格式文件: GFF3 Validator