基因組注釋文件(二)| gff 和 gtf文件格式說明

簡介

GFF和GTF是兩種最常用的基因組注釋格式狼渊,在信息分析中建庫時(shí)除了需要fasta文件一般還會需要這兩種文件,提取需要的信息進(jìn)行注釋伍宦。

一丙号、GFF

GFF(General Feature Format)是一種用來描述基因組特征的文件,現(xiàn)在我們所使用的大部分都是第三版(gff3)颂跨。

gff文件除gff1以外均由9列數(shù)據(jù)組成敢伸,前8列在gff的3個(gè)版本中信息都是相同的,只是名稱不同:

gtf文件是以tab鍵分割的9列組成恒削,以下為每一列的對應(yīng)信息:

  1. seqid :參考序列的id池颈。
  2. source:注釋的來源。如果未知钓丰,則用點(diǎn)(.)代替躯砰。一般指明產(chǎn)生此gff3文件的軟件或方法。
  3. type: 類型携丁,此處的名詞是相對自由的琢歇,建議使用符合SO慣例的名稱(sequenceontology),如gene梦鉴,repeat_region矿微,exon,CDS等尚揣。
  4. start:開始位點(diǎn),從1開始計(jì)數(shù)(區(qū)別于bed文件從0開始計(jì)數(shù))掖举。
  5. end:結(jié)束位點(diǎn)快骗。
  6. score:得分,對于一些可以量化的屬性塔次,可以在此設(shè)置一個(gè)數(shù)值以表示程度的不同方篮。如果為空,用點(diǎn)(.)代替励负。
  7. strand:“+”表示正鏈藕溅,“-”表示負(fù)鏈,“.”表示不需要指定正負(fù)鏈继榆。
  8. phase :步進(jìn)巾表。對于編碼蛋白質(zhì)的CDS來說汁掠,本列指定下一個(gè)密碼子開始的位置〖遥可以是0考阱、1或2,表示到達(dá)下一個(gè)密碼子需要跳過的堿基個(gè)數(shù)鞠苟。
  9. attributes:屬性乞榨。一個(gè)包含眾多屬性的列表,格式為“標(biāo)簽=值”(tag=value)当娱,不同屬性之間以分號相隔吃既。
    下列的標(biāo)簽已定義:
  • ID:指定一個(gè)唯一的標(biāo)識。對屬性分類是非常好用(例如查找一個(gè)轉(zhuǎn)錄單位中所以的外顯子)跨细。
  • Name:指定屬性的名稱鹦倚。展示給用戶的就是該屬性。
  • Alias:名稱的代稱或其它扼鞋。當(dāng)存在其它名稱時(shí)使用該屬性申鱼。
  • Note:描述性的一些說明。
    Alias和Note可以有多個(gè)值云头,不同值之間以逗號分隔捐友。
    如:Alias=M19211,gna-12,GAMMA-GLOBULIN

在GFF文件的開頭,可以有#開頭的注釋行,示例如下

##gff-version 3
#!gff-spec-version 1.21
#!processor NCBI annotwriter
#!genome-build GRCh38.p12
#!genome-build-accession NCBI_Assembly:GCF_000001405.38
#!annotation-date 26 March 2018
#!annotation-source NCBI Homo sapiens Annotation Release 109
##sequence-region NC_000001.11 1 248956422
##species https://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?id=9606

對于不同的基因組特征溃槐,其屬性不同匣砖。

  1. 染色體
    染色體用region表示,1號染色體對應(yīng)的信息如下
NC_000001.11    RefSeq    region    1    248956422    .    +    .    ID=id0;Dbxref=taxon:9606;Name=1;chromosome=1;gbkey=Src;genome=chromosome;mol_type=genomic DNA

染色體是基礎(chǔ)昏滴,后續(xù)的基因猴鲫,exon等都是需要定位在染色體上的。

  1. 非編碼基因
    對于非編碼基因谣殊,首先給出基因的起始和終止位置拂共,然后描述轉(zhuǎn)錄本的信息。對于轉(zhuǎn)錄本而言, 通過exon展示其結(jié)構(gòu)姻几。

假基因示例如下

NC_000001.11    BestRefSeq    pseudogene    11874    14409    .    +    .    ID=gene0;Dbxref=GeneID:100287102,HGNC:HGNC:37102;Name=DDX11L1;description=DEAD/H-box helicase 11 like 1;gbkey=Gene;gene=DDX11L1;gene_biotype=transcribed_pseudogene;pseudo=true
NC_000001.11    BestRefSeq    transcript    11874    14409    .    +    .    ID=rna0;Parent=gene0;Dbxref=GeneID:100287102,Genbank:NR_046018.2,HGNC:HGNC:37102;Name=NR_046018.2;gbkey=misc_RNA;gene=DDX11L1;product=DEAD/H-box helicase 11 like 1;transcript_id=NR_046018.2
NC_000001.11    BestRefSeq    exon    11874    12227    .    +    .    ID=id1;Parent=rna0;Dbxref=GeneID:100287102,Genbank:NR_046018.2,HGNC:HGNC:37102;gbkey=misc_RNA;gene=DDX11L1;product=DEAD/H-box helicase 11 like 1;transcript_id=NR_046018.2
NC_000001.11    BestRefSeq    exon    12613    12721    .    +    .    ID=id2;Parent=rna0;Dbxref=GeneID:100287102,Genbank:NR_046018.2,HGNC:HGNC:37102;gbkey=misc_RNA;gene=DDX11L1;product=DEAD/H-box helicase 11 like 1;transcript_id=NR_046018.2
NC_000001.11    BestRefSeq    exon    13221    14409    .    +    .    ID=id3;Parent=rna0;Dbxref=GeneID:100287102,Genbank:NR_046018.2,HGNC:HGNC:37102;gbkey=misc_RNA;gene=DDX11L1;product=DEAD/H-box helicase 11 like 1;transcript_id=NR_046018.2

tRNA基因示例如下

NC_000010.11    tRNAscan-SE    gene    67764503    67764584    .    +    .    ID=gene28271;Dbxref=GeneID:100189279,HGNC:HGNC:34845;Name=TRS-TGA1-1;gbkey=Gene;gene=TRS-TGA1-1;gene_biotype=tRNA
NC_000010.11    tRNAscan-SE    tRNA    67764503    67764584    .    +    .    ID=rna83632;Parent=gene28271;Dbxref=GeneID:100189279,HGNC:HGNC:34845;Note=transfer RNA-Ser (TGA) 1-1;anticodon=(pos:67764536..67764538);gbkey=tRNA;gene=TRS-TGA1-1;inference=COORDINATES: profile:tRNAscan-SE:1.23;product=tRNA-Ser
NC_000010.11    tRNAscan-SE    exon    67764503    67764584    .    +    .    ID=id1011659;Parent=rna83632;Dbxref=GeneID:100189279,HGNC:HGNC:34845;Note=transfer RNA-Ser (TGA) 1-1;anticodon=(pos:67764536..67764538);gbkey=tRNA;gene=TRS-TGA1-1;inference=COORDINATES: profile:tRNAscan-SE:1.23;product=tRNA-Ser

miRNA基因示例如下

NC_000001.11    BestRefSeq    gene    17369    17436    .    -    .    ID=gene2;Dbxref=GeneID:102466751,HGNC:HGNC:50039,miRBase:MI0022705;Name=MIR6859-1;description=microRNA 6859-1;gbkey=Gene;gene=MIR6859-1;gene_biotype=miRNA;gene_synonym=hsa-mir-6859-1
NC_000001.11    BestRefSeq    primary_transcript    17369    17436    .    -    .    ID=rna2;Parent=gene2;Dbxref=GeneID:102466751,Genbank:NR_106918.1,HGNC:HGNC:50039,miRBase:MI0022705;Name=NR_106918.1;gbkey=precursor_RNA;gene=MIR6859-1;product=microRNA 6859-1;transcript_id=NR_106918.1
NC_000001.11    BestRefSeq    exon    17369    17436    .    -    .    ID=id15;Parent=rna2;Dbxref=GeneID:102466751,Genbank:NR_106918.1,HGNC:HGNC:50039,miRBase:MI0022705;gbkey=precursor_RNA;gene=MIR6859-1;product=microRNA 6859-1;transcript_id=NR_106918.1
NC_000001.11    BestRefSeq    miRNA    17369    17391    .    -    .    ID=rna3;Parent=rna2;Dbxref=GeneID:102466751,miRBase:MIMAT0027619,HGNC:HGNC:50039,miRBase:MI0022705;gbkey=ncRNA;gene=MIR6859-1;product=hsa-miR-6859-3p
NC_000001.11    BestRefSeq    exon    17369    17391    .    -    .    ID=id16;Parent=rna3;Dbxref=GeneID:102466751,miRBase:MIMAT0027619,HGNC:HGNC:50039,miRBase:MI0022705;gbkey=ncRNA;gene=MIR6859-1;product=hsa-miR-6859-3p
NC_000001.11    BestRefSeq    miRNA    17409    17431    .    -    .    ID=rna4;Parent=rna2;Dbxref=GeneID:102466751,miRBase:MIMAT0027618,HGNC:HGNC:50039,miRBase:MI0022705;gbkey=ncRNA;gene=MIR6859-1;product=hsa-miR-6859-5p
NC_000001.11    BestRefSeq    exon    17409    17431    .    -    .    ID=id17;Parent=rna4;Dbxref=GeneID:102466751,miRBase:MIMAT0027618,HGNC:HGNC:50039,miRBase:MI0022705;gbkey=ncRNA;gene=MIR6859-1;product=hsa-miR-6859-5p

一個(gè)miRNA基因的最終會形成兩個(gè)成熟的miRNA宜狐。

lncRNA基因示例如下

NC_000001.11    Gnomon    gene    29926    31295    .    +    .    ID=gene3;Dbxref=GeneID:107985730,HGNC:HGNC:52482;Name=MIR1302-2HG;gbkey=Gene;gene=MIR1302-2HG;gene_biotype=lncRNA
NC_000001.11    Gnomon    lnc_RNA    29926    31295    .    +    .    ID=rna5;Parent=gene3;Dbxref=GeneID:107985730,Genbank:XR_001737835.1,HGNC:HGNC:52482;Name=XR_001737835.1;gbkey=ncRNA;gene=MIR1302-2HG;model_evidence=Supporting evidence includes similarity to: 100%25 coverage of the annotated genomic feature by RNAseq alignments%2C including 8 samples with support for all annotated introns;product=MIR1302-2 host gene;transcript_id=XR_001737835.1
NC_000001.11    Gnomon    exon    29926    30039    .    +    .    ID=id18;Parent=rna5;Dbxref=GeneID:107985730,Genbank:XR_001737835.1,HGNC:HGNC:52482;gbkey=ncRNA;gene=MIR1302-2HG;product=MIR1302-2 host gene;transcript_id=XR_001737835.1
NC_000001.11    Gnomon    exon    30564    30667    .    +    .    ID=id19;Parent=rna5;Dbxref=GeneID:107985730,Genbank:XR_001737835.1,HGNC:HGNC:52482;gbkey=ncRNA;gene=MIR1302-2HG;product=MIR1302-2 host gene;transcript_id=XR_001737835.1
  1. 蛋白編碼基因
    對于蛋白編碼基因,在非編碼基因的基礎(chǔ)上蛇捌,多出了CDS的信息抚恒。示例如下
NC_000010.11    BestRefSeq%2CGnomon    gene    35126830    35212958    .    +    .    ID=gene27850;Dbxref=GeneID:1390,HGNC:HGNC:2352,MIM:123812;Name=CREM;description=cAMP responsive element modulator;gbkey=Gene;gene=CREM;gene_biotype=protein_coding;gene_synonym=CREM-2,hCREM-2,ICER
NC_000010.11    BestRefSeq    mRNA    35126841    35179847    .    +    .    ID=rna82191;Parent=gene27850;Dbxref=GeneID:1390,Genbank:NM_001881.3,HGNC:HGNC:2352,MIM:123812;Name=NM_001881.3;gbkey=mRNA;gene=CREM;product=cAMP responsive element modulator%2C transcript variant 2;transcript_id=NM_001881.3
NC_000010.11    BestRefSeq    exon    35126841    35127193    .    +    .    ID=id995818;Parent=rna82191;Dbxref=GeneID:1390,Genbank:NM_001881.3,HGNC:HGNC:2352,MIM:123812;gbkey=mRNA;gene=CREM;product=cAMP responsive element modulator%2C transcript variant 2;transcript_id=NM_001881.3
NC_000010.11    BestRefSeq    exon    35148368    35148491    .    +    .    ID=id995819;Parent=rna82191;Dbxref=GeneID:1390,Genbank:NM_001881.3,HGNC:HGNC:2352,MIM:123812;gbkey=mRNA;gene=CREM;product=cAMP responsive element modulator%2C transcript variant 2;transcript_id=NM_001881.3
NC_000010.11    BestRefSeq    exon    35178889    35178986    .    +    .    ID=id995820;Parent=rna82191;Dbxref=GeneID:1390,Genbank:NM_001881.3,HGNC:HGNC:2352,MIM:123812;gbkey=mRNA;gene=CREM;product=cAMP responsive element modulator%2C transcript variant 2;transcript_id=NM_001881.3
NC_000010.11    BestRefSeq    exon    35179134    35179847    .    +    .    ID=id995821;Parent=rna82191;Dbxref=GeneID:1390,Genbank:NM_001881.3,HGNC:HGNC:2352,MIM:123812;gbkey=mRNA;gene=CREM;product=cAMP responsive element modulator%2C transcript variant 2;transcript_id=NM_001881.3
NC_000010.11    BestRefSeq    CDS    35148372    35148491    .    +    0    ID=cds57086;Parent=rna82191;Dbxref=CCDS:CCDS7184.1,GeneID:1390,Genbank:NP_001872.3,HGNC:HGNC:2352,MIM:123812;Name=NP_001872.3;Note=isoform 2 is encoded by transcript variant 2;gbkey=CDS;gene=CREM;product=cAMP-responsive element modulator isoform 2;protein_id=NP_001872.3
NC_000010.11    BestRefSeq    CDS    35178889    35178986    .    +    0    ID=cds57086;Parent=rna82191;Dbxref=CCDS:CCDS7184.1,GeneID:1390,Genbank:NP_001872.3,HGNC:HGNC:2352,MIM:123812;Name=NP_001872.3;Note=isoform 2 is encoded by transcript variant 2;gbkey=CDS;gene=CREM;product=cAMP-responsive element modulator isoform 2;protein_id=NP_001872.3
NC_000010.11    BestRefSeq    CDS    35179134    35179329    .    +    1    ID=cds57086;Parent=rna82191;Dbxref=CCDS:CCDS7184.1,GeneID:1390,Genbank:NP_001872.3,HGNC:HGNC:2352,MIM:123812;Name=NP_001872.3;Note=isoform 2 is encoded by transcript variant 2;gbkey=CDS;gene=CREM;product=cAMP-responsive element modulator isoform 2;protein_id=NP_001872.3

需要注意是,由于可變剪切的存在络拌,一個(gè)蛋白編碼基因可能會有多個(gè)轉(zhuǎn)錄本俭驮。

查看第9列有哪些注釋信息:

$awk 'BEGIN{FS=OFS="\t"} $3=="gene"{split($9, a, ";"); for(i in a){split(a[i], b, "="); if(++c[b[1]]==1) print b[1]}}'  abc.gff
ID
Accession
annotation
Name
product

二、GTF

gtf全稱為gene transfer format春贸,主要是用來對基因進(jìn)行注釋混萝,當(dāng)前所廣泛使用的gtf格式為第二版(gtf2)遗遵。以下均基于gtf2敘述。

gtf同gff3很相似譬圣,也是9列內(nèi)容瓮恭,其內(nèi)容如下:

  1. seqname: 序列的名字。通常格式染色體ID或是contig ID厘熟。
  2. source:注釋的來源屯蹦。通常是預(yù)測軟件名或是公共數(shù)據(jù)庫。
  3. feature:基因結(jié)構(gòu)绳姨。CDS登澜,start_codon,stop_codon是一定要含有的類型飘庄。
  4. start:開始位點(diǎn)脑蠕,從1開始計(jì)數(shù)。
  5. end:結(jié)束位點(diǎn)跪削。
  6. score :這一列的值表示對該類型存在性和其坐標(biāo)的可信度谴仙,不是必須的,可以用點(diǎn)“.”代替碾盐。
  7. strand:鏈的正向與負(fù)向晃跺,分別用加號+和減號-表示。
  8. frame:密碼子偏移毫玖,可以是0掀虎、1或2。
  9. attributes:必須要有以下兩個(gè)值:
      gene_id value; 表示轉(zhuǎn)錄本在基因組上的基因座的唯一的ID付枫。gene_id與value值用空格分開烹玉,如果值為空,則表示沒有對應(yīng)的基因阐滩。
      transcript_id value; 預(yù)測的轉(zhuǎn)錄本的唯一ID二打。transcript_id與value值用空格分開,空表示沒有轉(zhuǎn)錄本掂榔。

例子:

YL_Chr01    EVM transcript  6582    7082    .   +   .   transcript_id "YL_Chr01G000010.1"; gene_id "YL_Chr01G000010";
YL_Chr01    EVM exon        6582    6648    .   +   .   transcript_id "YL_Chr01G000010.1"; gene_id "YL_Chr01G000010";
YL_Chr01    EVM exon        6829    7082    .   +   .   transcript_id "YL_Chr01G000010.1"; gene_id "YL_Chr01G000010";
YL_Chr01    EVM CDS         6582    6648    .   +   0   transcript_id "YL_Chr01G000010.1"; gene_id "YL_Chr01G000010";
YL_Chr01    EVM CDS         6829    7082    .   +   2   transcript_id "YL_Chr01G000010.1"; gene_id "YL_Chr01G000010";
YL_Chr01    EVM transcript  24963   25235   .   +   .   transcript_id "YL_Chr01G000020.1"; gene_id "YL_Chr01G000020";
YL_Chr01    EVM exon        24963   25235   .   +   .   transcript_id "YL_Chr01G000020.1"; gene_id "YL_Chr01G000020";
YL_Chr01    EVM CDS         24963   25235   .   +   0   transcript_id "YL_Chr01G000020.1"; gene_id "YL_Chr01G000020";
YL_Chr01    EVM transcript  147350  157709  .   -   .   transcript_id "YL_Chr01G000030.1"; gene_id "YL_Chr01G000030";
YL_Chr01    EVM exon        147350  147511  .   -   .   transcript_id "YL_Chr01G000030.1"; gene_id "YL_Chr01G000030";

三址儒、 GTF與GFF比較

GFF全稱為general feature format,這種格式主要是用來注釋基因組衅疙。
GTF全稱為gene transfer format,主要是用來對基因進(jìn)行注釋鸳慈。

GTF 的第九列饱溢,通常為:

gene _ id "At1ge0001"; transcript _ id "At1g0ee01.1";

而 GFF 的第九列,通常為:

ID =mrnae01; Name = abc 
ID =exon1; Parent =mrnae01
ID =exon2; Parent =mrnae01

目前兩種文件可以方便的相互轉(zhuǎn)化:使用gffread

gffread  YL.gff -T -o li.gtf

參考

UCSC GTF format
https://blog.csdn.net/sinat_38163598/article/details/72851239

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末走芋,一起剝皮案震驚了整個(gè)濱河市绩郎,隨后出現(xiàn)的幾起案子潘鲫,更是在濱河造成了極大的恐慌,老刑警劉巖肋杖,帶你破解...
    沈念sama閱讀 206,723評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件溉仑,死亡現(xiàn)場離奇詭異,居然都是意外死亡状植,警方通過查閱死者的電腦和手機(jī)浊竟,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,485評論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來津畸,“玉大人振定,你說我怎么就攤上這事∪馔兀” “怎么了后频?”我有些...
    開封第一講書人閱讀 152,998評論 0 344
  • 文/不壞的土叔 我叫張陵,是天一觀的道長暖途。 經(jīng)常有香客問我卑惜,道長,這世上最難降的妖魔是什么驻售? 我笑而不...
    開封第一講書人閱讀 55,323評論 1 279
  • 正文 為了忘掉前任露久,我火速辦了婚禮,結(jié)果婚禮上芋浮,老公的妹妹穿的比我還像新娘抱环。我一直安慰自己,他們只是感情好纸巷,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,355評論 5 374
  • 文/花漫 我一把揭開白布镇草。 她就那樣靜靜地躺著,像睡著了一般瘤旨。 火紅的嫁衣襯著肌膚如雪梯啤。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,079評論 1 285
  • 那天存哲,我揣著相機(jī)與錄音因宇,去河邊找鬼。 笑死祟偷,一個(gè)胖子當(dāng)著我的面吹牛察滑,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播修肠,決...
    沈念sama閱讀 38,389評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼贺辰,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起饲化,我...
    開封第一講書人閱讀 37,019評論 0 259
  • 序言:老撾萬榮一對情侶失蹤莽鸭,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后吃靠,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體硫眨,經(jīng)...
    沈念sama閱讀 43,519評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,971評論 2 325
  • 正文 我和宋清朗相戀三年巢块,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了礁阁。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,100評論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡夕冲,死狀恐怖氮兵,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情歹鱼,我是刑警寧澤泣栈,帶...
    沈念sama閱讀 33,738評論 4 324
  • 正文 年R本政府宣布,位于F島的核電站弥姻,受9級特大地震影響南片,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜庭敦,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,293評論 3 307
  • 文/蒙蒙 一疼进、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧秧廉,春花似錦伞广、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,289評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至蔽豺,卻和暖如春区丑,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背修陡。 一陣腳步聲響...
    開封第一講書人閱讀 31,517評論 1 262
  • 我被黑心中介騙來泰國打工沧侥, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人魄鸦。 一個(gè)月前我還...
    沈念sama閱讀 45,547評論 2 354
  • 正文 我出身青樓宴杀,卻偏偏與公主長得像,于是被迫代替她去往敵國和親拾因。 傳聞我的和親對象是個(gè)殘疾皇子旺罢,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,834評論 2 345