1、簡介
- 注釋文件就是基因組的說明書嘀趟。告訴我們哪些序列是編碼蛋白的基因脐区,哪些是非編碼基因,外顯子去件、內含子坡椒、UTR等的位置等等。注釋文件在以下三個提供參考基因組的網站中都有提供尤溜,比如Ensemble倔叼、NCBI 、UCSC宫莱。
- 基因組注釋(genomic features)通常使用Browser Extensible Data (BED) 或者 General Feature Format (GFF)文件格式表示丈攒,用UCSC Genome Browser進行可視化比較。
- Bed文件和GFF文件最基本的信息就是染色體或Contig的ID或編號授霸,然后就是DNA的正負鏈信息巡验,接著就是在染色體上的起始和終止位置數值。
- 兩種文件的區(qū)別在于碘耳,BED文件中起始坐標為0显设,結束坐標至少是1,; GFF中起始坐標是1而結束坐標至少是1辛辨。
- 處理Bed格式和GFF格式的工具主要有 BedTools和Tophat 捕捂。
2、bed文件
BED文件每行至少包括chrom斗搞,chromStart指攒,chromEnd三列(必選);另外還可以添加額外的9列(可選),這些列的順序是固定的僻焚。
-
必選的三列:
- chrom:染色體的名稱(例如chr3允悦,chrY,chr2_random)或支架(例如scaffold10671)虑啤。
- chromStart:染色體或支架中特征的起始位置隙弛。染色體中的第一個堿基編號為0架馋。
- chromEnd:染色體或支架中特征的結束位置。染色體的末端位置沒有包含到顯示信息里面驶鹉。例如绩蜻,首先得100個堿基的染色體定義為chromStart =0 . chromEnd=100, 堿基的數目是0-99
-
9個可選的BED字段:
- name: 定義BED行的名稱。當軌道打開到完全顯示模式時室埋,此標簽顯示在Genome瀏覽器窗口中BED行的左側办绝,或者在打包模式下直接顯示在項目的左側。
- score: 得分在0到1000之間姚淆。如果此注釋數據集的軌跡線useScore屬性設置為1孕蝉,則得分值將確定顯示此要素的灰度級別(較高的數字=較深的灰色)。此表顯示 Genome Browser將BED分數值轉換為灰色陰影:
- strand:定義正負鏈腌逢。要么“.” (=無絞線)或“+”或“ - ”降淮。
- thickStart:繪制基因的起始位置(例如,基因顯示中的起始密碼子)搏讶。當沒有厚部分時佳鳖,thickStart和thickEnd通常設置為chromStart位置。
- thickEnd:繪制特征的結束位置(例如基因顯示中的終止密碼子)媒惕。
- itemRgb:R系吩,G,B形式的RGB值(例如255,0,0)妒蔚。如果軌道行 itemRgb屬性設置為“On”穿挨,則此RBG值將確定此BED行中包含的數據的顯示顏色。注意:建議使用此屬性的簡單顏色方案(八種顏色或更少顏色)肴盏,以避免壓倒Genome瀏覽器和Internet瀏覽器的顏色資源科盛。
- blockCount:- BED行中的塊(外顯子)數。
- blockSizes:- 塊大小的逗號分隔列表菜皂。此列表中的項目數應與blockCount相對應贞绵。
- blockStarts:- 以逗號分隔的塊開始列表。應該相對于chromStart計算所有 blockStart位置恍飘。此列表中的項目數應與blockCount相對應榨崩。
例如:
chr1 10279 10779 + 0 NA Intergenic -1345 NR_046018 100287102 Hs.618434 NR_046018 DDX11L1 DEAD/H,(Asp-Glu-Ala-Asp/His),box,helicase,11,like,1
chr1 13252 13752 + 0 NA TTS,(NR_024540) 1628 NR_046018 100287102 Hs.618434 NR_046018 DDX11L1 DEAD/H,(Asp-Glu-Ala-Asp/His),box,helicase,11,like,1
chr1 16019 16519 + 0 NA intron,(NR_024540,,intron,8,of,10) 1167 NR_107062 102465909 NA NR_107062 MIR6859-2 microRNA,6859-2
chr1 29026 29526 + 0 NA promoter-TSS,(NR_024540) 94 NR_024540 653635 Hs.446466 NR_024540 WASH7P WAS,protein,family,homolog,7,pseudogene
chr1 96364 96864 + 0 NA Intergenic 27523 NM_001005484 79501 Hs.554500 NM_001005484 OR4F5 olfactory,receptor,,family,4,,subfamily,F,,member,5
chr1 115440 115940 + 0 NA Intergenic 24876 NR_039983 729737 Hs.534942 NR_039983 LOC729737 uncharacterized,LOC729737
chr1 237535 238035 + 0 NA Intergenic -86107 NR_028325 100132062 Hs.722350 NR_028325 LOC100132062 uncharacterized,LOC100132062
chr1 240811 241311 + 0 NA Intergenic -82831 NR_028325 100132062 Hs.722350 NR_028325 LOC100132062 uncharacterized,LOC100132062
3、gtf/gff文件
- GTF 為General Transfer Format縮寫常侣,跟 GFF2格式類似蜡饵。相信大家做轉錄組分析時候經常會看到Cufflinks或者Stringtie軟件對轉錄組進行定量與組裝會時產生一個gtf文件弹渔,以人類基因組hg38為例胳施,里面包含的信息如下:
1 havana gene 11869 14409 . + . gene_id "ENSG00000223972"; gene_version "5"; gene_name "DDX11L1"; gene_source "havana"; gene_biotype "transcribed_unprocessed_pseudogene"; havana_gene "OTTHUMG00000000961"; havana_gene_version "2";
1 havana transcript 11869 14409 . + . gene_id "ENSG00000223972"; gene_version "5"; transcript_id "ENST00000456328"; transcript_version "2"; gene_name "DDX11L1"; gene_source "havana"; gene_biotype "transcribed_unprocessed_pseudogene"; havana_gene "OTTHUMG00000000961"; havana_gene_version "2"; transcript_name "DDX11L1-002"; transcript_source "havana"; transcript_biotype "processed_transcript"; havana_transcript "OTTHUMT00000362751"; havana_transcript_version "1"; tag "basic"; transcript_support_level "1";
1 havana exon 11869 12227 . + . gene_id "ENSG00000223972"; gene_version "5"; transcript_id "ENST00000456328"; transcript_version "2"; exon_number "1"; gene_name "DDX11L1"; gene_source "havana"; gene_biotype "transcribed_unprocessed_pseudogene"; havana_gene "OTTHUMG00000000961"; havana_gene_version "2"; transcript_name "DDX11L1-002"; transcript_source "havana"; transcript_biotype "processed_transcript"; havana_transcript "OTTHUMT00000362751"; havana_transcript_version "1"; exon_id "ENSE00002234944"; exon_version "1"; tag "basic"; transcript_support_level "1";
1 havana exon 12613 12721 . + . gene_id "ENSG00000223972"; gene_version "5"; transcript_id "ENST00000456328"; transcript_version "2"; exon_number "2"; gene_name "DDX11L1"; gene_source "havana"; gene_biotype "transcribed_unprocessed_pseudogene"; havana_gene "OTTHUMG00000000961"; havana_gene_version "2"; transcript_name "DDX11L1-002"; transcript_source "havana"; transcript_biotype "processed_transcript"; havana_transcript "OTTHUMT00000362751"; havana_transcript_version "1"; exon_id "ENSE00003582793"; exon_version "1"; tag "basic"; transcript_support_level "1";
1 havana exon 13221 14409 . + . gene_id "ENSG00000223972"; gene_version "5"; transcript_id "ENST00000456328"; transcript_version "2"; exon_number "3"; gene_name "DDX11L1"; gene_source "havana"; gene_biotype "transcribed_unprocessed_pseudogene"; havana_gene "OTTHUMG00000000961"; havana_gene_version "2"; transcript_name "DDX11L1-002"; transcript_source "havana"; transcript_biotype "processed_transcript"; havana_transcript "OTTHUMT00000362751"; havana_transcript_version "1"; exon_id "ENSE00002312635"; exon_version "1"; tag "basic"; transcript_support_level "1";
-
每列信息的含義如下:
- seqname:序列的ID,可以是染色體的ID也可以是Scaffold或者Contig的ID肢专。
- source:產生此文件的軟件舞肆,如Stringtie產生的則為Stringtie焦辅,CUfflinks產生的則為Cufflinks,不知道的使用點 “.” 表示椿胯。
- feature:可以是gene筷登,exon,transcript哩盲,lncRNA前方,CDS等等特征。
- start:上述feature的在序列上的起始位置廉油。
- end:上述feature的在序列上的終止位置惠险。
- score:一個浮點數值,也可以為點 “.” 抒线。有值的時候代表上述feature的可靠性班巩。因為無論是gene還是mRNA,都是基于預測生成的嘶炭,因而必然會有一個值來衡量預測準確性抱慌。
- strand:+ (forward)或者 - (reverse),代表上述feature是位于正鏈還是負鏈上眨猎。
- frame:內含子相位抑进,只能為'0', '1' or '2',或者為點 “.”宵呛。 '0' 代表feature起始堿基為三聯體密碼子的第一個堿基, '1' 代表三聯體密碼子的第2個堿基, 2代表第3個堿基单匣。
- attribute:備注列。主要備注該feature的一些信息宝穗,常見的是gene或者transcript等的ID信息以及FPKM值等户秤,多個備注信息之間通常用分號分隔。
gff格式逮矛。為General Feature Format縮寫鸡号,目前采用的是version 3,即我們常說的gff3文件须鼎。該文件常用來對基因組進行注釋鲸伴,表示基因,外顯子晋控,CDS汞窗,UTR等在基因組上的位置。眾多基因預測軟件如Glean赡译,EVM仲吏,AUGUSTUS等會產生此格式文件。
與gtf文件不同之處只是在第9列。此列格式為“標簽=值”(tag=value)裹唆,標簽與值之間用“=”誓斥,不同的標簽之間用“;”隔開许帐,一個標簽可以有多個值劳坑,不同值用“,”分割。
參考
http://www.reibang.com/p/9208c3b89e44
http://www.reibang.com/p/3a8aa6ea5002