生信筆記8-基因注釋文件

1、簡介

  • 注釋文件就是基因組的說明書嘀趟。告訴我們哪些序列是編碼蛋白的基因脐区,哪些是非編碼基因,外顯子去件、內含子坡椒、UTR等的位置等等。注釋文件在以下三個提供參考基因組的網站中都有提供尤溜,比如Ensemble倔叼、NCBI 、UCSC宫莱。
  • 基因組注釋(genomic features)通常使用Browser Extensible Data (BED) 或者 General Feature Format (GFF)文件格式表示丈攒,用UCSC Genome Browser進行可視化比較。
  • Bed文件和GFF文件最基本的信息就是染色體或Contig的ID或編號授霸,然后就是DNA的正負鏈信息巡验,接著就是在染色體上的起始和終止位置數值。
  • 兩種文件的區(qū)別在于碘耳,BED文件中起始坐標為0显设,結束坐標至少是1,; GFF中起始坐標是1而結束坐標至少是1辛辨。
  • 處理Bed格式和GFF格式的工具主要有 BedTools和Tophat 捕捂。

2、bed文件

  • BED文件每行至少包括chrom斗搞,chromStart指攒,chromEnd三列(必選);另外還可以添加額外的9列(可選),這些列的順序是固定的僻焚。

  • 必選的三列:

    1. chrom:染色體的名稱(例如chr3允悦,chrY,chr2_random)或支架(例如scaffold10671)虑啤。
    2. chromStart:染色體或支架中特征的起始位置隙弛。染色體中的第一個堿基編號為0架馋。
    3. chromEnd:染色體或支架中特征的結束位置。染色體的末端位置沒有包含到顯示信息里面驶鹉。例如绩蜻,首先得100個堿基的染色體定義為chromStart =0 . chromEnd=100, 堿基的數目是0-99
  • 9個可選的BED字段:

    1. name: 定義BED行的名稱。當軌道打開到完全顯示模式時室埋,此標簽顯示在Genome瀏覽器窗口中BED行的左側办绝,或者在打包模式下直接顯示在項目的左側。
    2. score: 得分在0到1000之間姚淆。如果此注釋數據集的軌跡線useScore屬性設置為1孕蝉,則得分值將確定顯示此要素的灰度級別(較高的數字=較深的灰色)。此表顯示 Genome Browser將BED分數值轉換為灰色陰影:
    3. strand:定義正負鏈腌逢。要么“.” (=無絞線)或“+”或“ - ”降淮。
    4. thickStart:繪制基因的起始位置(例如,基因顯示中的起始密碼子)搏讶。當沒有厚部分時佳鳖,thickStart和thickEnd通常設置為chromStart位置。
    5. thickEnd:繪制特征的結束位置(例如基因顯示中的終止密碼子)媒惕。
    6. itemRgb:R系吩,G,B形式的RGB值(例如255,0,0)妒蔚。如果軌道行 itemRgb屬性設置為“On”穿挨,則此RBG值將確定此BED行中包含的數據的顯示顏色。注意:建議使用此屬性的簡單顏色方案(八種顏色或更少顏色)肴盏,以避免壓倒Genome瀏覽器和Internet瀏覽器的顏色資源科盛。
    7. blockCount:- BED行中的塊(外顯子)數。
    8. blockSizes:- 塊大小的逗號分隔列表菜皂。此列表中的項目數應與blockCount相對應贞绵。
    9. blockStarts:- 以逗號分隔的塊開始列表。應該相對于chromStart計算所有 blockStart位置恍飘。此列表中的項目數應與blockCount相對應榨崩。

例如:

chr1    10279   10779   +   0   NA  Intergenic  -1345   NR_046018   100287102   Hs.618434   NR_046018   DDX11L1 DEAD/H,(Asp-Glu-Ala-Asp/His),box,helicase,11,like,1
chr1    13252   13752   +   0   NA  TTS,(NR_024540) 1628    NR_046018   100287102   Hs.618434   NR_046018   DDX11L1 DEAD/H,(Asp-Glu-Ala-Asp/His),box,helicase,11,like,1
chr1    16019   16519   +   0   NA  intron,(NR_024540,,intron,8,of,10)  1167    NR_107062   102465909   NA  NR_107062   MIR6859-2   microRNA,6859-2
chr1    29026   29526   +   0   NA  promoter-TSS,(NR_024540)    94  NR_024540   653635  Hs.446466   NR_024540   WASH7P  WAS,protein,family,homolog,7,pseudogene
chr1    96364   96864   +   0   NA  Intergenic  27523   NM_001005484    79501   Hs.554500   NM_001005484    OR4F5   olfactory,receptor,,family,4,,subfamily,F,,member,5
chr1    115440  115940  +   0   NA  Intergenic  24876   NR_039983   729737  Hs.534942   NR_039983   LOC729737   uncharacterized,LOC729737
chr1    237535  238035  +   0   NA  Intergenic  -86107  NR_028325   100132062   Hs.722350   NR_028325   LOC100132062    uncharacterized,LOC100132062
chr1    240811  241311  +   0   NA  Intergenic  -82831  NR_028325   100132062   Hs.722350   NR_028325   LOC100132062    uncharacterized,LOC100132062

3、gtf/gff文件

  • GTF 為General Transfer Format縮寫常侣,跟 GFF2格式類似蜡饵。相信大家做轉錄組分析時候經常會看到Cufflinks或者Stringtie軟件對轉錄組進行定量與組裝會時產生一個gtf文件弹渔,以人類基因組hg38為例胳施,里面包含的信息如下:
1   havana  gene    11869   14409   .   +   .   gene_id "ENSG00000223972"; gene_version "5"; gene_name "DDX11L1"; gene_source "havana"; gene_biotype "transcribed_unprocessed_pseudogene"; havana_gene "OTTHUMG00000000961"; havana_gene_version "2";
1   havana  transcript  11869   14409   .   +   .   gene_id "ENSG00000223972"; gene_version "5"; transcript_id "ENST00000456328"; transcript_version "2"; gene_name "DDX11L1"; gene_source "havana"; gene_biotype "transcribed_unprocessed_pseudogene"; havana_gene "OTTHUMG00000000961"; havana_gene_version "2"; transcript_name "DDX11L1-002"; transcript_source "havana"; transcript_biotype "processed_transcript"; havana_transcript "OTTHUMT00000362751"; havana_transcript_version "1"; tag "basic"; transcript_support_level "1";
1   havana  exon    11869   12227   .   +   .   gene_id "ENSG00000223972"; gene_version "5"; transcript_id "ENST00000456328"; transcript_version "2"; exon_number "1"; gene_name "DDX11L1"; gene_source "havana"; gene_biotype "transcribed_unprocessed_pseudogene"; havana_gene "OTTHUMG00000000961"; havana_gene_version "2"; transcript_name "DDX11L1-002"; transcript_source "havana"; transcript_biotype "processed_transcript"; havana_transcript "OTTHUMT00000362751"; havana_transcript_version "1"; exon_id "ENSE00002234944"; exon_version "1"; tag "basic"; transcript_support_level "1";
1   havana  exon    12613   12721   .   +   .   gene_id "ENSG00000223972"; gene_version "5"; transcript_id "ENST00000456328"; transcript_version "2"; exon_number "2"; gene_name "DDX11L1"; gene_source "havana"; gene_biotype "transcribed_unprocessed_pseudogene"; havana_gene "OTTHUMG00000000961"; havana_gene_version "2"; transcript_name "DDX11L1-002"; transcript_source "havana"; transcript_biotype "processed_transcript"; havana_transcript "OTTHUMT00000362751"; havana_transcript_version "1"; exon_id "ENSE00003582793"; exon_version "1"; tag "basic"; transcript_support_level "1";
1   havana  exon    13221   14409   .   +   .   gene_id "ENSG00000223972"; gene_version "5"; transcript_id "ENST00000456328"; transcript_version "2"; exon_number "3"; gene_name "DDX11L1"; gene_source "havana"; gene_biotype "transcribed_unprocessed_pseudogene"; havana_gene "OTTHUMG00000000961"; havana_gene_version "2"; transcript_name "DDX11L1-002"; transcript_source "havana"; transcript_biotype "processed_transcript"; havana_transcript "OTTHUMT00000362751"; havana_transcript_version "1"; exon_id "ENSE00002312635"; exon_version "1"; tag "basic"; transcript_support_level "1";

  • 每列信息的含義如下:

    1. seqname:序列的ID,可以是染色體的ID也可以是Scaffold或者Contig的ID肢专。
    2. source:產生此文件的軟件舞肆,如Stringtie產生的則為Stringtie焦辅,CUfflinks產生的則為Cufflinks,不知道的使用點 “.” 表示椿胯。
    3. feature:可以是gene筷登,exon,transcript哩盲,lncRNA前方,CDS等等特征。
    4. start:上述feature的在序列上的起始位置廉油。
    5. end:上述feature的在序列上的終止位置惠险。
    6. score:一個浮點數值,也可以為點 “.” 抒线。有值的時候代表上述feature的可靠性班巩。因為無論是gene還是mRNA,都是基于預測生成的嘶炭,因而必然會有一個值來衡量預測準確性抱慌。
    7. strand:+ (forward)或者 - (reverse),代表上述feature是位于正鏈還是負鏈上眨猎。
    8. frame:內含子相位抑进,只能為'0', '1' or '2',或者為點 “.”宵呛。 '0' 代表feature起始堿基為三聯體密碼子的第一個堿基, '1' 代表三聯體密碼子的第2個堿基, 2代表第3個堿基单匣。
    9. attribute:備注列。主要備注該feature的一些信息宝穗,常見的是gene或者transcript等的ID信息以及FPKM值等户秤,多個備注信息之間通常用分號分隔。
  • gff格式逮矛。為General Feature Format縮寫鸡号,目前采用的是version 3,即我們常說的gff3文件须鼎。該文件常用來對基因組進行注釋鲸伴,表示基因,外顯子晋控,CDS汞窗,UTR等在基因組上的位置。眾多基因預測軟件如Glean赡译,EVM仲吏,AUGUSTUS等會產生此格式文件。
    與gtf文件不同之處只是在第9列。此列格式為“標簽=值”(tag=value)裹唆,標簽與值之間用“=”誓斥,不同的標簽之間用“;”隔開许帐,一個標簽可以有多個值劳坑,不同值用“,”分割。


參考

http://www.reibang.com/p/9208c3b89e44
http://www.reibang.com/p/3a8aa6ea5002

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
  • 序言:七十年代末成畦,一起剝皮案震驚了整個濱河市距芬,隨后出現的幾起案子,更是在濱河造成了極大的恐慌循帐,老刑警劉巖蔑穴,帶你破解...
    沈念sama閱讀 206,013評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現場離奇詭異惧浴,居然都是意外死亡存和,警方通過查閱死者的電腦和手機,發(fā)現死者居然都...
    沈念sama閱讀 88,205評論 2 382
  • 文/潘曉璐 我一進店門衷旅,熙熙樓的掌柜王于貴愁眉苦臉地迎上來捐腿,“玉大人,你說我怎么就攤上這事柿顶∏研洌” “怎么了?”我有些...
    開封第一講書人閱讀 152,370評論 0 342
  • 文/不壞的土叔 我叫張陵嘁锯,是天一觀的道長宪祥。 經常有香客問我,道長家乘,這世上最難降的妖魔是什么蝗羊? 我笑而不...
    開封第一講書人閱讀 55,168評論 1 278
  • 正文 為了忘掉前任,我火速辦了婚禮仁锯,結果婚禮上耀找,老公的妹妹穿的比我還像新娘。我一直安慰自己业崖,他們只是感情好野芒,可當我...
    茶點故事閱讀 64,153評論 5 371
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著双炕,像睡著了一般狞悲。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上妇斤,一...
    開封第一講書人閱讀 48,954評論 1 283
  • 那天摇锋,我揣著相機與錄音胀滚,去河邊找鬼。 笑死乱投,一個胖子當著我的面吹牛,可吹牛的內容都是我干的顷编。 我是一名探鬼主播戚炫,決...
    沈念sama閱讀 38,271評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼媳纬!你這毒婦竟也來了双肤?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 36,916評論 0 259
  • 序言:老撾萬榮一對情侶失蹤钮惠,失蹤者是張志新(化名)和其女友劉穎茅糜,沒想到半個月后,有當地人在樹林里發(fā)現了一具尸體素挽,經...
    沈念sama閱讀 43,382評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡蔑赘,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 35,877評論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現自己被綠了预明。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片缩赛。...
    茶點故事閱讀 37,989評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖撰糠,靈堂內的尸體忽然破棺而出酥馍,到底是詐尸還是另有隱情,我是刑警寧澤阅酪,帶...
    沈念sama閱讀 33,624評論 4 322
  • 正文 年R本政府宣布旨袒,位于F島的核電站,受9級特大地震影響术辐,放射性物質發(fā)生泄漏砚尽。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,209評論 3 307
  • 文/蒙蒙 一辉词、第九天 我趴在偏房一處隱蔽的房頂上張望尉辑。 院中可真熱鬧,春花似錦较屿、人聲如沸隧魄。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,199評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽购啄。三九已至,卻和暖如春嘱么,著一層夾襖步出監(jiān)牢的瞬間狮含,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,418評論 1 260
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留几迄,地道東北人蔚龙。 一個月前我還...
    沈念sama閱讀 45,401評論 2 352
  • 正文 我出身青樓,卻偏偏與公主長得像映胁,于是被迫代替她去往敵國和親木羹。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 42,700評論 2 345

推薦閱讀更多精彩內容