生信筆記8-基因注釋文件

1、簡介

注釋文件就是基因組的說明書嘀趟。告訴我們哪些序列是編碼蛋白的基因脐区，哪些是非編碼基因，外顯子去件、內含子坡椒、UTR等的位置等等。注釋文件在以下三個提供參考基因組的網站中都有提供尤溜，比如Ensemble倔叼、NCBI 、UCSC宫莱。
基因組注釋（genomic features）通常使用Browser Extensible Data (BED) 或者 General Feature Format (GFF)文件格式表示丈攒，用UCSC Genome Browser進行可視化比較。
Bed文件和GFF文件最基本的信息就是染色體或Contig的ID或編號授霸，然后就是DNA的正負鏈信息巡验，接著就是在染色體上的起始和終止位置數值。
兩種文件的區(qū)別在于碘耳，BED文件中起始坐標為0显设，結束坐標至少是1,； GFF中起始坐標是1而結束坐標至少是1辛辨。
處理Bed格式和GFF格式的工具主要有 BedTools和Tophat 捕捂。

2、bed文件

BED文件每行至少包括chrom斗搞，chromStart指攒，chromEnd三列（必選）;另外還可以添加額外的9列（可選），這些列的順序是固定的僻焚。
必選的三列：
1. chrom：染色體的名稱（例如chr3允悦，chrY，chr2_random）或支架（例如scaffold10671）虑啤。
2. chromStart：染色體或支架中特征的起始位置隙弛。染色體中的第一個堿基編號為0架馋。
3. chromEnd：染色體或支架中特征的結束位置。染色體的末端位置沒有包含到顯示信息里面驶鹉。例如绩蜻，首先得100個堿基的染色體定義為chromStart =0 . chromEnd=100, 堿基的數目是0-99
9個可選的BED字段：
1. name：定義BED行的名稱。當軌道打開到完全顯示模式時室埋，此標簽顯示在Genome瀏覽器窗口中BED行的左側办绝，或者在打包模式下直接顯示在項目的左側。
2. score：得分在0到1000之間姚淆。如果此注釋數據集的軌跡線useScore屬性設置為1孕蝉，則得分值將確定顯示此要素的灰度級別（較高的數字=較深的灰色）。此表顯示 Genome Browser將BED分數值轉換為灰色陰影：
3. strand：定義正負鏈腌逢。要么“.” （=無絞線）或“+”或“ - ”降淮。
4. thickStart：繪制基因的起始位置（例如，基因顯示中的起始密碼子）搏讶。當沒有厚部分時佳鳖，thickStart和thickEnd通常設置為chromStart位置。
5. thickEnd：繪制特征的結束位置（例如基因顯示中的終止密碼子）媒惕。
6. itemRgb：R系吩，G，B形式的RGB值（例如255,0,0）妒蔚。如果軌道行 itemRgb屬性設置為“On”穿挨，則此RBG值將確定此BED行中包含的數據的顯示顏色。注意：建議使用此屬性的簡單顏色方案（八種顏色或更少顏色）肴盏，以避免壓倒Genome瀏覽器和Internet瀏覽器的顏色資源科盛。
7. blockCount：- BED行中的塊（外顯子）數。
8. blockSizes：- 塊大小的逗號分隔列表菜皂。此列表中的項目數應與blockCount相對應贞绵。
9. blockStarts：- 以逗號分隔的塊開始列表。應該相對于chromStart計算所有 blockStart位置恍飘。此列表中的項目數應與blockCount相對應榨崩。

例如：

chr1    10279   10779   +   0   NA  Intergenic  -1345   NR_046018   100287102   Hs.618434   NR_046018   DDX11L1 DEAD/H,(Asp-Glu-Ala-Asp/His),box,helicase,11,like,1
chr1    13252   13752   +   0   NA  TTS,(NR_024540) 1628    NR_046018   100287102   Hs.618434   NR_046018   DDX11L1 DEAD/H,(Asp-Glu-Ala-Asp/His),box,helicase,11,like,1
chr1    16019   16519   +   0   NA  intron,(NR_024540,,intron,8,of,10)  1167    NR_107062   102465909   NA  NR_107062   MIR6859-2   microRNA,6859-2
chr1    29026   29526   +   0   NA  promoter-TSS,(NR_024540)    94  NR_024540   653635  Hs.446466   NR_024540   WASH7P  WAS,protein,family,homolog,7,pseudogene
chr1    96364   96864   +   0   NA  Intergenic  27523   NM_001005484    79501   Hs.554500   NM_001005484    OR4F5   olfactory,receptor,,family,4,,subfamily,F,,member,5
chr1    115440  115940  +   0   NA  Intergenic  24876   NR_039983   729737  Hs.534942   NR_039983   LOC729737   uncharacterized,LOC729737
chr1    237535  238035  +   0   NA  Intergenic  -86107  NR_028325   100132062   Hs.722350   NR_028325   LOC100132062    uncharacterized,LOC100132062
chr1    240811  241311  +   0   NA  Intergenic  -82831  NR_028325   100132062   Hs.722350   NR_028325   LOC100132062    uncharacterized,LOC100132062

3、gtf/gff文件

GTF 為General Transfer Format縮寫常侣，跟 GFF2格式類似蜡饵。相信大家做轉錄組分析時候經常會看到Cufflinks或者Stringtie軟件對轉錄組進行定量與組裝會時產生一個gtf文件弹渔，以人類基因組hg38為例胳施，里面包含的信息如下：

1   havana  gene    11869   14409   .   +   .   gene_id "ENSG00000223972"; gene_version "5"; gene_name "DDX11L1"; gene_source "havana"; gene_biotype "transcribed_unprocessed_pseudogene"; havana_gene "OTTHUMG00000000961"; havana_gene_version "2";
1   havana  transcript  11869   14409   .   +   .   gene_id "ENSG00000223972"; gene_version "5"; transcript_id "ENST00000456328"; transcript_version "2"; gene_name "DDX11L1"; gene_source "havana"; gene_biotype "transcribed_unprocessed_pseudogene"; havana_gene "OTTHUMG00000000961"; havana_gene_version "2"; transcript_name "DDX11L1-002"; transcript_source "havana"; transcript_biotype "processed_transcript"; havana_transcript "OTTHUMT00000362751"; havana_transcript_version "1"; tag "basic"; transcript_support_level "1";
1   havana  exon    11869   12227   .   +   .   gene_id "ENSG00000223972"; gene_version "5"; transcript_id "ENST00000456328"; transcript_version "2"; exon_number "1"; gene_name "DDX11L1"; gene_source "havana"; gene_biotype "transcribed_unprocessed_pseudogene"; havana_gene "OTTHUMG00000000961"; havana_gene_version "2"; transcript_name "DDX11L1-002"; transcript_source "havana"; transcript_biotype "processed_transcript"; havana_transcript "OTTHUMT00000362751"; havana_transcript_version "1"; exon_id "ENSE00002234944"; exon_version "1"; tag "basic"; transcript_support_level "1";
1   havana  exon    12613   12721   .   +   .   gene_id "ENSG00000223972"; gene_version "5"; transcript_id "ENST00000456328"; transcript_version "2"; exon_number "2"; gene_name "DDX11L1"; gene_source "havana"; gene_biotype "transcribed_unprocessed_pseudogene"; havana_gene "OTTHUMG00000000961"; havana_gene_version "2"; transcript_name "DDX11L1-002"; transcript_source "havana"; transcript_biotype "processed_transcript"; havana_transcript "OTTHUMT00000362751"; havana_transcript_version "1"; exon_id "ENSE00003582793"; exon_version "1"; tag "basic"; transcript_support_level "1";
1   havana  exon    13221   14409   .   +   .   gene_id "ENSG00000223972"; gene_version "5"; transcript_id "ENST00000456328"; transcript_version "2"; exon_number "3"; gene_name "DDX11L1"; gene_source "havana"; gene_biotype "transcribed_unprocessed_pseudogene"; havana_gene "OTTHUMG00000000961"; havana_gene_version "2"; transcript_name "DDX11L1-002"; transcript_source "havana"; transcript_biotype "processed_transcript"; havana_transcript "OTTHUMT00000362751"; havana_transcript_version "1"; exon_id "ENSE00002312635"; exon_version "1"; tag "basic"; transcript_support_level "1";

每列信息的含義如下：
1. seqname：序列的ID，可以是染色體的ID也可以是Scaffold或者Contig的ID肢专。
2. source：產生此文件的軟件舞肆，如Stringtie產生的則為Stringtie焦辅，CUfflinks產生的則為Cufflinks，不知道的使用點 “.” 表示椿胯。
3. feature：可以是gene筷登，exon，transcript哩盲，lncRNA前方，CDS等等特征。
4. start：上述feature的在序列上的起始位置廉油。
5. end：上述feature的在序列上的終止位置惠险。
6. score：一個浮點數值，也可以為點 “.” 抒线。有值的時候代表上述feature的可靠性班巩。因為無論是gene還是mRNA，都是基于預測生成的嘶炭，因而必然會有一個值來衡量預測準確性抱慌。
7. strand：+ (forward)或者 - (reverse)，代表上述feature是位于正鏈還是負鏈上眨猎。
8. frame：內含子相位抑进，只能為'0', '1' or '2'，或者為點 “.”宵呛。 '0' 代表feature起始堿基為三聯體密碼子的第一個堿基, '1' 代表三聯體密碼子的第2個堿基, 2代表第3個堿基单匣。
9. attribute：備注列。主要備注該feature的一些信息宝穗，常見的是gene或者transcript等的ID信息以及FPKM值等户秤，多個備注信息之間通常用分號分隔。
gff格式逮矛。為General Feature Format縮寫鸡号，目前采用的是version 3，即我們常說的gff3文件须鼎。該文件常用來對基因組進行注釋鲸伴，表示基因，外顯子晋控，CDS汞窗，UTR等在基因組上的位置。眾多基因預測軟件如Glean赡译，EVM仲吏，AUGUSTUS等會產生此格式文件。
與gtf文件不同之處只是在第9列。此列格式為“標簽＝值”（tag=value）裹唆，標簽與值之間用“=”誓斥，不同的標簽之間用“；”隔開许帐，一個標簽可以有多個值劳坑，不同值用“,”分割。

參考

http://www.reibang.com/p/9208c3b89e44
http://www.reibang.com/p/3a8aa6ea5002

最后編輯于：2021.09.29 15:08:39

?著作權歸作者所有,轉載或內容合作請聯系作者

人面猴
序言：七十年代末成畦，一起剝皮案震驚了整個濱河市距芬，隨后出現的幾起案子，更是在濱河造成了極大的恐慌循帐，老刑警劉巖蔑穴，帶你破解...
沈念sama閱讀 206,013評論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現場離奇詭異惧浴，居然都是意外死亡存和，警方通過查閱死者的電腦和手機，發(fā)現死者居然都...
沈念sama閱讀 88,205評論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門衷旅，熙熙樓的掌柜王于貴愁眉苦臉地迎上來捐腿，“玉大人，你說我怎么就攤上這事柿顶∏研洌” “怎么了？”我有些...
開封第一講書人閱讀 152,370評論 0贊 342
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵嘁锯，是天一觀的道長宪祥。經常有香客問我，道長家乘，這世上最難降的妖魔是什么蝗羊？我笑而不...
開封第一講書人閱讀 55,168評論 1贊 278
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮仁锯，結果婚禮上耀找，老公的妹妹穿的比我還像新娘。我一直安慰自己业崖，他們只是感情好野芒，可當我...
茶點故事閱讀 64,153評論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著双炕，像睡著了一般狞悲。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上妇斤，一...
開封第一講書人閱讀 48,954評論 1贊 283
城市分裂傳說
那天摇锋，我揣著相機與錄音胀滚，去河邊找鬼。笑死乱投，一個胖子當著我的面吹牛，可吹牛的內容都是我干的顷编。我是一名探鬼主播戚炫，決...
沈念sama閱讀 38,271評論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼媳纬！你這毒婦竟也來了双肤？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 36,916評論 0贊 259
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤钮惠，失蹤者是張志新（化名）和其女友劉穎茅糜，沒想到半個月后，有當地人在樹林里發(fā)現了一具尸體素挽，經...
沈念sama閱讀 43,382評論 1贊 300
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡蔑赘，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 35,877評論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現自己被綠了预明。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片缩赛。...
茶點故事閱讀 37,989評論 1贊 333
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖撰糠，靈堂內的尸體忽然破棺而出酥馍，到底是詐尸還是另有隱情，我是刑警寧澤阅酪，帶...
沈念sama閱讀 33,624評論 4贊 322
?日本核電站爆炸內幕
正文年R本政府宣布旨袒，位于F島的核電站，受9級特大地震影響术辐，放射性物質發(fā)生泄漏砚尽。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 39,209評論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一辉词、第九天我趴在偏房一處隱蔽的房頂上張望尉辑。院中可真熱鬧，春花似錦较屿、人聲如沸隧魄。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,199評論 0贊 19
一樁弒父案隘蝎，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽购啄。三九已至，卻和暖如春嘱么，著一層夾襖步出監(jiān)牢的瞬間狮含，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 31,418評論 1贊 260
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留几迄，地道東北人蔚龙。一個月前我還...
沈念sama閱讀 45,401評論 2贊 352
代替公主和親
正文我出身青樓，卻偏偏與公主長得像映胁，于是被迫代替她去往敵國和親木羹。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 42,700評論 2贊 345

生信筆記8-基因注釋文件

1、簡介

2、bed文件

3、gtf/gff文件

參考

推薦閱讀更多精彩內容