基因組注釋文件格式 --(一)BED文件格式

轉(zhuǎn)載:https://biozx.top/bed.html

參考

UCSC數(shù)據(jù)文件格式
基因組數(shù)據(jù)注釋常用的文件-Bed文件和GFF文件

1寺谤、簡(jiǎn)介

注釋文件就是基因組的說明書仑鸥。告訴我們哪些序列是編碼蛋白的基因吮播,哪些是非編碼基因,外顯子眼俊、內(nèi)含子意狠、UTR等的位置等等。注釋文件在以下三個(gè)提供參考基因組的網(wǎng)站中都有提供疮胖,比如Ensemble环戈、NCBI 、UCSC澎灸。但是現(xiàn)在最權(quán)威的人類和小鼠基因組的注釋還屬Gencode數(shù)據(jù)庫院塞。
基因組注釋(genomic features)通常使用Browser Extensible Data (BED) 或者 General Feature Format (GFF)文件格式表示,用UCSC Genome Browser進(jìn)行可視化比較性昭。
Bed文件和GFF文件最基本的信息就是染色體或Contig的ID或編號(hào)拦止,然后就是DNA的正負(fù)鏈信息,接著就是在染色體上的起始和終止位置數(shù)值糜颠。
兩種文件的區(qū)別在于汹族,BED文件中起始坐標(biāo)為0,結(jié)束坐標(biāo)至少是1,其兴; GFF中起始坐標(biāo)是1而結(jié)束坐標(biāo)至少是1顶瞒。
處理Bed格式和GFF格式的工具主要有 BedTools和Tophat 。

2元旬、文件格式介紹

BED文件每行至少包括chrom搁拙,chromStart,chromEnd三列必選;另外還可以添加額外的9列可選法绵,這些列的順序是固定的。

必選的三列:

  1. chrom - 染色體的名稱(例如chr3酪碘,chrY朋譬,chr2_random)或支架(例如scaffold10671)。
  2. chromStart- 染色體或支架中特征的起始位置兴垦。染色體中的第一個(gè)堿基編號(hào)為0徙赢。
  3. chromEnd- 染色體或支架中特征的結(jié)束位置。所述 chromEnd堿沒有包括在特征的顯示探越。例如狡赐,染色體的前100個(gè)堿基定義為chromStart = 0,chromEnd = 100钦幔,并跨越編號(hào)為0-99的堿基枕屉。

9個(gè)可選的BED字段:

  1. name - 定義BED行的名稱。當(dāng)軌道打開到完全顯示模式時(shí)鲤氢,此標(biāo)簽顯示在Genome瀏覽器窗口中BED行的左側(cè)搀擂,或者在打包模式下直接顯示在項(xiàng)目的左側(cè)西潘。
  2. score - 得分在0到1000之間。如果此注釋數(shù)據(jù)集的軌跡線useScore屬性設(shè)置為1哨颂,則得分值將確定顯示此要素的灰度級(jí)別(較高的數(shù)字=較深的灰色)喷市。此表顯示 Genome Browser將BED分?jǐn)?shù)值轉(zhuǎn)換為灰色陰影:
  3. strand - 定義strand。要么“威恼∑沸眨” (=無絞線)或“+”或“ - ”。
  4. thickStart- 繪制特征的起始位置(例如箫措,基因顯示中的起始密碼子)腹备。當(dāng)沒有厚部分時(shí)峭跳,thickStart和thickEnd通常設(shè)置為chromStart位置漱抓。
  5. thickEnd - 繪制特征的結(jié)束位置(例如基因顯示中的終止密碼子)。
  6. itemRgb- R楣黍,G附迷,B形式的RGB值(例如255,0,0)惧互。如果軌道行 itemRgb屬性設(shè)置為“On”,則此RBG值將確定此BED行中包含的數(shù)據(jù)的顯示顏色喇伯。注意:建議使用此屬性的簡(jiǎn)單顏色方案(八種顏色或更少顏色)喊儡,以避免壓倒Genome瀏覽器和Internet瀏覽器的顏色資源。
  7. blockCount- BED行中的塊(外顯子)數(shù)稻据。
  8. blockSizes- 塊大小的逗號(hào)分隔列表艾猜。此列表中的項(xiàng)目數(shù)應(yīng)與blockCount相對(duì)應(yīng)。
  9. blockStarts - 以逗號(hào)分隔的塊開始列表捻悯。應(yīng)該相對(duì)于chromStart計(jì)算所有 blockStart位置匆赃。此列表中的項(xiàng)目數(shù)應(yīng)與blockCount相對(duì)應(yīng)。

例如:

[bio@ubuntu ~]$ less -S GRCh38.gene.bed 

chr3    124792319       124792562       ENSG00000276626 RF00100 -
chr1    92700819        92700934        ENSG00000201317 RNU4-59P        -
chr14   100951856       100951933       ENSG00000200823 SNORD114-2      +
chr22   45200954        45201019        ENSG00000221598 MIR1249 -
chr1    161699506       161699607       ENSG00000199595 RF00019 +

3今缚、基因組注釋文件下載

gencode最為權(quán)威算柳,Ensemble、NCBI 姓言、UCSC也有提供下載瞬项。
genecode的FTPftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/
gencode官網(wǎng)的統(tǒng)計(jì)信息

#下載release_24所有的gtf文件
wget -c -r -np -nd -k -L -A “*gtf.gz” ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_24/
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市何荚,隨后出現(xiàn)的幾起案子囱淋,更是在濱河造成了極大的恐慌,老刑警劉巖餐塘,帶你破解...
    沈念sama閱讀 206,839評(píng)論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件妥衣,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)称鳞,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,543評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門涮较,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人冈止,你說我怎么就攤上這事狂票。” “怎么了熙暴?”我有些...
    開封第一講書人閱讀 153,116評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵闺属,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我周霉,道長(zhǎng)掂器,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,371評(píng)論 1 279
  • 正文 為了忘掉前任俱箱,我火速辦了婚禮国瓮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘狞谱。我一直安慰自己乃摹,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,384評(píng)論 5 374
  • 文/花漫 我一把揭開白布跟衅。 她就那樣靜靜地躺著孵睬,像睡著了一般。 火紅的嫁衣襯著肌膚如雪伶跷。 梳的紋絲不亂的頭發(fā)上掰读,一...
    開封第一講書人閱讀 49,111評(píng)論 1 285
  • 那天,我揣著相機(jī)與錄音叭莫,去河邊找鬼蹈集。 笑死,一個(gè)胖子當(dāng)著我的面吹牛雇初,可吹牛的內(nèi)容都是我干的雾狈。 我是一名探鬼主播,決...
    沈念sama閱讀 38,416評(píng)論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼抵皱,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了辩蛋?” 一聲冷哼從身側(cè)響起呻畸,我...
    開封第一講書人閱讀 37,053評(píng)論 0 259
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎悼院,沒想到半個(gè)月后伤为,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,558評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,007評(píng)論 2 325
  • 正文 我和宋清朗相戀三年绞愚,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了叙甸。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,117評(píng)論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡位衩,死狀恐怖裆蒸,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情糖驴,我是刑警寧澤僚祷,帶...
    沈念sama閱讀 33,756評(píng)論 4 324
  • 正文 年R本政府宣布,位于F島的核電站贮缕,受9級(jí)特大地震影響辙谜,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜感昼,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,324評(píng)論 3 307
  • 文/蒙蒙 一装哆、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧定嗓,春花似錦蜕琴、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,315評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至层玲,卻和暖如春号醉,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背辛块。 一陣腳步聲響...
    開封第一講書人閱讀 31,539評(píng)論 1 262
  • 我被黑心中介騙來泰國(guó)打工畔派, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人润绵。 一個(gè)月前我還...
    沈念sama閱讀 45,578評(píng)論 2 355
  • 正文 我出身青樓线椰,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親尘盼。 傳聞我的和親對(duì)象是個(gè)殘疾皇子憨愉,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,877評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容