轉(zhuǎn)載:https://biozx.top/bed.html
參考
UCSC數(shù)據(jù)文件格式
基因組數(shù)據(jù)注釋常用的文件-Bed文件和GFF文件
1寺谤、簡(jiǎn)介
注釋文件
就是基因組的說明書仑鸥。告訴我們哪些序列是編碼蛋白的基因吮播,哪些是非編碼基因,外顯子眼俊、內(nèi)含子意狠、UTR等的位置等等。注釋文件在以下三個(gè)提供參考基因組的網(wǎng)站中都有提供疮胖,比如Ensemble环戈、NCBI 、UCSC澎灸。但是現(xiàn)在最權(quán)威
的人類和小鼠基因組的注釋還屬Gencode數(shù)據(jù)庫院塞。
基因組注釋(genomic features)
通常使用Browser Extensible Data (BED) 或者 General Feature Format (GFF)文件格式表示,用UCSC Genome Browser進(jìn)行可視化比較性昭。
Bed文件和GFF文件
最基本的信息就是染色體或Contig的ID或編號(hào)拦止,然后就是DNA的正負(fù)鏈信息,接著就是在染色體上的起始和終止位置數(shù)值糜颠。
兩種文件的區(qū)別
在于汹族,BED文件中起始坐標(biāo)為0,結(jié)束坐標(biāo)至少是1,其兴; GFF中起始坐標(biāo)是1而結(jié)束坐標(biāo)至少是1顶瞒。
處理Bed格式和GFF格式的工具
主要有 BedTools和Tophat 。
2元旬、文件格式介紹
BED文件每行至少包括chrom搁拙,chromStart,chromEnd三列必選
;另外還可以添加額外的9列可選
法绵,這些列的順序是固定的。
必選的三列:
-
chrom
- 染色體的名稱(例如chr3酪碘,chrY朋譬,chr2_random)或支架(例如scaffold10671)。 -
chromStart
- 染色體或支架中特征的起始位置兴垦。染色體中的第一個(gè)堿基編號(hào)為0徙赢。 -
chromEnd
- 染色體或支架中特征的結(jié)束位置。所述 chromEnd堿沒有包括在特征的顯示探越。例如狡赐,染色體的前100個(gè)堿基定義為chromStart = 0,chromEnd = 100钦幔,并跨越編號(hào)為0-99的堿基枕屉。
9個(gè)可選的BED字段:
-
name
- 定義BED行的名稱。當(dāng)軌道打開到完全顯示模式時(shí)鲤氢,此標(biāo)簽顯示在Genome瀏覽器窗口中BED行的左側(cè)搀擂,或者在打包模式下直接顯示在項(xiàng)目的左側(cè)西潘。 -
score
- 得分在0到1000之間。如果此注釋數(shù)據(jù)集的軌跡線useScore屬性設(shè)置為1哨颂,則得分值將確定顯示此要素的灰度級(jí)別(較高的數(shù)字=較深的灰色)喷市。此表顯示 Genome Browser將BED分?jǐn)?shù)值轉(zhuǎn)換為灰色陰影: -
strand
- 定義strand。要么“威恼∑沸眨” (=無絞線)或“+”或“ - ”。 -
thickStart
- 繪制特征的起始位置(例如箫措,基因顯示中的起始密碼子)腹备。當(dāng)沒有厚部分時(shí)峭跳,thickStart和thickEnd通常設(shè)置為chromStart位置漱抓。 -
thickEnd
- 繪制特征的結(jié)束位置(例如基因顯示中的終止密碼子)。 -
itemRgb
- R楣黍,G附迷,B形式的RGB值(例如255,0,0)惧互。如果軌道行 itemRgb屬性設(shè)置為“On”,則此RBG值將確定此BED行中包含的數(shù)據(jù)的顯示顏色喇伯。注意:建議使用此屬性的簡(jiǎn)單顏色方案(八種顏色或更少顏色)喊儡,以避免壓倒Genome瀏覽器和Internet瀏覽器的顏色資源。 -
blockCount
- BED行中的塊(外顯子)數(shù)稻据。 -
blockSizes
- 塊大小的逗號(hào)分隔列表艾猜。此列表中的項(xiàng)目數(shù)應(yīng)與blockCount相對(duì)應(yīng)。 -
blockStarts
- 以逗號(hào)分隔的塊開始列表捻悯。應(yīng)該相對(duì)于chromStart計(jì)算所有 blockStart位置匆赃。此列表中的項(xiàng)目數(shù)應(yīng)與blockCount相對(duì)應(yīng)。
例如:
[bio@ubuntu ~]$ less -S GRCh38.gene.bed
chr3 124792319 124792562 ENSG00000276626 RF00100 -
chr1 92700819 92700934 ENSG00000201317 RNU4-59P -
chr14 100951856 100951933 ENSG00000200823 SNORD114-2 +
chr22 45200954 45201019 ENSG00000221598 MIR1249 -
chr1 161699506 161699607 ENSG00000199595 RF00019 +
3今缚、基因組注釋文件下載
以gencode
最為權(quán)威算柳,Ensemble、NCBI 姓言、UCSC也有提供下載瞬项。
genecode的FTP:ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/
gencode官網(wǎng)的統(tǒng)計(jì)信息
#下載release_24所有的gtf文件
wget -c -r -np -nd -k -L -A “*gtf.gz” ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_24/