1筝闹、簡介
注釋文件
就是基因組的說明書媳叨。告訴我們哪些序列是編碼蛋白的基因,哪些是非編碼基因关顷,外顯子糊秆、內含子、UTR等的位置等等议双。注釋文件在以下三個提供參考基因組的網站中都有提供痘番,比如Ensemble、NCBI 、UCSC汞舱。但是現在最權威的人類和小鼠基因組的注釋還屬Gencode數據庫伍纫。
基因組注釋(genomic features)
通常使用Browser Extensible Data (BED) 或者 General Feature Format (GFF)文件格式表示,用UCSC Genome Browser進行可視化比較昂芜。
Bed文件和GFF文件
最基本的信息就是染色體或Contig的ID或編號翻斟,然后就是DNA的正負鏈信息,接著就是在染色體上的起始和終止位置數值说铃。
兩種文件的區(qū)別
在于访惜,BED文件中起始坐標為0,結束坐標至少是1,腻扇; GFF中起始坐標是1而結束坐標至少是1债热。
處理Bed格式和GFF格式的工具
主要有 BedTools和Tophat 。
2幼苛、文件格式介紹
BED文件每行至少包括chrom窒篱,chromStart,chromEnd三列(必選
); 另外還可以添加額外的9列(可選
)舶沿,這些列的順序是固定的墙杯。
必選的三列:
-
chrom
- 染色體的名稱(例如chr3,chrY括荡,chr2_random)或支架(例如scaffold10671)高镐。 -
chromStart
- 染色體或支架中特征的起始位置。染色體中的第一個堿基編號為0畸冲。 -
chromEnd
- 染色體或支架中特征的結束位置嫉髓。所述 chromEnd堿沒有包括在特征的顯示。例如邑闲,染色體的前100個堿基定義為chromStart = 0算行,chromEnd = 100,并跨越編號為0-99的堿基苫耸。
9個可選的BED字段:
-
name
- 定義BED行的名稱州邢。當軌道打開到完全顯示模式時,此標簽顯示在Genome瀏覽器窗口中BED行的左側褪子,或者在打包模式下直接顯示在項目的左側量淌。 -
score
- 得分在0到1000之間。如果此注釋數據集的軌跡線useScore屬性設置為1褐筛,則得分值將確定顯示此要素的灰度級別(較高的數字=較深的灰色)类少。此表顯示 Genome Browser將BED分數值轉換為灰色陰影: -
strand
- 定義strand。要么“渔扎。” (=無絞線)或“+”或“ - ”信轿。 -
thickStart
- 繪制特征的起始位置(例如晃痴,基因顯示中的起始密碼子)残吩。當沒有厚部分時,thickStart和thickEnd通常設置為chromStart位置倘核。 -
thickEnd
- 繪制特征的結束位置(例如基因顯示中的終止密碼子)泣侮。 -
itemRgb
- R,G紧唱,B形式的RGB值(例如255,0,0)活尊。如果軌道行 itemRgb屬性設置為“On”,則此RBG值將確定此BED行中包含的數據的顯示顏色漏益。注意:建議使用此屬性的簡單顏色方案(八種顏色或更少顏色)蛹锰,以避免壓倒Genome瀏覽器和Internet瀏覽器的顏色資源。 -
blockCount
- BED行中的塊(外顯子)數绰疤。 -
blockSizes
- 塊大小的逗號分隔列表铜犬。此列表中的項目數應與blockCount相對應。 -
blockStarts
- 以逗號分隔的塊開始列表轻庆。應該相對于chromStart計算所有 blockStart位置癣猾。此列表中的項目數應與blockCount相對應。
例如:
[bio@ubuntu ~]$ less -S GRCh38.gene.bed
chr3 124792319 124792562 ENSG00000276626 RF00100 -
chr1 92700819 92700934 ENSG00000201317 RNU4-59P -
chr14 100951856 100951933 ENSG00000200823 SNORD114-2 +
chr22 45200954 45201019 ENSG00000221598 MIR1249 -
chr1 161699506 161699607 ENSG00000199595 RF00019 +
3余爆、基因組注釋文件下載
以gencode
最為權威纷宇,Ensemble、NCBI 蛾方、UCSC也有提供下載呐粘。
genecode的FTP:ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/
gencode官網的統計信息
#下載release_24所有的gtf文件
wget -c -r -np -nd -k -L -A “*gtf.gz” ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_24/