作者:木同抚垃、毛毛
更多精彩內(nèi)容請 微-信 搜索 “生信學(xué)社” 公·眾·號喷楣,點(diǎn)擊關(guān)·注『资鳎回復(fù)“ngs210304”铣焊,獲取該文所用到的文件、代碼罕伯、高清圖片等內(nèi)容曲伊。
近期在幫助別人分析數(shù)據(jù)的過程中需要用到人類染色體長度、著絲粒和端粒在染色體上的位置信息追他》啬迹可能有很多人也會需要這些信息岛蚤,其實(shí)這些信息很容易就能從UCSC(https://genome.ucsc.edu/index.html)數(shù)據(jù)庫得到,本文就告訴大家如何快速獲取這些數(shù)據(jù)懈糯。
1涤妒、染色體長度(Chromosome Length)
以GRCh37/hg19基因組版本為例:
染色體信息文件下載地址(http://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/hg19.chrom.sizes)。
我們可以通過以下步驟在UCSC數(shù)據(jù)庫中找到該文件昂利,詳細(xì)步驟見Fig. 1届腐。首先進(jìn)入U(xiǎn)CSC數(shù)據(jù)下載頁面,選擇下載Genome Data蜂奸,確定物種為Human,確定基因組版本為GRCh37/hg19硬萍,選擇所需下載文件類型進(jìn)入文件下載頁面扩所,選擇下載文件:hg19.chrom.sizes,該文件中就包含了人類染色體長度信息朴乖。
2祖屏、著絲粒和端粒位置數(shù)據(jù)獲取
2.1、著絲粒位置文件獲取
在UCSC數(shù)據(jù)庫Help板塊中就提到了此數(shù)據(jù)的獲取問題买羞,可以按照Fig. 2所示步驟找到關(guān)于該問題(http://genome.ucsc.edu/FAQ/FAQtracks.html#tracks20)的描述袁勺。正如Fig. 2D中所描述的那樣,我們可以在Table Browser處獲取該信息畜普。接下來我們通過詳細(xì)步驟演示期丰,如何獲取文件。
按照Fig. 3所示吃挑,在UCSC主頁Tools處打開Table Browser钝荡,選擇人類基因組hg19版本,group選擇All Table舶衬,table選擇gap埠通,然后點(diǎn)擊filter處的create按鈕創(chuàng)建著絲粒位置的track文件(Fig. 3B),在type處輸入Centromere并提交(Fig. 3C)逛犹。然后在output formart處選擇bed文件格式端辱,對文件進(jìn)行命名為Centromere.bed并選擇導(dǎo)出的文件格式,最后點(diǎn)擊輸出虽画,獲得BED文件,詳細(xì)步驟見Fig. 3D-E舞蔽。
2.2 、端粒位置文件獲取
同樣的狸捕,如果要獲取端粒位置文件喷鸽,只需要在創(chuàng)建track文件時(shí),在type處輸入Telomere并提交灸拍,將文件命名為Telomere.bed并導(dǎo)出文件做祝,步驟見Fig. 4砾省,其他條件不變。
我們打開Centromere.bed文件混槐,可以看待該文件中包含了著絲粒在染色體上的位置编兄,包括起始、終止位點(diǎn)等信息声登,如Fig. 4D所示狠鸳。