NCBI官方基因組坐標(biāo)轉(zhuǎn)換工具
本文轉(zhuǎn)載自網(wǎng)上教程
首先強(qiáng)調(diào)這是一篇實用貼虎锚,做基因組學(xué)研究的朋友們也許經(jīng)常會碰到準(zhǔn)確獲取基因或者某一功能位點在基因組上的位置的問題。隨著人類基因組計劃的完成衩婚,這項工作理論上很好解決窜护,但問題是隨著基因組數(shù)據(jù)的不斷完善,序列信息在不斷更新谅猾,所以我們經(jīng)常會碰到不同的基因組assembly版本柄慰,如hg18, hg19, GRCh37, GRCh38等等鳍悠。因此税娜,使用一個快捷權(quán)威的基因組坐標(biāo)轉(zhuǎn)換工具尤為重要。小編通過親身經(jīng)歷藏研,直接給讀者推薦一款來自NCBI網(wǎng)站的轉(zhuǎn)換工具——Remap
(1) Remap基本介紹
直接貼上網(wǎng)址:(http://www.ncbi.nlm.nih.gov/genome/tools/remap)敬矩。打開之后直接來到“Assembly-Assembly”菜單,如圖1
該菜單下面包含三個數(shù)據(jù)選擇框:Genome Information; Remapping Options; Data.
首先需要在Genome Information下面選擇物種信息和需要轉(zhuǎn)換的基因組版本蠢挡。這里需要說明的是直接點擊空白框不會出現(xiàn)下拉菜單弧岳,需要先輸入索引詞凳忙,比如我要轉(zhuǎn)換的基因組來自人類,就先輸入”Homo”, 就可以看到想要的結(jié)果禽炬。接下來就是在”Source Assembly”和”Target Assembly”中分別選擇當(dāng)前基因組版本和目標(biāo)基因版本涧卵。這里我們以GRCh37.p13轉(zhuǎn)換到GRCh38.p7為例 (目前NCBI dbSNP數(shù)據(jù)庫僅保存這兩個版本的基因組坐標(biāo))。如圖2腹尖,選中對應(yīng)坐標(biāo)柳恐,點擊即可。
接下來的”Remapping Options”只要使用默認(rèn)參數(shù)即可热幔,無需進(jìn)行更改乐设。
(2)Remap數(shù)據(jù)輸入格式
最關(guān)鍵的是最后一步”Data”的選擇。主要有兩個注意事項:數(shù)據(jù)輸入格式和數(shù)據(jù)文件的制作绎巨。網(wǎng)站中提供的數(shù)據(jù)輸入格式有很多近尚,但我這里推薦使用”BED”類型格式輸入〕∏冢”BED”文件格式有專門的網(wǎng)站介紹戈锻,因為該格式能被很多生信軟件識別,讀者可以參考UCSC網(wǎng)站對其的具體說明(https://genome.ucsc.edu/FAQ/FAQformat.html#format1)却嗡。簡單來說舶沛,”BED”文件只包含三列即可:Chromosome, Start position, end position. 對于SNP來說,它的位置只有一個窗价,如rs782212的GRCh37.p13位置為chromosome 1如庭,72945666。那么該如何在BED文件中存儲它的位置呢撼港?對于SNP坪它,Remap的規(guī)則是在”end position”中存放對應(yīng)位置,”start position” 只需在”end position”基礎(chǔ)上減去1即可帝牡。其他類型的突變往毡,只需傳入有chr,start,end 的bed文件或這輸入坐標(biāo)即可,如圖3:
點擊”Submit”后靶溜,等待頁面自動更新后即可出現(xiàn)結(jié)果頁面开瞭,如圖4。
(3)Remap結(jié)果展示
我們可以以Excel的格式下載結(jié)果文件罩息,點擊”Download Full Mapping Report”即可嗤详。Remap給出的結(jié)果十分豐富,每一個input在輸出的文件里存儲一行瓷炮,前12列以”source”開頭的是坐標(biāo)轉(zhuǎn)換之前的信息葱色,后面6列以”mapped”等開頭的是轉(zhuǎn)換后的信息,其中”mapped_id”, “mapped_start”和”mapped_stop”是我們需要的關(guān)鍵信息娘香。