做研究用hg19orhg38基因組材鹦?一行代碼將bw轉(zhuǎn)hg38

有沒(méi)有想過(guò)這個(gè)問(wèn)題:做研究的時(shí)候該用hg19還是hg38基因組碟狞?


人類(lèi)基因組版本現(xiàn)狀

對(duì)于同一個(gè)物種,數(shù)據(jù)庫(kù)中存在不同的基因組版本缓待,以人類(lèi)(Homo Sapiens)為例蚓耽,UCSC基因組瀏覽器中有多個(gè)版本:Dec. 2013 (GRCh38/hg38)、Feb. 2009 (GRCh37/hg19)旋炒、Mar. 2006 (NCBI36/hg38)等步悠,括號(hào)前面的是組裝(Assembly)日期。是不是有點(diǎn)驚訝瘫镇!都2022年了鼎兽,默認(rèn)的基因組還是9年前的,更令人驚訝的是铣除,好多網(wǎng)站現(xiàn)在默認(rèn)使用的還是hg19谚咬,也就是13年前的基因組版本,更離譜的是尚粘,GEO數(shù)據(jù)庫(kù)中存在大量hg19择卦,甚至hg18的數(shù)據(jù)集。那么在GEO數(shù)據(jù)挖掘的在日常工作中郎嫁,經(jīng)常會(huì)遇見(jiàn)以下兩種場(chǎng)景:

1)hg19 -> hg38互捌,例如文獻(xiàn)中使用的是hg19,你自己的測(cè)序數(shù)據(jù)是hg38

2)hg38 -> hg19行剂,例如你師兄的師兄留給你的數(shù)據(jù)是hg19秕噪,而文獻(xiàn)是hg38

解決方案:UCSC提供的一個(gè)工具liftover


Liftover簡(jiǎn)介

http://genome.ucsc.edu/cgi-bin/hgLiftOver

將不同版本的染色體上的位置一一對(duì)應(yīng),官方定義為:This tool converts genome coordinates and genome annotation files between assemblies.

不難想象厚宰,該工具至少需要3個(gè)參數(shù):hg19的坐標(biāo)文件腌巾,hg38的坐標(biāo)文件遂填,以及兩者之間關(guān)系的數(shù)據(jù)庫(kù)文件(chain文件)


bw文件簡(jiǎn)介

bw文件是bigwig的縮寫(xiě),存儲(chǔ)了坐標(biāo)及對(duì)應(yīng)信號(hào)信息澈蝙。然而吓坚,bw是一種二進(jìn)制文件,不能用liftover直接處理灯荧。因此礁击,要將hg19基因組的bw文件轉(zhuǎn)成hg38,需要找個(gè)代理逗载,這個(gè)代理就是bedgraph文件哆窿,包含4列,例如

chr1 100 200 5.2

表示:1號(hào)染色體100到200區(qū)域中的信號(hào)是5.2

bedgraph格式可以被liftover直接處理厉斟。

圖1. 轉(zhuǎn)換示意圖


轉(zhuǎn)換代碼

前人栽樹(shù)后人乘涼挚躯,python CrossMap可以直接處理bw文件的轉(zhuǎn)化問(wèn)題。

因此一行代碼的轉(zhuǎn)化過(guò)程如下:

1擦秽,安裝CrossMap

pip install CrossMap

2码荔,下載hg19-hg39轉(zhuǎn)化對(duì)應(yīng)的數(shù)據(jù)庫(kù)文件

http://hgdownload.cse.ucsc.edu/goldenpath/hg19/liftOver/hg19ToHg38.over.chain.gz

3,一行代碼轉(zhuǎn)化

CrossMap.py bigwig hg19ToHg38.over.chain input.bw output.bw


然后就可以導(dǎo)入到IGV進(jìn)行查看和比較了感挥。

當(dāng)然缩搅,也可以逐步進(jìn)行

bigWigToBedGraph input.bw input.bedGraph

liftOver input.bedGraph hg19ToHg38.over.chain input_hg38.bedgraph

fetchChromSizes hg38 > hg38.chrom.sizes

sort -k1,1 -k2,2n input_hg38.bedgraph > input_hg38.sorted.bedgraph

bedGraphToBigWig input_hg38.sorted.bedgraph hg38.chrom.sizes output.bw


其中bigWigToBedGraphfetchChromSizesbedGraphToBigWig都可以在UCSC下載

http://hgdownload.soe.ucsc.edu/admin/exe/linux.x86_64/


最后,讓我們來(lái)檢驗(yàn)下hg19和hg38的轉(zhuǎn)換效果吧:

圖2. Hg19可視化

3. Hg38可視化

一模一樣戒职,肉眼看不出差別,說(shuō)明結(jié)果正確。

注意:有些位點(diǎn)沒(méi)有對(duì)應(yīng)關(guān)系的話噪猾,會(huì)轉(zhuǎn)化失敗霉祸,因此最佳解決方案還是使用hg38基因組從原始數(shù)據(jù)重新處理。


回答開(kāi)頭的問(wèn)題:

現(xiàn)在包括UCSC袱蜡、TCGA丝蹭、Ensembl等大型數(shù)據(jù)庫(kù)均以hg38作為默認(rèn)基因組,因此坪蚁,用hg38就對(duì)了奔穿,還在用hg19的研究者,請(qǐng)趕緊升級(jí)敏晤!

數(shù)據(jù)分析的時(shí)候贱田,一定要看清楚,網(wǎng)上的數(shù)據(jù)到底是hg38還是hg19嘴脾!因?yàn)槌舜笮蛿?shù)據(jù)庫(kù)外男摧,其他的小型數(shù)據(jù)庫(kù)蔬墩、網(wǎng)站經(jīng)常是發(fā)了文章就不再更新,甚至是發(fā)了文章6個(gè)月以后就找不到那種耗拓,一定要“三思而后行”拇颅,避免浪費(fèi)時(shí)間!

微生信助力發(fā)文章乔询,谷歌引用590+樟插,知網(wǎng)引用450+


?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市竿刁,隨后出現(xiàn)的幾起案子黄锤,更是在濱河造成了極大的恐慌,老刑警劉巖们妥,帶你破解...
    沈念sama閱讀 206,968評(píng)論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件猜扮,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡监婶,警方通過(guò)查閱死者的電腦和手機(jī)旅赢,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,601評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)惑惶,“玉大人煮盼,你說(shuō)我怎么就攤上這事〈郏” “怎么了僵控?”我有些...
    開(kāi)封第一講書(shū)人閱讀 153,220評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)鱼冀。 經(jīng)常有香客問(wèn)我报破,道長(zhǎng),這世上最難降的妖魔是什么千绪? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 55,416評(píng)論 1 279
  • 正文 為了忘掉前任充易,我火速辦了婚禮,結(jié)果婚禮上荸型,老公的妹妹穿的比我還像新娘盹靴。我一直安慰自己,他們只是感情好瑞妇,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,425評(píng)論 5 374
  • 文/花漫 我一把揭開(kāi)白布稿静。 她就那樣靜靜地躺著,像睡著了一般辕狰。 火紅的嫁衣襯著肌膚如雪改备。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 49,144評(píng)論 1 285
  • 那天蔓倍,我揣著相機(jī)與錄音绍妨,去河邊找鬼润脸。 笑死,一個(gè)胖子當(dāng)著我的面吹牛他去,可吹牛的內(nèi)容都是我干的毙驯。 我是一名探鬼主播,決...
    沈念sama閱讀 38,432評(píng)論 3 401
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼灾测,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼爆价!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起媳搪,我...
    開(kāi)封第一講書(shū)人閱讀 37,088評(píng)論 0 261
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤铭段,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后秦爆,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體序愚,經(jīng)...
    沈念sama閱讀 43,586評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,028評(píng)論 2 325
  • 正文 我和宋清朗相戀三年等限,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了爸吮。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,137評(píng)論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡望门,死狀恐怖形娇,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情筹误,我是刑警寧澤桐早,帶...
    沈念sama閱讀 33,783評(píng)論 4 324
  • 正文 年R本政府宣布,位于F島的核電站厨剪,受9級(jí)特大地震影響哄酝,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜祷膳,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,343評(píng)論 3 307
  • 文/蒙蒙 一陶衅、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧钾唬,春花似錦、人聲如沸侠驯。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,333評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)儒士。三九已至,卻和暖如春檩坚,著一層夾襖步出監(jiān)牢的瞬間诅福,已是汗流浹背薯鳍。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,559評(píng)論 1 262
  • 我被黑心中介騙來(lái)泰國(guó)打工斩松, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留乳幸,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,595評(píng)論 2 355
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親剩膘。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,901評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容