ChromHMM——組蛋白修飾知多少

作者:Jenny
審稿:童蒙
編輯:amethyst

ChromHMM是2012年由來(lái)自麻省理工學(xué)院布羅德研究所和美國(guó)馬薩諸塞州劍橋市哈佛大學(xué)Jason Ernst和Manolis Kellis兩人發(fā)表在Nature雜志上作媚,值得注意的是全文僅一頁(yè)篇幅(一張F(tuán)ig)菱皆。但該軟件的強(qiáng)大和實(shí)用讓它這么多年來(lái)一直被生信人員頻繁使用掰读。

一备恤、組蛋白修飾簡(jiǎn)介

在介紹ChromHMM之前,讓我們先簡(jiǎn)單了解下組蛋白修飾耀石。我們知道組蛋白修飾的種類繁多九妈,包括乙酰化(Ac)呻拌、甲基化(Me)、泛素化(Ub)睦焕、類泛素化(Su)和磷酸化(P)藐握。大部分研究的是發(fā)生在H3組蛋白上的乙酰化(Ac)和甲基化(Me)垃喊。下面表格給大家展示了常見的組蛋白修飾的特點(diǎn)及其與三維基因組結(jié)果的關(guān)系猾普,基本上大家了解以下幾種便可。

二本谜、軟件安裝

ChromHMM軟件是用Java語(yǔ)言編譯的初家,安裝使用超級(jí)簡(jiǎn)單。首先我們進(jìn)入網(wǎng)站下載ChromHMM software (v1.20)(http://compbio.mit.edu/ChromHMM/ChromHMM.zip)乌助。

unzip ChromHMM.zip
cd ChromHMM
ls -al *
java -mx1600M -jar ChromHMM.jar#測(cè)試能否運(yùn)行

解壓后我們可以查看到有以上文件溜在,按照命令依次運(yùn)行,最后java沒(méi)有報(bào)錯(cuò)也就OK他托。

三掖肋、軟件實(shí)操

運(yùn)行java -mx1600M -jar ChromHMM.jar我們可以看到以下輸出冶匹,其實(shí)我們主要是使用BinarizeBam和LearnModel模式箱残,BinarizeBed模式跟BinarizeBam類似,只不過(guò)是用bam轉(zhuǎn)成bed文件作為輸入痊土。小編這里習(xí)慣BinarizeBam模式把篓,其他模式的使用和參數(shù)大家可以去閱讀ChromHMM_manual.pdf纫溃,說(shuō)明文檔里都有很詳細(xì)的解釋。

01.數(shù)據(jù)準(zhǔn)備

mkdir data data/bam
建立以上文件目錄纸俭,并在data下手動(dòng)生成cellmarkfiletablebams_Input.txt文件皇耗。將要用的ChIPseq bam文件都放在data/bam目錄下南窗。以下是文件內(nèi)容揍很。

ls data/bam/
cat data/cellmarkfiletablebams_Input.txt#文件用tab隔開

輸出:

H3K4me1.bam、H3K4me3.bam万伤、H3K27ac.bam窒悔、H3K9me3、H3K36me3敌买、H3K27me3简珠、Input.bam

02. BinarizeBam模式

1java -mx1600M -jar ChromHMM.jar BinarizeBam -f 2 -t outputsignaldir -paired -b 200 data/chrom.size data/bam/ data/cellmarkfiletablebams_Input.txt Input_FC2

參數(shù)說(shuō)明:
-f 2表示與Input相比的信號(hào)比閾值(-f foldthresh);
-t outputsignaldir是信號(hào)輸出目錄,改參數(shù)可以不設(shè)聋庵,文件后面不需用到膘融;
-paired 如何是paired-end測(cè)序需要設(shè)置該參數(shù);
-b 是binsize的大小祭玉,一般設(shè)置200bp氧映;
data/chrom.size 是基因組染色體大小,2列脱货;

Input_FC2 是輸出的主要目錄結(jié)果岛都,后面要用到,格式如下振峻,該文件也可以自己編程用peaks文件得到臼疫,這樣就不用運(yùn)行BinarizeBam模式,其中0表示在沒(méi)有信號(hào)扣孟,1表示有信號(hào)烫堤。

03.LearnModel模式

unset DISPLAY #有時(shí)候會(huì)出現(xiàn)Can't connect to X11 window server保存,該命名可以解決問(wèn)題
java -mx1600M -jar ChromHMM.jar LearnModel -b 200 Input_FC2 Output_FC2_15 15 hg19

Input_FC2:輸入目錄凤价,BinarizeBam模式得到的*_binary.txt塔逃,每條染色體一個(gè),一個(gè)binsize一樣料仗;
-b 200:binsize大小湾盗,要與Input_FC2文件保持一致;
Output_FC2_15:輸出目錄立轧;
15:染色體狀態(tài)state個(gè)數(shù)格粪,可以自己設(shè)置,如果組蛋白修飾種類較少氛改,建議設(shè)置10帐萎;
hg19:物種的參考基因組,注意必須要ChromHMM軟件支持的胜卤,如果沒(méi)有的話需要自己建注釋庫(kù)疆导,詳見4部分。
點(diǎn)擊Output_FC2_15/webpage_15.html,可以直接打開網(wǎng)頁(yè)查看結(jié)果葛躏。
其中segments.bed為結(jié)果最終文件澈段,而dense.bed可以直接用IGV可視化。
結(jié)果解讀詳見第5部分舰攒。

四败富、其他物種注釋庫(kù)的建立

剛才有提到過(guò),如果涉及到ChromHMM軟件不支持的基因組是不是就不能跑了摩窃,這種狀況有辦法解決兽叮,只需要在以下三個(gè)文件下手動(dòng)生成自己物種相應(yīng)基因組注釋文件就可以。

cd ChromHMM
ls -al ANCHORFILES CHROMSIZES COORDS

以上為目前軟件下載后支持的物種基因組版本。

假如我們要建立蜜蜂物種Amel_4.5基因組怎么辦鹦聪?

很簡(jiǎn)單账阻,只需要在以下目錄參考其他物種文件格式生成以下目錄和文件就行,注意格式一定要對(duì)泽本。

備注:

所有文件命名一定要規(guī)范宰僧,比如我們已經(jīng)將基因組版本定義為Amel_4.5,那么所有目錄和文件必須要有Amel_4.5字樣观挎,要不然軟件無(wú)法自動(dòng)識(shí)別琴儿。

CHROMSIZES(染色體大小文件夾) ANCHORFILES(基因TSS和TES位置文件)必須要有,COORDS文件下的各category數(shù)目和種類都可以自己設(shè)計(jì)嘁捷,缺少某些不影響軟件的運(yùn)行造成,category越多越全,對(duì)結(jié)果解讀的幫助越大雄嚣。建議都用bed3的格式晒屎。

五、結(jié)果解讀

cd ChromHMM
java -mx1600M -jar ChromHMM.jar -b 200 LearnModel SAMPLEDATA_HG18 OUTPUTSAMPLE 10 hg18

前面說(shuō)了這么多缓升,其實(shí)如果要看軟件結(jié)果可以直接用ChromHMM給的測(cè)試數(shù)據(jù)AMPLEDATA_HG18(已生成*binary.txt.gz文件)鼓鲁,按照以上命名得到輸出目錄OUTPUTSAMPLE。打開OUTPUTSAMPLE/webpage_10.html就可以查看結(jié)果港谊。

結(jié)題報(bào)告包括運(yùn)行命名參數(shù)和主要的結(jié)果圖展示骇吭,其中Emission Parameter 文件是最主要的結(jié)果圖,表示定義的10種state與各組蛋白修飾歧寺,CTCF的關(guān)系燥狰,其中顏色越深,代表該state與該ChIPseq數(shù)據(jù)越相關(guān)斜筐。染色體狀態(tài)State的命名可以結(jié)合以上圖的結(jié)果綜合考慮龙致。

此外:OUTPUTSAMPLE/GM12878_10_segments.bed是全基因組state的位置信息文件。

OUTPUTSAMPLE/GM12878_10_dense.bed可以直接用IGV可視化顷链。

最后有關(guān)ChromHMM軟件的應(yīng)用及其State命名大家可以去閱讀這篇文獻(xiàn):Integrative analysis of 111 reference human epigenomes. Nature 518, 317–330 (2015)目代,該文章定義了人111種常見細(xì)胞或者正常組織的ChromHMM state結(jié)果。數(shù)據(jù)下載鏈接https://egg2.wustl.edu/roadmap/web_portal/chr_state_learning.html#core_15state

六嗤练、參考文獻(xiàn)

1榛了、Ernst J, Kellis M. ChromHMM: automating chromatin-state discovery and characterization. Nature Methods, 9:215-216, 2012.
2、http://compbio.mit.edu/ChromHMM/
3潭苞、Kundaje, A., Meuleman, W., Ernst, J. et al. Integrative analysis of 111 reference human epigenomes. Nature 518, 317–330 (2015). https://doi.org/10.1038/nature14248

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末忽冻,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子此疹,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,366評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件蝗碎,死亡現(xiàn)場(chǎng)離奇詭異湖笨,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)蹦骑,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,521評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門慈省,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人眠菇,你說(shuō)我怎么就攤上這事边败。” “怎么了捎废?”我有些...
    開封第一講書人閱讀 165,689評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵笑窜,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我登疗,道長(zhǎng)排截,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,925評(píng)論 1 295
  • 正文 為了忘掉前任辐益,我火速辦了婚禮断傲,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘智政。我一直安慰自己认罩,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,942評(píng)論 6 392
  • 文/花漫 我一把揭開白布续捂。 她就那樣靜靜地躺著猜年,像睡著了一般。 火紅的嫁衣襯著肌膚如雪疾忍。 梳的紋絲不亂的頭發(fā)上乔外,一...
    開封第一講書人閱讀 51,727評(píng)論 1 305
  • 那天,我揣著相機(jī)與錄音一罩,去河邊找鬼杨幼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛聂渊,可吹牛的內(nèi)容都是我干的差购。 我是一名探鬼主播,決...
    沈念sama閱讀 40,447評(píng)論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼汉嗽,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼欲逃!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起饼暑,我...
    開封第一講書人閱讀 39,349評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤稳析,失蹤者是張志新(化名)和其女友劉穎洗做,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體彰居,經(jīng)...
    沈念sama閱讀 45,820評(píng)論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡诚纸,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,990評(píng)論 3 337
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了陈惰。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片畦徘。...
    茶點(diǎn)故事閱讀 40,127評(píng)論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖抬闯,靈堂內(nèi)的尸體忽然破棺而出井辆,到底是詐尸還是另有隱情,我是刑警寧澤溶握,帶...
    沈念sama閱讀 35,812評(píng)論 5 346
  • 正文 年R本政府宣布杯缺,位于F島的核電站,受9級(jí)特大地震影響奈虾,放射性物質(zhì)發(fā)生泄漏夺谁。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,471評(píng)論 3 331
  • 文/蒙蒙 一肉微、第九天 我趴在偏房一處隱蔽的房頂上張望匾鸥。 院中可真熱鬧,春花似錦碉纳、人聲如沸勿负。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,017評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)奴愉。三九已至,卻和暖如春铁孵,著一層夾襖步出監(jiān)牢的瞬間锭硼,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,142評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工蜕劝, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留檀头,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,388評(píng)論 3 373
  • 正文 我出身青樓岖沛,卻偏偏與公主長(zhǎng)得像暑始,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子婴削,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,066評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容