作者:Jenny
審稿:童蒙
編輯:amethyst
ChromHMM是2012年由來(lái)自麻省理工學(xué)院布羅德研究所和美國(guó)馬薩諸塞州劍橋市哈佛大學(xué)Jason Ernst和Manolis Kellis兩人發(fā)表在Nature雜志上作媚,值得注意的是全文僅一頁(yè)篇幅(一張F(tuán)ig)菱皆。但該軟件的強(qiáng)大和實(shí)用讓它這么多年來(lái)一直被生信人員頻繁使用掰读。
一备恤、組蛋白修飾簡(jiǎn)介
在介紹ChromHMM之前,讓我們先簡(jiǎn)單了解下組蛋白修飾耀石。我們知道組蛋白修飾的種類繁多九妈,包括乙酰化(Ac)呻拌、甲基化(Me)、泛素化(Ub)睦焕、類泛素化(Su)和磷酸化(P)藐握。大部分研究的是發(fā)生在H3組蛋白上的乙酰化(Ac)和甲基化(Me)垃喊。下面表格給大家展示了常見的組蛋白修飾的特點(diǎn)及其與三維基因組結(jié)果的關(guān)系猾普,基本上大家了解以下幾種便可。
二本谜、軟件安裝
ChromHMM軟件是用Java語(yǔ)言編譯的初家,安裝使用超級(jí)簡(jiǎn)單。首先我們進(jìn)入網(wǎng)站下載ChromHMM software (v1.20)(http://compbio.mit.edu/ChromHMM/ChromHMM.zip)乌助。
unzip ChromHMM.zip
cd ChromHMM
ls -al *
java -mx1600M -jar ChromHMM.jar#測(cè)試能否運(yùn)行
解壓后我們可以查看到有以上文件溜在,按照命令依次運(yùn)行,最后java沒(méi)有報(bào)錯(cuò)也就OK他托。
三掖肋、軟件實(shí)操
運(yùn)行java -mx1600M -jar ChromHMM.jar我們可以看到以下輸出冶匹,其實(shí)我們主要是使用BinarizeBam和LearnModel模式箱残,BinarizeBed模式跟BinarizeBam類似,只不過(guò)是用bam轉(zhuǎn)成bed文件作為輸入痊土。小編這里習(xí)慣BinarizeBam模式把篓,其他模式的使用和參數(shù)大家可以去閱讀ChromHMM_manual.pdf纫溃,說(shuō)明文檔里都有很詳細(xì)的解釋。
01.數(shù)據(jù)準(zhǔn)備
mkdir data data/bam
建立以上文件目錄纸俭,并在data下手動(dòng)生成cellmarkfiletablebams_Input.txt文件皇耗。將要用的ChIPseq bam文件都放在data/bam目錄下南窗。以下是文件內(nèi)容揍很。
ls data/bam/
cat data/cellmarkfiletablebams_Input.txt#文件用tab隔開
輸出:
H3K4me1.bam、H3K4me3.bam万伤、H3K27ac.bam窒悔、H3K9me3、H3K36me3敌买、H3K27me3简珠、Input.bam
02. BinarizeBam模式
1java -mx1600M -jar ChromHMM.jar BinarizeBam -f 2 -t outputsignaldir -paired -b 200 data/chrom.size data/bam/ data/cellmarkfiletablebams_Input.txt Input_FC2
參數(shù)說(shuō)明:
-f 2表示與Input相比的信號(hào)比閾值(-f foldthresh);
-t outputsignaldir是信號(hào)輸出目錄,改參數(shù)可以不設(shè)聋庵,文件后面不需用到膘融;
-paired 如何是paired-end測(cè)序需要設(shè)置該參數(shù);
-b 是binsize的大小祭玉,一般設(shè)置200bp氧映;
data/chrom.size 是基因組染色體大小,2列脱货;
Input_FC2 是輸出的主要目錄結(jié)果岛都,后面要用到,格式如下振峻,該文件也可以自己編程用peaks文件得到臼疫,這樣就不用運(yùn)行BinarizeBam模式,其中0表示在沒(méi)有信號(hào)扣孟,1表示有信號(hào)烫堤。
03.LearnModel模式
unset DISPLAY #有時(shí)候會(huì)出現(xiàn)Can't connect to X11 window server保存,該命名可以解決問(wèn)題
java -mx1600M -jar ChromHMM.jar LearnModel -b 200 Input_FC2 Output_FC2_15 15 hg19
Input_FC2:輸入目錄凤价,BinarizeBam模式得到的*_binary.txt塔逃,每條染色體一個(gè),一個(gè)binsize一樣料仗;
-b 200:binsize大小湾盗,要與Input_FC2文件保持一致;
Output_FC2_15:輸出目錄立轧;
15:染色體狀態(tài)state個(gè)數(shù)格粪,可以自己設(shè)置,如果組蛋白修飾種類較少氛改,建議設(shè)置10帐萎;
hg19:物種的參考基因組,注意必須要ChromHMM軟件支持的胜卤,如果沒(méi)有的話需要自己建注釋庫(kù)疆导,詳見4部分。
點(diǎn)擊Output_FC2_15/webpage_15.html,可以直接打開網(wǎng)頁(yè)查看結(jié)果葛躏。
其中segments.bed為結(jié)果最終文件澈段,而dense.bed可以直接用IGV可視化。
結(jié)果解讀詳見第5部分舰攒。
四败富、其他物種注釋庫(kù)的建立
剛才有提到過(guò),如果涉及到ChromHMM軟件不支持的基因組是不是就不能跑了摩窃,這種狀況有辦法解決兽叮,只需要在以下三個(gè)文件下手動(dòng)生成自己物種相應(yīng)基因組注釋文件就可以。
cd ChromHMM
ls -al ANCHORFILES CHROMSIZES COORDS
以上為目前軟件下載后支持的物種基因組版本。
假如我們要建立蜜蜂物種Amel_4.5基因組怎么辦鹦聪?
很簡(jiǎn)單账阻,只需要在以下目錄參考其他物種文件格式生成以下目錄和文件就行,注意格式一定要對(duì)泽本。
備注:
所有文件命名一定要規(guī)范宰僧,比如我們已經(jīng)將基因組版本定義為Amel_4.5,那么所有目錄和文件必須要有Amel_4.5字樣观挎,要不然軟件無(wú)法自動(dòng)識(shí)別琴儿。
CHROMSIZES(染色體大小文件夾) ANCHORFILES(基因TSS和TES位置文件)必須要有,COORDS文件下的各category數(shù)目和種類都可以自己設(shè)計(jì)嘁捷,缺少某些不影響軟件的運(yùn)行造成,category越多越全,對(duì)結(jié)果解讀的幫助越大雄嚣。建議都用bed3的格式晒屎。
五、結(jié)果解讀
cd ChromHMM
java -mx1600M -jar ChromHMM.jar -b 200 LearnModel SAMPLEDATA_HG18 OUTPUTSAMPLE 10 hg18
前面說(shuō)了這么多缓升,其實(shí)如果要看軟件結(jié)果可以直接用ChromHMM給的測(cè)試數(shù)據(jù)AMPLEDATA_HG18(已生成*binary.txt.gz文件)鼓鲁,按照以上命名得到輸出目錄OUTPUTSAMPLE。打開OUTPUTSAMPLE/webpage_10.html就可以查看結(jié)果港谊。
結(jié)題報(bào)告包括運(yùn)行命名參數(shù)和主要的結(jié)果圖展示骇吭,其中Emission Parameter 文件是最主要的結(jié)果圖,表示定義的10種state與各組蛋白修飾歧寺,CTCF的關(guān)系燥狰,其中顏色越深,代表該state與該ChIPseq數(shù)據(jù)越相關(guān)斜筐。染色體狀態(tài)State的命名可以結(jié)合以上圖的結(jié)果綜合考慮龙致。
此外:OUTPUTSAMPLE/GM12878_10_segments.bed是全基因組state的位置信息文件。
OUTPUTSAMPLE/GM12878_10_dense.bed可以直接用IGV可視化顷链。
最后有關(guān)ChromHMM軟件的應(yīng)用及其State命名大家可以去閱讀這篇文獻(xiàn):Integrative analysis of 111 reference human epigenomes. Nature 518, 317–330 (2015)目代,該文章定義了人111種常見細(xì)胞或者正常組織的ChromHMM state結(jié)果。數(shù)據(jù)下載鏈接(https://egg2.wustl.edu/roadmap/web_portal/chr_state_learning.html#core_15state)
六嗤练、參考文獻(xiàn)
1榛了、Ernst J, Kellis M. ChromHMM: automating chromatin-state discovery and characterization. Nature Methods, 9:215-216, 2012.
2、http://compbio.mit.edu/ChromHMM/
3潭苞、Kundaje, A., Meuleman, W., Ernst, J. et al. Integrative analysis of 111 reference human epigenomes. Nature 518, 317–330 (2015). https://doi.org/10.1038/nature14248