【三維基因組】Hi-C call loops迅栅?-choose juicer ! 之 step1

Juicer Tools 簡介以及前期處理

Juicer 軟件分析流程以及幾大模塊,如下圖所示:

image

JUICER主要分為三個模塊 JUICER Tools读存,JUICEBOX,STAW
JUICER Tools 主要用于數(shù)據(jù)分析让簿,特征注釋
JUICEBOX 主要用于Hi-C可視化

image.png

STAW 主要是數(shù)據(jù)說明
<u style="text-decoration: underline;">juicer 軟件的基礎(chǔ)文件為.hic 文件尔当,這是一類高度壓縮的二進(jìn)制文件存儲數(shù)據(jù)的交互信息蹂安。</u>

Juicer可以做點(diǎn)什么呢?
juicer 可以call AB call TAD call loop 以及對loop進(jìn)行注釋以及motif 識別田盈,是一款集大成者的軟件,如下圖所示:

image.png

那么 .hic 文件是如何生成的呢简软?
我們一般用 juicer_tools 的pre 模塊來生成.hic文件述暂,輸入文件是HiC Pro vaildpairs 文件(注意vaild Paires 文件格式要微調(diào)參見 hicpro2juicebox.sh
pre_vaildPairs 格式:
Usage:
必須輸入的文件:infile path ,outfile path,genomesize
infile: 存儲交互信息的text文件.具體格式如下:
注意要以空格分隔
格式一:
<readname> <str1> <chr1> <pos1> <frag1> <str2> <chr2> <pos2> <frag2> <mapq1> <mapq2>
格式二:
<str1> <chr1> <pos1> <frag1> <str2> <chr2> <pos2> <frag2>

        str = strand (0 for forward, anything else for reverse)
        chr = chromosome (must be a chromosome in the genome)
        pos = position
        frag = restriction site fragment

#其他格式請參考https://github.com/theaidenlab/juicer/wiki/Pre#file-format

outfile: 輸出文件的路徑畦韭,注意文件名要以.hic結(jié)尾
genomesize:兩列 染色體名稱以及染色體大小
簡單使用實(shí)例:
java -Xmx10g -jar juicebox_tools.jar pre chrsvalidpair_sam1.chr10.validpairs.gz sam1.chr10.hic chrom_mm9.sizes

chrsvalidpair_sam1.chr10.validpairs.gz :

chrom_mm9.sizes:
兩列: 染色體編號 染色體大小

chr1    197195432
chr2    181748087
chr3    159599783
chr4    155630120
chr5    152537259
chr6    149517037
chr7    152524553

詳情請見:

java  -Djava.io.tmpdir=/tmp   -Djava.awt.headless=true   -Djava.library.path=juice/lib64.   -Xmx8000m -Xms5000m   -jar   juicer_tools.1.7.5_linux_x64_jcuda.0.8.jar   pre   chrsvalidpair_sam1.chr10.validpairs.gz     sam1.chr10.hic     chrom_mm9.sizes

可選參數(shù):
-d 只計(jì)算染色體內(nèi)的交互 默認(rèn)false
-f 根據(jù)酶切片段計(jì)算 需要 restriction site file
-m <int>只輸出reads count 大于threadthod 的
-q <int>通過MAPQ score 過濾一部分?jǐn)?shù)據(jù)只輸出 MAPQ score大于或等于q的 [not set]
-c <chromosome id="">只計(jì)算某一條染色體 [not set]
-n 不對矩陣進(jìn)行標(biāo)準(zhǔn)化
…</chromosome></int></int>

如果前期pre 處理的時候 我們選擇不進(jìn)行標(biāo)準(zhǔn)化,生成了.hic文件据过,而后期我們又想進(jìn)行標(biāo)準(zhǔn)化妒挎,該如何操作呢西饵?
我們可以使用addNorm模塊
簡單用法如下:
java -Xmx8000m -Xms5000m -jar juicer_tools.1.7.5_linux_x64_jcuda.0.8.jar addNorm sam1.chr10.hic -w 10000 -F
參數(shù)說明:
input_HiC_file :輸入.hic file
-w : Smallest resolution to calculate genome-wide resolution
-F :不對以酶切片段為分辨率的矩陣進(jìn)行標(biāo)準(zhǔn)化
-d: For genome-wide normalization, include intra-chromosomal matrices; by default, inter-only matrices are used.
結(jié)果:.hic file 內(nèi)容發(fā)生了改變

java -Djava.io.tmpdir= /tmp  -Djava.awt.headless=true   -Djava.library.path=juice/lib64    -Xmx8000m -Xms5000m -jar   juicer_tools.1.7.5_linux_x64_jcuda.0.8.jar  addNorm   sam1.chr10.hic -w 10000 -F 

其核心代碼:
https://github.com/theaidenlab/Juicebox/tree/master/src/juicebox/tools

此外針對Juicer內(nèi)嵌的標(biāo)準(zhǔn)化方法眷柔,以下是詳細(xì)說明:
Normalization of Hi-C maps

To normalize the Hi-C maps, several methods are implemented.

Iterative Correction (IC) [1] This method normalize the raw contact map by removing biases from experimental procedure. This is an method of matrix balancing, however, in the normalized, sum of rows and columns are not equal to one.
Knight-Ruiz Matrix Balancing (KR) [2] The Knight-Ruiz (KR) matrix balancing is a fast algorithm to normalize a symmetric matrix. A doubly stochastic matrix is obtained after this normalization. In this matrix, sum of rows and columns are equal to one.
Vanilla-Coverage (VC) [3] This method was first used for inter-chromosomal map. Later it was used for intra-chromosomal map by Rao et al., 2014. This is a simple method where at first each element is divided by sum of respective row and subsequently divided by sum of respective column.
來看一下標(biāo)準(zhǔn)化的效果~~


image.png

References
[1] Imakaev et al. Iterative correction of Hi-C data reveals hallmarks of chromosome organization. Nature Methods 9, 999–1003 (2012).
[2] Knight P and D. Ruiz. A fast algorithm for matrix balancing. IMA J Numer Anal (2013) 33 (3): 1029-1047.
[3] Lieberman-Aiden et al. Comprehensive mapping of long-range interactions reveals folding principles of the human genome. Science (2009) 326 : 289-293.

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市喳坠,隨后出現(xiàn)的幾起案子茂蚓,更是在濱河造成了極大的恐慌,老刑警劉巖聋涨,帶你破解...
    沈念sama閱讀 206,126評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異脊凰,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)狸涌,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評論 2 382
  • 文/潘曉璐 我一進(jìn)店門最岗,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人惶楼,你說我怎么就攤上這事〖呔瑁” “怎么了?”我有些...
    開封第一講書人閱讀 152,445評論 0 341
  • 文/不壞的土叔 我叫張陵豹储,是天一觀的道長淘这。 經(jīng)常有香客問我,道長铝穷,這世上最難降的妖魔是什么钠怯? 我笑而不...
    開封第一講書人閱讀 55,185評論 1 278
  • 正文 為了忘掉前任晦炊,我火速辦了婚禮,結(jié)果婚禮上断国,老公的妹妹穿的比我還像新娘。我一直安慰自己稳衬,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,178評論 5 371
  • 文/花漫 我一把揭開白布碧信。 她就那樣靜靜地躺著输涕,像睡著了一般。 火紅的嫁衣襯著肌膚如雪莱坎。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 48,970評論 1 284
  • 那天碴卧,我揣著相機(jī)與錄音,去河邊找鬼住册。 笑死瓮具,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的名党。 我是一名探鬼主播,決...
    沈念sama閱讀 38,276評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼耳幢,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了睛藻?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 36,927評論 0 259
  • 序言:老撾萬榮一對情侶失蹤店印,失蹤者是張志新(化名)和其女友劉穎倒慧,沒想到半個月后讥邻,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體院峡,經(jīng)...
    沈念sama閱讀 43,400評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡照激,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,883評論 2 323
  • 正文 我和宋清朗相戀三年盹牧,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片汰寓。...
    茶點(diǎn)故事閱讀 37,997評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖跃闹,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情望艺,我是刑警寧澤,帶...
    沈念sama閱讀 33,646評論 4 322
  • 正文 年R本政府宣布找默,位于F島的核電站吼驶,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏蟹演。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,213評論 3 307
  • 文/蒙蒙 一轨帜、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧蚌父,春花似錦、人聲如沸苟弛。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至窘哈,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間滚婉,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評論 1 260
  • 我被黑心中介騙來泰國打工远剩, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人骇窍。 一個月前我還...
    沈念sama閱讀 45,423評論 2 352
  • 正文 我出身青樓瓜晤,卻偏偏與公主長得像痢掠,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子只估,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,722評論 2 345