HiC數(shù)據(jù)分析實戰(zhàn)之Hic-pro

備注來源:

生信技能樹 [生信技能樹](javascript:void(0);) 2018-07-30

參考文章

現(xiàn)在就可以跟我一起來一步步走通Hic數(shù)據(jù)分析流程啦本股,首先回憶一下準(zhǔn)備工作咯。

conda create -n hic  python=2 bowtie2source activate hicconda search hiclabconda install -y sra-tools samtools conda install -y bedtools trim-galoresource activate hicconda install -y numpy scipy matplotlib h5py cython numexpr statsmodels  scikit-learn pandas cd ~ ln -s /data/training/zengjianming/ datamkdir -p /home/zengjianming/data/biosoft/hiclibcd /home/zengjianming/data/biosoft/hiclibpip install https://bitbucket.org/mirnylab/mirnylib/get/tip.tar.gzpip install https://bitbucket.org/mirnylab/hiclib/get/tip.tar.gz ##  17.7MB  , 44kB/smkdir -p /home/zengjianming/data/biosoft/hicprocd /home/zengjianming/data/biosoft/hicpro git clone https://github.com/nservant/HiC-Pro.git ##  46.95 MiB | 134.00 KiB/s, donecd HiC-Pro/mkdir /home/zengjianming/data/biosoft/hicpro/binmkdir -p /data/training/zengjianming/biosoft/hicpro/bin/HiC-Pro_2.10.0mkdir -p /home/zengjianming/bin

再次了解 Hic-pro 軟件

Hic-pro安裝比較麻煩,我就不重復(fù)寫了走敌,大家仔細(xì)查看第3講:流程及軟件

很明顯,前面教程我們講到我們的Hic-pro安裝在:

source activate hic/home/zengjianming/biosoft/hicpro/bin/HiC-Pro_2.10.0/bin/HiC-Pro -h

但是使用的學(xué)員服務(wù)器沒有配置好,導(dǎo)致我的home目錄下面空間不足嚎莉,所以我挪動了data盤下面的空間,這樣就有28T的空間啦沛豌。

所以軟件挪了地方:

/data/training/zengjianming/biosoft/hicpro/bin/HiC-Pro_2.10.0/HiC-Pro/bin/HiC-Pro  --help

然后我們這一講的重點是Hic-pro軟件的使用趋箩。

如果僅僅是看軟件的幫助文檔,會發(fā)現(xiàn)其實非常容易使用加派;

usage : HiC-Pro -i INPUT -o OUTPUT -c CONFIG [-s ANALYSIS_STEP] [-p] [-h] [-v]   -i|--input INPUT : input data folder; Must contains a folder per sample with input files   -o|--output OUTPUT : output folder   -c|--conf CONFIG : configuration file for Hi-C processing

重點就是3個參數(shù)而已叫确,而最重要的當(dāng)然是配置文件的準(zhǔn)備咯。作者給出的示例文件不是一般的復(fù)雜芍锦;

## 記住  /data/training/zengjianming/ 目錄就是 /home/zengjianming/data 目錄竹勉。cat /data/training/zengjianming/biosoft/hicpro/bin/HiC-Pro_2.10.0/HiC-Pro/config-hicpro.txtmkdir -p ~/data/project/hic/cd ~/data/project/hic/

參考基因組

mkdir -p ~/data/project/hic/refcd ~/data/project/hic/ref
wget ftp://ftp.ensemblgenomes.org/pub/bacteria/release-40/fasta/bacteria_20_collection/caulobacter_crescentus_na1000/dna/Caulobacter_crescentus_na1000.ASM2200v1.dna.toplevel.fa.gz
gunzip Caulobacter_crescentus_na1000.ASM2200v1.dna.toplevel.fa.gz
source activate hic
bowtie2-build  Caulobacter_crescentus_na1000.ASM2200v1.dna.toplevel.fa   bacteriacat >genome.sizeChromosome 4016942

測試數(shù)據(jù)

來自于Tung B. K. Le et al. Science 2013 :https://www.ncbi.nlm.nih.gov/sra/?term=srr824846

mkdir -p ~/data/project/hic/fq/s1/cd ~/data/project/hic/fq/s1/858M Jul  3 16:21 SRR824846_Q20L10_1.fastq.gz857M Jul  3 16:22 SRR824846_Q20L10_2.fastq.gz

運行Hic-pro軟件

上面說過使用這個軟件需要修改一個配置文件, 簡單的包括:

BOWTIE2_IDX_PATH = # bowtie2建立的索引所在的路徑娄琉,記住絕對路徑REFERENCE_GENOME = # bowtie2建立的索引GENOME_SIZE = # 一個文件記錄著參考基因組中每條序列的大小次乓,格式為chr01 10000000

復(fù)雜的是GENOME_FRAGMENT =,也就是 HiC消化片段位點文件孽水,這個文件在每個HIC流程中都需要生成檬输,一般HiC建庫的酶為hindiii(A^AGCTT ) 或者dnpiii 生成命令為 /PATH/HiC-Pro-master/bin/utils/digest_genome.py -r hindiii -o Refgenome.fasta

在軟件例子里面是:

GENOME_FRAGMENT = HindIII_resfrag_hg19.bedLIGATION_SITE = AAGCTAGCTT

但是我們這里的測試數(shù)據(jù)是 新月柄桿菌 Caulobacter crescentus , 文章里面 Le TB et al., "High-resolution mapping of the spatial organization of a bacterial chromosome.", Science, 2013 Oct 24;342(6159):731-4 提到的是限制性酶切位點NcoI 也是 用的內(nèi)切酶,其它還有 BamHI匈棘、EcoRI、HindIII析命、NdeI主卫、XhoI, 參考:https://www.biomart.cn/experiment/430/457/741/43956.htm

那么我需要針對特定酶和特定的參考基因組序列來設(shè)置好GENOME_FRAGMENT參數(shù)所需文件逃默。

代碼如下:

mkdir -p ~/data/project/hic/digestcd ~/data/project/hic/digestbin=/data/training/zengjianming/biosoft/hicpro/bin/HiC-Pro_2.10.0/HiC-Pro/bin/utils/digest_genome.py  $bin -r C^CATGG  -o  bacteria.bed ../ref/Caulobacter_crescentus_na1000.ASM2200v1.dna.toplevel.fa 

得到的 bacteria.bed 文件如下;

Chromosome    0   3188    HIC_Chromosome_1    0   +Chromosome    3188    3551    HIC_Chromosome_2    0   +Chromosome    3551    3737    HIC_Chromosome_3    0   +Chromosome    3737    4500    HIC_Chromosome_4    0   +Chromosome    4500    5578    HIC_Chromosome_5    0   +Chromosome    5578    10834   HIC_Chromosome_6    0   +Chromosome    10834   10840   HIC_Chromosome_7    0   +Chromosome    10840   19183   HIC_Chromosome_8    0   +Chromosome    19183   19381   HIC_Chromosome_9    0   +Chromosome    19381   21967   HIC_Chromosome_10   0   +

然后修改配置文件后即可成功運行hicpro軟件啦簇搅。

cd ~/data/project/hic/ source activate hiccp /data/training/zengjianming/biosoft/hicpro/bin/HiC-Pro_2.10.0/HiC-Pro/config-hicpro.txt ./bin=/data/training/zengjianming/biosoft/hicpro/bin/HiC-Pro_2.10.0/HiC-Pro/bin/HiC-Pronohup $bin -i fq -o out -c config-hicpro.txt 1> run.log 2>&1 &

這個配置文件問題簡單完域,重要的地方如下:

BOWTIE2_IDX_PATH = /home/zengjianming/data/project/hic/ref/ REFERENCE_GENOME = bacteriaGENOME_SIZE = /home/zengjianming/data/project/hic/ref/genome.sizePAIR1_EXT = SRR824846_Q20L10_1PAIR2_EXT = SRR824846_Q20L10_2GENOME_FRAGMENT = /home/zengjianming/data/project/hic/digest/bacteria.bedLIGATION_SITE = CCATGG

但是 我遇到的報錯居然是在 input的fastq文件的folder這個參數(shù),太尷尬:https://groups.google.com/forum/#!msg/hic-pro/PrX00iA0N1U/apzlw8ArBwAJ 也就是說每個樣本的fq文件都需要在自己獨立的文件夾下面瘩将。

因為軟件包含的步驟較多吟税,所以會比較耗時!

輸出結(jié)果解讀

所有的輸出,都在自己運行軟件的時候指定的out文件夾下面姿现。

共有bowtie_resultshic_results兩個結(jié)果文件夾肠仪。

其中bowtie_results文件夾下共有三個文件夾:bwt2、bwt2_global和bwt2_local备典,分別是序列比對結(jié)果异旧、染色體間關(guān)聯(lián)比對結(jié)果和染色體內(nèi)部關(guān)聯(lián)比對結(jié)果。其中bwt2文件夾下有一些數(shù)據(jù)統(tǒng)計結(jié)果的輸出文件提佣,如mpairstat文件(如下)吮蛹。

Total_pairs_processed    23546961    100.0Unmapped_pairs    22197   0.094Low_qual_pairs    0   0.0Unique_paired_alignments    17744193    75.357Multiple_pairs_alignments    462162  1.963Pairs_with_singleton    5318409 22.586Low_qual_singleton    0   0.0Unique_singleton_alignments    0   0.0Multiple_singleton_alignments    0   0.0Reported_pairs    17744193    75.357

hic_results文件夾下共有data、matrix以及pic三個文件夾拌屏。

  • data文件夾下是比對上的有效序列對潮针,文件末尾為_allValidPairs;

  • pic文件夾下是各類結(jié)果數(shù)據(jù)統(tǒng)計倚喂;

  • matrix文件夾下分為 iced 和 raw 兩個文件夾每篷,分別標(biāo)準(zhǔn)化后的關(guān)聯(lián)矩陣和初始的關(guān)聯(lián)矩陣。

重點必須是hic_results文件务唐,如下:

hic_results/|-- [  24]  data|   `-- [4.0K]  s1|       |-- [504M]  _bacteria.bwt2pairs.DEPairs|       |-- [ 93K]  _bacteria.bwt2pairs.DumpPairs|       |-- [ 83M]  _bacteria.bwt2pairs.REPairs|       |-- [ 303]  _bacteria.bwt2pairs.RSstat|       |-- [ 73M]  _bacteria.bwt2pairs.SCPairs|       |-- [   0]  _bacteria.bwt2pairs.SinglePairs|       |-- [1.2G]  _bacteria.bwt2pairs.validPairs|       |-- [1.2G]  s1_allValidPairs|       |-- [ 150]  s1_allValidPairs.mergestat|       `-- [ 486]  s1.mRSstat|-- [  24]  matrix|   `-- [  41]  s1|       |-- [  99]  iced|       |   |-- [  85]  1000000|       |   |   |-- [ 275]  s1_1000000_iced.matrix|       |   |   `-- [ 125]  s1_1000000_iced.matrix.biases|       |   |-- [  83]  150000|       |   |   |-- [6.6K]  s1_150000_iced.matrix|       |   |   `-- [ 675]  s1_150000_iced.matrix.biases|       |   |-- [  81]  20000|       |   |   |-- [345K]  s1_20000_iced.matrix|       |   |   `-- [4.9K]  s1_20000_iced.matrix.biases|       |   |-- [  81]  40000|       |   |   |-- [ 86K]  s1_40000_iced.matrix|       |   |   `-- [2.4K]  s1_40000_iced.matrix.biases|       |   `-- [  83]  500000|       |       |-- [ 792]  s1_500000_iced.matrix|       |       `-- [ 225]  s1_500000_iced.matrix.biases|       `-- [  99]  raw|           |-- [  99]  1000000|           |   |-- [ 139]  s1_1000000_abs.bed|           |   |-- [ 165]  s1_1000000.matrix|           |   `-- [  18]  s1_1000000_ord.bed -> s1_1000000_abs.bed|           |-- [  96]  150000|           |   |-- [ 783]  s1_150000_abs.bed|           |   |-- [4.1K]  s1_150000.matrix|           |   `-- [  17]  s1_150000_ord.bed -> s1_150000_abs.bed|           |-- [  93]  20000|           |   |-- [5.9K]  s1_20000_abs.bed|           |   |-- [216K]  s1_20000.matrix|           |   `-- [  16]  s1_20000_ord.bed -> s1_20000_abs.bed|           |-- [  93]  40000|           |   |-- [2.9K]  s1_40000_abs.bed|           |   |-- [ 53K]  s1_40000.matrix|           |   `-- [  16]  s1_40000_ord.bed -> s1_40000_abs.bed|           `-- [  96]  500000|               |-- [ 253]  s1_500000_abs.bed|               |-- [ 469]  s1_500000.matrix|               `-- [  17]  s1_500000_ord.bed -> s1_500000_abs.bed`-- [  24]  pic    `-- [ 188]  s1        |-- [4.9K]  plotHiCContactRanges_s1.pdf        |-- [5.2K]  plotHiCFragment_s1.pdf        |-- [6.3K]  plotHiCFragmentSize_s1.pdf        |-- [5.0K]  plotMappingPairing_s1.pdf        `-- [5.1K]  plotMapping_s1.pdf18 directories, 40 files

因為這個菌參考基因組很小雳攘,才4M左右,所以取500K枫笛,就只有8個bin了吨灭,其實意義不大。

隨便秀一個pdf圖吧刑巧。

image

似乎是還停留在對比對結(jié)果的統(tǒng)計層面上喧兄!

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市啊楚,隨后出現(xiàn)的幾起案子吠冤,更是在濱河造成了極大的恐慌,老刑警劉巖恭理,帶你破解...
    沈念sama閱讀 216,324評論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件拯辙,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機涯保,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,356評論 3 392
  • 文/潘曉璐 我一進店門诉濒,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人夕春,你說我怎么就攤上這事未荒。” “怎么了及志?”我有些...
    開封第一講書人閱讀 162,328評論 0 353
  • 文/不壞的土叔 我叫張陵片排,是天一觀的道長。 經(jīng)常有香客問我速侈,道長率寡,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,147評論 1 292
  • 正文 為了忘掉前任锌畸,我火速辦了婚禮勇劣,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘潭枣。我一直安慰自己比默,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 67,160評論 6 388
  • 文/花漫 我一把揭開白布盆犁。 她就那樣靜靜地躺著命咐,像睡著了一般。 火紅的嫁衣襯著肌膚如雪谐岁。 梳的紋絲不亂的頭發(fā)上醋奠,一...
    開封第一講書人閱讀 51,115評論 1 296
  • 那天,我揣著相機與錄音伊佃,去河邊找鬼窜司。 笑死,一個胖子當(dāng)著我的面吹牛航揉,可吹牛的內(nèi)容都是我干的塞祈。 我是一名探鬼主播,決...
    沈念sama閱讀 40,025評論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼帅涂,長吁一口氣:“原來是場噩夢啊……” “哼议薪!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起媳友,我...
    開封第一講書人閱讀 38,867評論 0 274
  • 序言:老撾萬榮一對情侶失蹤斯议,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后醇锚,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體哼御,經(jīng)...
    沈念sama閱讀 45,307評論 1 310
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,528評論 2 332
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了艇搀。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片尿扯。...
    茶點故事閱讀 39,688評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖焰雕,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情芳杏,我是刑警寧澤矩屁,帶...
    沈念sama閱讀 35,409評論 5 343
  • 正文 年R本政府宣布,位于F島的核電站爵赵,受9級特大地震影響吝秕,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜空幻,卻給世界環(huán)境...
    茶點故事閱讀 41,001評論 3 325
  • 文/蒙蒙 一烁峭、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧秕铛,春花似錦约郁、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,657評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至谨湘,卻和暖如春绽快,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背紧阔。 一陣腳步聲響...
    開封第一講書人閱讀 32,811評論 1 268
  • 我被黑心中介騙來泰國打工坊罢, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人擅耽。 一個月前我還...
    沈念sama閱讀 47,685評論 2 368
  • 正文 我出身青樓活孩,卻偏偏與公主長得像,于是被迫代替她去往敵國和親秫筏。 傳聞我的和親對象是個殘疾皇子诱鞠,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,573評論 2 353

推薦閱讀更多精彩內(nèi)容

  • 一個博學(xué)多才的領(lǐng)導(dǎo)人會引領(lǐng)我們走向正規(guī),愛學(xué)習(xí)愛看書这敬,有海納百川的胸襟航夺,開放包容的態(tài)度,其中《管子·形勢解》:“海...
    stayalive_b814閱讀 137評論 0 0
  • 因為生物鐘的原因崔涂,殷子煦早早就醒了阳掐,去廚房自己磨了豆?jié){,又仔仔細(xì)細(xì)地用濾網(wǎng)把豆渣過濾了好幾次,做了些拿手的餐點缭保。 ...
    幼弦閱讀 137評論 0 1
  • 我最近加入了左撇子覃杰|西早包裝發(fā)起的不寫就出局活動汛闸。這個活動不但不給錢的,相反還要交錢艺骂;不但是要交錢诸老,竟然...
    嗨嗨皮皮的閱讀 325評論 0 2