一開始覺得用hic數(shù)據(jù)預(yù)測基因組3D結(jié)構(gòu)還是挺有趣的珊楼,但是用了幾個軟件反反復(fù)復(fù)折騰效果并不好,快失去耐心了报慕。偶然間看見一篇新的文獻豆巨,覺得正是我所需要的.
- 安裝
這個軟件所用的依賴關(guān)系比較多畜侦,安裝比較麻煩.可以參考github
1.1
git clone https://github.com/data-fun/3d-genome-builder.git
cd 3d-genome-builder
1.2 下載 Singularity:
sudo apt install -y ./singularity-container_3.8.7_amd64.deb
1.3 下載conda和mamba
conda install mamba -n base -c conda-forge
mamba env create -f binder/environment.yml
conda activate 3DGB
1.4 下載HiC-Pro環(huán)境
wget --ciphers=DEFAULT:@SECLEVEL=1 https://zerkalo.curie.fr/partage/HiC-Pro/hicpro_3.1.0_ubuntu.img -P images
正常下載以后會得到相應(yīng)的軟件元扔。如下所示
$ singularity exec images/hicpro_3.1.0_ubuntu.img HiC-Pro --version
[...]
HiC-Pro version 3.1.0
$ singularity exec images/hicpro_3.1.0_ubuntu.img bowtie2 --version 2>/dev/null | head -n 1
/usr/local/conda/envs/hicpro/bin/bowtie2-align-s version 2.4.4
注:最近看起來這個鏈接失效,因此可以需要自己配置HiC-Pro和修改腳本中相應(yīng)路徑!
(如該文件3d-genome-builder/Snakefile中的路徑)
- 準備需要的文件
2.1 修改config 文件
workdir: "3d_genome_s_pombe_30min"
organism: "Schizosaccharomyces pombe"
sra_ids:
- SRR5149253
- SRR5149254
hicpro_restriction_sites: "^GATC"
hicpro_resolutions:
- 10000
pastis_resolutions:
- 10000
verify_contigs: False
注:workdir為你的工作目錄旋膳,organism是你研究的物種名稱澎语,sra_ids是你存放的hic數(shù)據(jù)名稱,hicpro_restriction_sites你hic實驗中用到的酶,hicpro_resolutions是hic數(shù)據(jù)的解析度咏连,pastis_resolutions是pastis軟件的解析度.
2.2 添加參考基因組
參考基因組必須在你config 文件中寫的 工作目錄下面.
因此你的工作目錄結(jié)構(gòu)必須如下:
WORKING_DIR/
├── fastq_files
│ ├── ID1
│ │ ├── ID1_R1.fastq.gz
│ │ └── ID1_R2.fastq.gz
│ ├── ID2
│ │ ├── ID2_R1.fastq.gz
│ │ └── ID2_R2.fastq.gz
│ ├── ID3
│ │ ├── ID3_R1.fastq.gz
│ │ └── ID3_R2.fastq.gz
│ └── ID4
│ ├── ID4_R1.fastq.gz
│ └── ID4_R2.fastq.gz
└── genome.fasta
注:遇到報錯請注意你工作目錄與config 文件中寫的是否一致盯孙,hic數(shù)據(jù)目錄名稱與fastq數(shù)據(jù)是否一致以及參考基因組名稱!
- 構(gòu)建你的基因組3D模型
snakemake --profile smk_profile -j 4 --configfile YOUR-CONFIG.yml
注:smk_profile是你的工作目錄名稱,4 是你所用的線程.YOUR-CONFIG.yml 是2.1中構(gòu)建的config 文件.
3.1 在你的3D基因組模型上增添其它定量數(shù)值(如ChIP-seq)
python3 ./scripts/map_parameter.py --pdb path/to/structure.pdb --bedgraph path/to/annotation.bedgraph --output path/to/output.pdb
注:structure.pdb是在上一步得到的pdb文件祟滴,bedgraph文件可以是你的ChIP-seq信號值振惰,請保持相同的解析度!
定量數(shù)值格式應(yīng)該如下(chromosome/start/stop/value):
chr1 0 50000 116.959
chr1 50000 100000 48.4495
chr1 100000 150000 22.8726
chr1 150000 200000 84.3106
chr1 200000 250000 113.109
- 結(jié)果
結(jié)果文件應(yīng)該如下:
WORKING_DIR/
├── contact_maps
├── dense_matrix
├── fastq_files
├── HiC-Pro
├── logs
├── pastis
├── sequence
└── structure
我們主要關(guān)注的是pastis文件夾中的.pdb文件和G3D文件.因為這個軟件底層還是利用pastis軟件進行預(yù)測.
官方文檔中還提供了兩個參考示例:
5.對結(jié)果文件進行可視化
官網(wǎng)也提供了非常詳細的例子
利用該網(wǎng)站進行可視化
https://molstar.org/viewer/
示例
注意:!!!這個軟件對二倍體基因組不適用。