目前,用于Hi-C輔助基因組組裝的軟件有LACHESIS、SALSA2虑绵、3D-DNA尿瞭、ALLHiC等,包括這2年發(fā)的hic_hiker等翅睛, 這些軟件在基因組組裝方面各有優(yōu)劣声搁。SALSA2和3D-DNA雖不需預(yù)先提供染色體數(shù)目即可進行互作分析,但在可操作性和實用性上都有一定的局限性捕发。LACHESIS作為分析Hi-C數(shù)據(jù)的經(jīng)典工具疏旨,文章認可度較高,但其在多倍體基因組組裝方面表現(xiàn)欠佳扎酷。前面也試過AllHiC來掛載多倍體檐涝,但是有些簡單的物種掛載過程中好像有點不如意的區(qū)域,所以再嘗試一下去其它工具的結(jié)果。
使用3D-DNA做基因組組裝的整體流程如下圖谁榜,分別為組裝幅聘,Juicer分析Hi-C數(shù)據(jù),3D-DNA進行scaffolding窃植,使用JBAT對組裝結(jié)果進行手工糾正帝蒿,最終得到準染色體水平的基因組。
=====安裝=====
在安裝之前巷怜,確保服務(wù)器上有了下面這些依賴軟件工具
?LastZ(僅在雜合基因組的二倍體模式下使用)
?Java >= 1.7
?GNU Awk >= 4.02
?GNU coreutils sort > 8.11
?Python >= 2.7
?scipy, numpy, matplotlib
?GNU Parallel >=20150322 (不必要,但是強力推薦)
?bwa
?我們需要安裝兩個軟件,一個是3D-DNA芙委,另一個是juicer幻碱。
CPU版本的juicer:
git clone https://github.com/theaidenlab/juicer.git
cd juicer
ln -s CPU scripts
cd scripts/common
wget https://hicfiles.tc4ga.com/public/juicer/juicer_tools.1.9.9_jcuda.0.8.jar
ln -s juicer_tools.1.9.9_jcuda.0.8.jar? juicer_tools.jar
3D-DNA安裝:
git clone https://github.com/theaidenlab/3d-dna.git
========分析測試=========
兩個輸入數(shù)據(jù):
reference:存放一個genome.fa, 為組裝的contigs。
fastq: 存放HiC二代雙端測序結(jié)果页畦,read_R1.fastq.gz, read_R2.fastq.gz
??? 有了這兩個數(shù)據(jù)就可以開始了胖替。*_R*.fastq*
第一步:為基因組建立索引
bwa index genome.fa
第二步: 根據(jù)基因組構(gòu)建創(chuàng)建可能的酶切位點文件
python?juicer-master/misc/generate_site_positions.py DpnII genome genome.fa?
第三步: 獲取每條contig的長度
awk 'BEGIN{OFS="\t"}{print $1, $NF}' genome_DpnII.txt > genome.chrom.sizes
第四步:運行juicer
/gpfs03/home/jingjing/software/juicer-master/scripts/juicer.sh -t 30 -g RT -z reference/genome.fa -y restriction_sites/genome_DpnII.txt -p restriction_sites/genome.chrom.sizes -D /gpfs03/home/jingjing/software/juicer-master/CPU/ -s DpnII
輸出的結(jié)果文件都在aligned目錄下,其中"merged_nodups.txt"就是下一步3D-DNA的輸入文件之一豫缨。
第五步:運行3d-dna
注:3d-dna的運行也沒有多少參數(shù)可以調(diào)整独令,如果對組裝基因組質(zhì)量的信心高,就用-r 0, 否則用默認的-r 2就行了好芭。
/gpfs03/home/jingjing/software/3d-dna-master/./run-asm-pipeline.sh reference/assembly_scaffolds_tjn.fasta aligned/merged_nodups.txt
第六步:使用juicerbox進行手工糾錯
然后在Juicer-Tools中對結(jié)果進行可視化燃箭,對可能的錯誤進行糾正。
https://github.com/aidenlab/Juicebox/releases
最常見的幾種組裝錯誤:
?
???misjoin:?切割
???translocations:?移動
???inversions:?翻轉(zhuǎn)
???chromosome boundaries:?確定染色體的邊界
?
這些錯誤的判斷依賴于經(jīng)驗舍败,所以只能靠自己多試試了招狸。
最后輸出genome.review.assembly用于下一步的分析。
第七步:再次運行3d-DNA
run-asm-pipeline-post-review.sh -r genome.review.assembly genome.fa aligned/merged_nodups.txt
本文使用 文章同步助手 同步