數(shù)據(jù)準(zhǔn)備:?jiǎn)伪缎突蚪M(hap1.p_ctg.fa和hap2.p_ctg.fa)和HIC數(shù)據(jù)
軟件安裝:3D-DNA、Juicer堡牡、BWA怠噪、Juicebox(win或mac安裝)
3D-DNA 掛載染色體 - 簡(jiǎn)書 (jianshu.com)
http://www.reibang.com/p/62ed25b70194
Juicer: 輔助基因組組裝 - 簡(jiǎn)書 (jianshu.com)
http://www.reibang.com/p/a889e2f7cef2
3.大致流程
Juicer分析Hi-C數(shù)據(jù)癌佩,3D-DNA進(jìn)行scaffolding,使用Juicebox對(duì)組裝結(jié)果進(jìn)行手工糾正秃励,最終得到準(zhǔn)染色體水平的基因組氏仗。
4.軟件安裝:
Juicer安裝:juicer需要一個(gè)固定的目錄結(jié)構(gòu),新建一個(gè)文件夾命名為juicer夺鲜,在此文件夾中安裝juicer皆尔;然后新建四個(gè)文件夾,分別為:
references
work
scripts
restriction_sites
references目錄用于存放參考基因組相關(guān)文件work文件夾新建fastq子文件夾并存放HiC二代雙端測(cè)序結(jié)果币励,read_R1_fastq.gz,? ? ? read_R2_fastq.gz(注意fastq如果是fq.gz則運(yùn)行失斂度洹)scripts 用于存放軟件運(yùn)行所需的腳本restriction_sites用于存放參考基因組酶切圖譜
juicer安裝相對(duì)簡(jiǎn)單,按照下面指令即可:
mkdir -p ~/opt/biosoft/juicer
cd?~/opt/biosoft/juicer
git clone https://github.com/theaidenlab/juicer.git (VPN)
cd juicer
ln?-s?CPU scriptscd scripts/common
wget https://hicfiles.tc4ga.com/public/juicer/juicer_tools.1.9.9_jcuda.0.8.jar
ln?-s?juicer_tools.1.9.9_jcuda.0.8.jar??juicer_tools.jar
然后檢查是否有幫助信息輸出(成功)(路徑取決于軟件juicer.sh所在目錄)/public/home/bsun/opt/biosoft/juicer/scripts/juicer/CPU/juicer.sh?-h
3D-DNA安裝
cd?~/opt/biosoft
git clone https://github.com/theaidenlab/3d-dna.git
測(cè)試是否成功/public/home/bsun/opt/biosoft/3d-dna/run-asm-pipeline.sh
Juicebox
安裝在windows或mac系統(tǒng)上
BWA(conda安裝即可)
5.運(yùn)行文件準(zhǔn)備
準(zhǔn)備juicer所需文件:即它的4個(gè)固定文件夾所需的的文件
第一步:bwa為基因組建索引--放入references中
bwa index hap1.p_ctg.fa.fa
第二步:?根據(jù)基因組構(gòu)建創(chuàng)建可能的酶切位點(diǎn)文件(必須提交到集群運(yùn)行食呻,否則killed)酶的選擇參考自己的HIC數(shù)據(jù)報(bào)告流炕;本人選擇DpnII--放restriction_sites中
bsub -J bwa -n 20 -R span[hosts=1] -o %J.out -e %J.err -q smp "python /public/home/bsun/opt/biosoft/juicer/scripts/juicer-1.6/misc/generate_site_positions.py DpnII hap1 hap1.p_ctg.fa"
第三步:?根據(jù)第二步的結(jié)果(hap1_DpnII.txt)提取每條contig的長(zhǎng)度(不用提交到集群運(yùn)行)--放入restriction_sites中
awk?'BEGIN{OFS="\t"}{print?$1,?$NF}'?hap1_DpnII.txt?>?hap1.chrom.sizes
運(yùn)行Juicer
需要先調(diào)用bwa,否則報(bào)錯(cuò)需要參數(shù)
bash juicer.sh -d /juicer/work2 -D juicer-1.6 -g loach -z /juicer/references/hap2.fasta -y /juicer/restriction_sites/hap2_DpnII.txt -p /juicer/restriction_sites/hap2.chrom.sizes -s DpnII -t 20
參數(shù)含義-d?fastq儲(chǔ)存位置-D?juicer?script?(cpu)的路徑-g?基因組名稱-z?contig路徑-y?酶切位點(diǎn)路徑-p?染色體大小路徑-s?酶切位點(diǎn)-t 線程數(shù)
本人的代碼,推薦使用絕對(duì)路徑仅胞;可按照一下代碼根據(jù)自己的路徑修改即可bsub -J juicer -n 30 -R span[hosts=1] -o %J.out -e %J.err -q normal "bash /public/home/bsun/opt/biosoft/juicer/scripts/juicer-1.6/CPU/juicer.sh -d /public/home/bsun/bsun/fourgenome/hic/juicer-hap1/work -D /public/home/bsun/opt/biosoft/juicer/scripts/juicer-1.6 -g loach -z /public/home/bsun/bsun/fourgenome/hic/juicer-hap1/references/hap1.p_ctg.fa -y /public/home/bsun/bsun/fourgenome/hic/juicer-hap1/restriction_sites/hap1_DpnII.txt -p /public/home/bsun/bsun/fourgenome/hic/juicer-hap1/restriction_sites/hap1.sizes -s DpnII -t 30"
輸出的結(jié)果文件都在aligned目錄下每辟,其中"merged_nodups.txt"就是下一步3D-DNA的輸入文件之一。3D-DNA&Juicer升級(jí)單倍型基因組至染色體水平
運(yùn)行3d-dna
本步必須在下面juicer的文件夾下跑干旧,否則出現(xiàn)下方報(bào)錯(cuò)
解決方法1.基因組文件必須以fasta命名影兽。
2.將juicer跑好的work文件和fasta文件分別移動(dòng)到j(luò)uicer目錄下和references文件中記得做好標(biāo)記,
3.然后只需改動(dòng)fasta文件和work文件名就可以使用下面的代碼莱革。運(yùn)行3ddna,推薦絕對(duì)路徑
bsub?-J3d-1-n30-R?span[hosts=1]?-o?%J.out?-e?%J.err?-qnormal "bash?/public/home/bsun/opt/biosoft/3d-dna/run-asm-pipeline.sh?/public/home/bsun/opt/biosoft/juicer/references/hap2.fasta /public/home/bsun/opt/biosoft/juicer/work2/aligned/merged_nodups.txt"
#Juicebox手動(dòng)調(diào)整
將下圖中的3ddna輸出的文件導(dǎo)出至win或mac桌面讹开,用juicebox人工調(diào)整
上述結(jié)果推薦都嘗試一下看看那個(gè)版本效果好盅视,最終選擇一個(gè)修正
Juicebox 教程(中文字幕)_嗶哩嗶哩_bilibili
https://www.bilibili.com/video/BV1xD4y1m712/?vd_source=4b4d7664f83a31f63f4c075e8915a189
【基因組組裝】HiC掛載軟件以及如何用Juice_box手工糾錯(cuò)?- 生物信息與育種 - 博客園 (cnblogs.com)
https://www.cnblogs.com/miyuanbiotech/p/14590564.html
值得注意:人工修正不得馬虎旦万;一定多多詢問(wèn)闹击,一步一步進(jìn)行;不得隨意刪除片段成艘;記得保存赏半;
再次運(yùn)行3d-dna
將人工修正后導(dǎo)出的文件(.review.assembly結(jié)尾)作為3ddna的二次輸入文件bsub?-J?3ddna2?-n?20?-R?span[hosts=1]?-o?%J.out?-e?%J.err?-q?normal?"bash?/public/home/bsun/opt/biosoft/3d-dna/run-asm-pipeline-post-review.sh?-r?/public/home/bsun/opt/biosoft/juicer/3ddna-hap2/hap2.0.review.assembly /public/home/bsun/opt/biosoft/juicer/references/hap2.fasta?/public/home/bsun/opt/biosoft/juicer/work2/aligned/merged_nodups.txt"
最終得到染色體水平的單倍型基因組
后續(xù)還需要進(jìn)行單倍型之間共線性分析并結(jié)合HIC互作信息再次糾正贺归。。断箫。