本文可在http://xuzhougeng.top/免費(fèi)閱讀原文
使用二代數(shù)據(jù)或三代數(shù)據(jù)得到contig后震庭,下一步就是將contig提升到染色體水平。有很多策略可以做到這一點(diǎn)你雌,比如說遺傳圖譜器联,BioNano(看運(yùn)氣), HiC, 參考近源物種。
如果利用HiC進(jìn)行準(zhǔn)染色體水平婿崭,那么目前常見的組裝軟件有下面幾個(gè)
- HiRise: 2015年后的GitHub就不再更新
- LACHESIS: 發(fā)表在NBT拨拓,2017年后不再更新
- SALSA: 發(fā)表在BMC genomics, 仍在更新中
- 3D-DNA: 發(fā)表在science,仍在更新中
- ALLHiC: 發(fā)表在Nature Plants, 用于解決植物多倍體組裝問題
對(duì)于二倍體物種而言逛球,目前3D-DNA應(yīng)該是組裝效果最好的一個(gè)軟件千元。
工作流程
使用3D-DNA做基因組組裝的整體流程如下圖,分別為組裝颤绕,Juicer分析Hi-C數(shù)據(jù)幸海,3D-DNA進(jìn)行scaffolding,使用JBAT對(duì)組裝結(jié)果進(jìn)行手工糾正奥务,最終得到準(zhǔn)染色體水平的基因組物独。
基因組組裝可以是二代測(cè)序方法,也可以是三代測(cè)序組裝方法氯葬,總之會(huì)得到contig挡篓。
Juicer的工作流程見下圖,輸入原始的fastq文件,處理得到中間文件.hic, 之后對(duì).hic文件用于下游分析官研,包括
- Arrowhead: 尋找存在關(guān)聯(lián)的區(qū)域
- HiCCUPS: 分析局部富集peaks
- MotifFinder: 用于錨定peaks
- Persons: 計(jì)算觀測(cè)/期望的皮爾森相關(guān)系數(shù)矩陣
- Eigenvector: 確定分隔
之后Juicer的輸出結(jié)果給3D-DNA秽澳,分析流程見下圖。3D-DNA先根據(jù)Hi-C數(shù)據(jù)分析contig中的misjoin戏羽,對(duì)其進(jìn)行糾錯(cuò)担神。之后通過四步,分別是Polish, Split, Seal和Merge, 得到最終的基因組序列
軟件安裝
在安裝之前,確保服務(wù)器上有了下面這些依賴軟件工具
- LastZ(僅在雜合基因組的二倍體模式下使用)
- Java >= 1.7
- GNU Awk >= 4.02
- GNU coreutils sort > 8.11
- Python >= 2.7
- scipy, numpy, matplotlib
- GNU Parallel >=20150322 (不必要始花,但是強(qiáng)力推薦)
- bwa
我們需要安裝兩個(gè)軟件妄讯,一個(gè)是3D-DNA,另一個(gè)是juicer酷宵。
CPU版本的juicer安裝
mkdir -p ~/opt/biosoft/
cd ~/opt/biosoft
git clone https://github.com/theaidenlab/juicer.git
cd juicer
ln -s CPU scripts
cd scripts/common
wget https://hicfiles.tc4ga.com/public/juicer/juicer_tools.1.9.9_jcuda.0.8.jar
ln -s juicer_tools.1.9.9_jcuda.0.8.jar juicer_tools.jar
然后用~/opt/biosoft/juicer/scripts/juicer.sh -h
檢查是否有幫助信息輸出
3D-DNA安裝也很容易亥贸,只需要從Github上將內(nèi)容克隆到本地即可
cd ~/opt/biosoft
git clone https://github.com/theaidenlab/3d-dna.git
用sh ~/opt/biosoft/3d-dna/run-asm-pipeline.sh -h
查看是否有幫助文檔輸出。
參數(shù)詳解
以CPU版本的為例浇垦,juicer.sh的參數(shù)如下
Usage: juicer.sh [-g genomeID] [-d topDir] [-s site] [-a about] [-R end]
[-S stage] [-p chrom.sizes path] [-y restriction site file]
[-z reference genome file] [-D Juicer scripts directory]
[-b ligation] [-t threads] [-r] [-h] [-f] [-j]
參數(shù)說明