背景介紹
NextDenovo是武漢未來組(現(xiàn)在可能得叫希望組了)開發(fā)的用于三代基因組組裝的軟件跨算。
想當年讀碩士的時候我還因為項目合作的事兒在未來組呆了好幾個月來著。
可用資源
GitHub地址:
https://github.com/Nextomics/NextDenovo
官方文檔:https://nextdenovo.readthedocs.io/en/latest/
洲更學長的筆記:ttps://xuzhougeng.top/archives/Assembly-nanopore-with-NextDenovo
軟件安裝
安裝起來比較輕松愉快匣砖,因為軟件本體不需要安裝磺箕,有編譯好的二進制文件可以直接下載使用搂捧。唯一需要安裝的就是一個python的依賴Paralleltask
# 下載軟件本體
wget https://github.com/Nextomics/NextDenovo/releases/download/v2.5.0/NextDenovo.tgz
# 安裝依賴
python -m pip install Paralleltask
# 解壓軟件
tar -zxvf NextDenovo.tgz
軟件測試
壓縮包解壓開之后可以找到里面有個test_data
文件夾和它下面的示例程序test_data/run.cfg
,可以直接運行測試一下軟件能不能在你的服務器上跑通。當然這一步是非必須的哈瓦侮。
cd NextDenovo
nextDenovo test_data/run.cfg
運行自己的項目
生成輸入文件
把自己的組裝數(shù)據(jù)的絕對路徑存入文件并命名成input.fofn
ls /path/to/01RawData/PacBio/*hifi_reads.fastq.gz > input.fofn
編寫config文件
拷貝一份測試數(shù)據(jù)的cfg文件過來
cp ../NextDenovo/doc/run.cfg .
按照自己的項目的實際情況去修改參數(shù)艰赞。我的test.run.cfg
文件如下:
[General]
job_type = local # local, slurm, sge, pbs, lsf
job_prefix = test_nextDenovo
task = all # all, correct, assemble
rewrite = yes # yes/no
deltmp = yes
parallel_jobs = 24 # number of tasks used to run in parallel
input_type = raw # raw, corrected
read_type = hifi # clr, ont, hifi
input_fofn = input.fofn
workdir = 01_rundir
[correct_option]
read_cutoff = 1k
genome_size = x.xg # estimated genome size
sort_options = -m 20g -t 15
minimap2_options_raw = -t 8
pa_correction = 3 # number of corrected tasks used to run in parallel, each corrected task requires ~TOTAL_INPUT_BASES/4 bytes of memory usage.
correction_options = -p 15
[assemble_option]
minimap2_options_cns = -t 8
nextgraph_options = -a 1
更多的參數(shù)說明可以訪問下面這個官方教程地址:
https://nextdenovo.readthedocs.io/en/latest/OPTION.html
接下來去run就可以了
nohup nextDenovo test.run.cfg &
私貨時間
- 在我目前用PacBio HiFi數(shù)據(jù)組裝基因組的項目中,NextDenovo的效果僅次于hifiasm肚吏。
- GitHub上目前NextDenovo團隊是把HiFi給劃掉了方妖,不知道是不推薦使用NextDenovo用于組裝HiFi數(shù)據(jù)還是啥別的意思。
- NextDenovo現(xiàn)在文章還未發(fā)布罚攀,如果使用了請引用GitHub地址:
https://github.com/Nextomics/NextDenovo