一:下載安裝
下載地址
https://github.com/Nextomics/NextDenovo/releases/download/v2.1-beta.0/NextDenovo.tgz
**INSTALL**
`tar -vxzf NextPolish.tgz && cd NextPolish && make` ## 現(xiàn)在不需要安裝了勉盅,直接下載解壓就可以用了
需要注意的是這個軟件運行需要Python2的環(huán)境哦。然后安裝好了記得加環(huán)境盹廷。
這次用的是大腸桿菌的一個pacbio數(shù)據(jù)做的測試氛悬。
二:配置文件
1. 配置run.cfg文件
安裝好了之后在你的文件夾下面有一個test_data的文件夾黔姜,里面有例子剃浇,復(fù)制過來改一下就ok了巾兆。
mkdir ecoli && cd ecoli
cp /path to/NextDenovo/test_data/run.cfg .
vim run.cfg
大致就像這樣,里面有些需要改偿渡,有些用默認(rèn)就好。
參數(shù)解讀:
- job_type 設(shè)置運行環(huán)境霸奕,可以使用(local溜宽, sge, pbs等)
- seed_cutfiles 如果在集群上運行质帅,建議設(shè)置為可用的節(jié)點數(shù)适揉,同時設(shè)置correction_options的-p為各個節(jié)點可用的核數(shù),保證每個節(jié)點只有一個correction任務(wù)煤惩,減少運行時的內(nèi)存和IO嫉嘀。 如果local上運行, 建議設(shè)置為總可用的核除以correction_options的-p值.
- parallel_jobs建議設(shè)置至少要大于pa_correction魄揉。
- blocksize 是將小于seed_cutfiles的數(shù)據(jù)拆分成的多個文件時單個文件的大小剪侮, 此對于10g以內(nèi)的數(shù)據(jù)量, 建議設(shè)置小于1g, 避免總的任務(wù)數(shù)小于parallel_jobs的值瓣俯。
測序數(shù)據(jù)類型相關(guān): 對于PacBio而言杰标,要修改minimap2_options_中的-x ava-ont為-x ava-pb - 數(shù)據(jù)量相關(guān)參數(shù): read_cutoff = 1k過濾原始數(shù)據(jù)中低于1k的read,seed_cutoff = 30k則是選擇大于30k以上的數(shù)據(jù)來矯正彩匕。關(guān)于seed_cutoff的設(shè)置腔剂,可以通過~/opt/biosoft/NextDenovo/bin/seq_stat來獲取參考值,不建議直接使用默認(rèn)值驼仪,因為改值會受到測序深度和測序長度影響掸犬,而且一個不合適的值會顯著降低組裝質(zhì)量。對于基因組大于200m以上的物種绪爸,-d建議默認(rèn)湾碎。
- random_round參數(shù),建議設(shè)置20-100. 該參數(shù)是設(shè)置隨機組裝參數(shù)的數(shù)量毡泻,nextGraph會基于每一套隨機參數(shù)做一次組裝胜茧, 避免默認(rèn)參數(shù)效果不好
———————————————————————————————————————
這里用 seq_stat能夠根據(jù)自己物種大小和預(yù)期用于組裝的深度確定seed_cutoff。
seq_stat -g 4.8Mb input.fofn > seq_stat
所以我這里的seed_cutoff默認(rèn)為30K就不行了仇味,因為最初的才18K多呻顽。
2. 配置input.fofn文件,就是你的輸入文件絕對路徑
3. 運行程序
$nextDenovo run.cfg
默認(rèn)參數(shù)結(jié)果是存放在01_rundir/03.ctg_graph/01.ctg_graph.sh.work/ctg_graph00, 可以將其復(fù)制到當(dāng)前目錄丹墨,用于后續(xù)的分析廊遍。
最終在01_rundir/03.ctg_graph/01.ctg_graph.sh.work/ctg_graph00的contig長度為4540kb.
但是在01.ctg_graph.sh.work目錄下除了ctg_graph00以外,還有其他隨機參數(shù)的在組裝結(jié)果贩挣。隨機參數(shù)結(jié)果只輸出了統(tǒng)計結(jié)果喉前,用戶如需要輸出組裝序列,可以修改01_rundir/03.ctg_graph/01.ctg_graph.sh王财,將里面的-a 0替換成-a 1卵迂。
每個目錄下都有shell輸出,可以挑選基于nextDenovo.sh.e這里面的結(jié)果挑選組裝指標(biāo)較好的绒净,再輸出序列见咒,比如說比較下N50。
$grep N50 01_rundir/03.ctg_graph/01.ctg_graph.sh.work/ctg_graph*/*.e
默認(rèn)情況下挂疆,最終組裝出20條contig改览。
最后:
我用了四個性價比比較高的三代組裝軟件對大腸桿菌pacbio數(shù)據(jù)做了個比較:
可以看到在不考慮速度的情況下,flye的長度是最長的缤言。