現(xiàn)在組裝新基因組劫扒,一般用pacbio的hifi測(cè)序模式進(jìn)行olc組裝+Hi-c輔助組裝染色體就行了,但是我們實(shí)驗(yàn)室以前測(cè)了一些基因組是低覆蓋度的pacbio的clr模式測(cè)序+50x以上二代狸膏,沒(méi)有HI-C數(shù)據(jù)做的泛基因組沟饥,還是有需求對(duì)這一部分組裝進(jìn)行改進(jìn)。
該軟件結(jié)合了debreijn 圖和 Overlap-Layout-Consensus的方法湾戳,3.2.1版本以來(lái)masurca可以混合二代贤旷、三代數(shù)據(jù)進(jìn)行基因組組裝。
(按我的理解砾脑,2代組裝用了debreijn 圖遮晚,組裝成super reads.然后以3代為骨架進(jìn)行map比對(duì),比對(duì)上的super reads 用OLC進(jìn)行組裝)
對(duì)計(jì)算資源的要求是:
1 10Mb : 16Gb 內(nèi)存拦止,8 + 核县遣,10Gb 磁盤(pán)空間 少于1小時(shí)
2 500Mb: 128Gb 內(nèi)存,16個(gè)內(nèi)核汹族,1Tb 磁盤(pán)空間 1-2天
3 1Gb : 256Gb 內(nèi)存萧求,32 + 核,2Tb 磁盤(pán)空間 4-5天
4 3Gb: 512Gb 內(nèi)存顶瞒,32 + 核心夸政,5Tb 磁盤(pán)空間 15-20天
5 30Gb : 1Tb 內(nèi)存,64 + 核榴徐,10Tb + 磁盤(pán)空間 60-90天
所以各位自己看一下怎么搞守问。
安裝
有人制作了bioconda的包,但是官方明確說(shuō)明不能用bioconda安裝……
1 安裝numactl(必須要有坑资,否則flye組裝部分無(wú)法執(zhí)行耗帕,然后程序彈出)
sudo apt-get install numactl
我搞了3-4天沒(méi)組裝成功,一直顯示3代測(cè)序數(shù)據(jù)有問(wèn)題袱贮,要我檢查仿便,但是也沒(méi)查出毛病來(lái),后面在某個(gè)論壇的旮旯里找到了一個(gè)回答,讓安裝這個(gè)嗽仪,然后就沒(méi)問(wèn)題了荒勇。
2 下載boost最新版本,進(jìn)行安裝,
下載完了闻坚,解壓沽翔,進(jìn)入文件夾
sudo ./boostrap.sh
sudo ./b2 install
然后就安裝完畢了
3? 安裝masurca
GitHub - alekseyzimin/masurca 下載最新安裝包
解壓,進(jìn)入文件夾
sh ./install.sh 會(huì)自動(dòng)安裝依賴(lài)軟件包
以上步驟就完成了全部的安裝窿凤,反正我這里這樣處理完就可以組裝了
使用
這個(gè)軟件進(jìn)化到4.03版本的時(shí)候可以使用一條簡(jiǎn)單的命令行進(jìn)行組裝
a 沒(méi)有三代測(cè)序
/path_to_MaSuRCA/bin/masurca -t 32 -i /path_to/pe_R1.fa,/path_to/pe_R2.fa
b 有三代測(cè)序
/path_to_MaSuRCA/bin/masurca -t 32 -i /path_to/pe_R1.fa,/path_to/pe_R2.fa -r /path_to/nanopore.fastq.gz
一般情況下還是使用安裝文件夾里面內(nèi)置的config文件進(jìn)行配置
主要就是2代仅偎、3代測(cè)序文件的位置,預(yù)期基因組大小卷玉、能用多少個(gè)核。具體就不細(xì)說(shuō)了喷市,文檔寫(xiě)的很詳細(xì)相种。
配置文件寫(xiě)好以后,$/install _ path/MaSuRCA-X.X. x/bin/masurca config.txt用這個(gè)命令能夠生成一個(gè)assemble.sh的文件品姓,然后運(yùn)行就可以了寝并。
需要注意的是ubuntu內(nèi)置的sh是dash,不能執(zhí)行這個(gè)shell腹备,必須要bash? ./assemble.sh才行衬潦。
另外 flye組裝步驟只支持最高128線程,但是前序步驟我這里160都沒(méi)問(wèn)題植酥,可能可以支持更好镀岛,所以個(gè)人經(jīng)驗(yàn)是config里第一次線程數(shù)寫(xiě)你的機(jī)器能用的最高線程,等跑到flye步驟出錯(cuò)后友驮,再吧線程改為128以下漂羊,重新接著跑。