分箱結(jié)果可以使用 checkM 檢查完整性和污染度陈莽。
checkM
基于數(shù)據(jù)庫中構(gòu)建好的單拷貝基因集和進化樹傍药,將bin定位到進化樹中找到參考物種蛾默,基于譜系特異的marker gene(單拷貝),進行完整性和污染度進行評估白粉。
- 數(shù)據(jù)準(zhǔn)備:上一步的分箱結(jié)果
參考腳本
# 運行checkM
checkm lineage_wf \
--threads 5 \ # 線程
--tmpdir ./ \ # tmp目錄路徑
--extension fa \ # 序列文件后綴
bins \ # 輸入掩缓,分箱結(jié)果目錄
checkm \ # 輸出目錄
> checkM.sh.log 2>&1 # 存儲日志
分箱結(jié)果去冗余
計算資源充足的情況下雪情,可以將所有測序數(shù)據(jù)一起進行組裝,然后分箱你辣。但實際操作中巡通,由于內(nèi)存限制,一般會分樣品或者將生物學(xué)重復(fù)放在一起進行拼接舍哄。這樣就會存在多個組裝和分箱結(jié)果宴凉,需要對其中重復(fù)的 bin去冗余。這個操作可以使用 dRep 實現(xiàn)表悬。
# 將所有分箱fasta文件存放在bin目錄下
# 運行dRep去冗余
dereplicate out_dRep \ # 最小基因組長度弥锄,默認(rèn)50k
--length 50000 \
-comp 75 -con 25 \ #最小的基因組完整度,默認(rèn)75蟆沫,最大的基因組污染率籽暇,默認(rèn)25
-g ./bins/*.fasta