1.安裝getorganelle
conda create -n getorganelle python=3.6.8
#創(chuàng)建getoganelle的環(huán)境组砚,可通過(guò)python3 -V查看當(dāng)前的python版本会油,使用系統(tǒng)中存在的python版本
conda install -n getorganelle -c bioconda getorganelle=1.7.7
#在miniconda3上安裝指定版本的getorganelle
2.安裝葉綠體基因組等數(shù)據(jù)庫(kù)
get_organelle_config.py --add embplant_pt
#安裝葉綠體基因組等數(shù)據(jù)庫(kù)(植物葉綠體基因組:embplant_pt淤刃,植物線粒體基因 組:embplant_mt腊敲,植物核核糖體DNA片段:embplant_nr)
小插曲:在安裝參考基因組時(shí)發(fā)現(xiàn)報(bào)錯(cuò):ERROR: Blast is not available!
當(dāng)時(shí)以為是blast沒(méi)有安裝,安裝了blast依然報(bào)錯(cuò)蓖宦,嘗試在打開(kāi)getorganelle的情況下查看blast版本blastn -V扣唱,發(fā)現(xiàn)進(jìn)一步顯示為blastn: error while loading shared libraries: libnsl.so.1: cannot open shared object file: No such file or directory
這說(shuō)明是libnsl.so.1這個(gè)庫(kù)沒(méi)有存在于getorganelle這個(gè)軟件的環(huán)境的,進(jìn)入目錄/home/monkeyflower/miniconda3/envs/getorganelle/lib查找這個(gè)庫(kù),發(fā)現(xiàn)里面有個(gè)libnsl.so.3的庫(kù)伍纫,直接改掉這個(gè)庫(kù)的名稱,發(fā)現(xiàn)可以運(yùn)行了昂芜。
3.運(yùn)行g(shù)etorganelle
先將需要拼接的序列文件傳輸?shù)?home/monkeyflower/bioworkplace目錄下(最好每次建一個(gè)單獨(dú)的文件夾以保存運(yùn)行結(jié)果)
cd /home/monkeyflower/bioworkplace
conda activate getorganelle
#激活軟件
4.拼接代碼
get_organelle_from_reads.py -1 sampleA.1.gz -2 sampleA.2.gz -F embplant_pt -o organellefile -R 10 -t 2 -k 21,45,65,85,105,127
#文件名不得有任何空格
-1和-2 正向和反向測(cè)序原始數(shù)據(jù)文件(如果是單向測(cè)序,-u)
-F 設(shè)定要組裝的基因組類型
-o 結(jié)果輸出保存的目錄(文件夾)名稱
-R 提取葉綠體基因 reads 的輪次(輪次越多,耗時(shí)越長(zhǎng))
-t 并行使用 CPU 的數(shù)量(多核可提速),默認(rèn)值是1
-k 調(diào)用SPAdes進(jìn)行 denovo組裝的k-mer,數(shù)值必須是奇數(shù),最大值是127
也可使用以下代碼可縮短運(yùn)行時(shí)間
get_organelle_from_reads.py -1 sampleA.1.gz -2 CaryopterissampleA.2.gz -F embplant_pt -o organellefile --fast -k 21,65,105 -w 0.68
5.拼接不成環(huán)解決辦法
由于getorganelle在使用SPAdes拼接得到的assembly_graph.fastg時(shí)會(huì)對(duì)其進(jìn)行精簡(jiǎn)結(jié)果會(huì)導(dǎo)致拼接結(jié)果無(wú)法成環(huán)莹规,如下圖所示:該序列有多個(gè)片段組成,卻沒(méi)有成環(huán)發(fā)現(xiàn)可以先使用SPAdes對(duì)測(cè)序數(shù)據(jù)進(jìn)行組裝以獲得assembly_graph.fastg文件泌神,對(duì)該文件再使用Getorganelle進(jìn)行拼接即可良漱。具體流程如下:
5.1 SPAdes輔助拼接
5.1.1 SPAdes安裝
軟件安裝
conda create -n spades
conda activate spades
conda install -c bioconda spades=3.15.5
#創(chuàng)建環(huán)境并安裝指定版本的的spades
基本使用命令
spades.py -1 left.fq.gz -2 right.clean.fq.gz -o outputname -t 16
-1/2:雙端測(cè)序文件
-o:輸出文件目錄
-t:最大允許使用線程數(shù),默認(rèn)為1
5.1.2 Getorganelle運(yùn)行命令
get_organelle_from_assembly.py -g assembly_graph.fastg -F embplant_pt -o output-plastome -t 16
-g:SPAdes組裝得到的FASTG的assembly graph
-F:設(shè)定要組裝的基因組類型
-o:輸出文件目錄
-t:最大允許使用線程數(shù)
拼接結(jié)果基本都能成環(huán)欢际,如下圖所示:
5.2 修改有關(guān)參數(shù)
5.2.1調(diào)整-w參數(shù)
如果服務(wù)器的內(nèi)存足夠母市,那么減少word(- w)參數(shù)。如果在命令中沒(méi)有特意指出-w參數(shù)损趋,則程序會(huì)自動(dòng)估計(jì)患久,在get_org.log.txt中會(huì)有記錄,如果估計(jì)的-w大小是105浑槽,可以嘗試減小為95蒋失。-w的取值范圍一般在65 ~ 105之間。
5.2.2增加--max-reads參數(shù)
--max-reads MAX_READS
Maximum number of reads to be used per file. Default:
1.5E7 (-F embplant_pt/embplant_nr/fungus_mt/fungus_nr); 7.5E7
(-F embplant_mt/other_pt/anonym); 3E8 (-F animal_mt)
陸生植物默認(rèn)參數(shù)為1.5E7桐玻,應(yīng)該提升一下讀數(shù)篙挽。
5.2.3添加參考物種
如果目標(biāo)基因組是動(dòng)物有絲分裂組或者reads質(zhì)量較差,或者目標(biāo)覆蓋度極不均勻畸冲,則使用與之緊密相關(guān)的細(xì)胞器基因組作為seed( -s )嫉髓。對(duì)于動(dòng)物基因組組裝或沒(méi)有緊密相關(guān)seed的情況,使用前一次運(yùn)行的輸出作為第二次運(yùn)行的seed邑闲。