轉(zhuǎn)錄組數(shù)據(jù)質(zhì)量分析完,想拿kraken軟件分析下數(shù)據(jù)有沒有微生物的序列污染
找了全網(wǎng)沒看見什么相關(guān)的指導(dǎo)文章佃却,看官網(wǎng)的操作手冊(cè)也很雞助哟沫,所以自己翻譯了官網(wǎng)手冊(cè)以及寫了代碼公荧,希望對(duì)后來的人有些幫助。
Kraken是2013年Wood提出的的宏基因組序列分類軟件携冤,能夠快速對(duì)宏基因樣品中的DNA序列進(jìn)行分類盒刚,因此可以進(jìn)行微生物檢測(cè)细诸。Kraken在序列比對(duì)環(huán)節(jié)(環(huán)節(jié)C)采用精確k-mer匹配和精簡(jiǎn)數(shù)據(jù)庫(kù)的方法(環(huán)節(jié)B)惕它,忽略基因變異怕午,采取精確匹配;并且建立了專用數(shù)據(jù)庫(kù)與k-mer匹配相配合淹魄,極大地提高了檢測(cè)速度.Kraken分為兩個(gè)版本:內(nèi)存開銷較大的normal版和將內(nèi)存開銷限制為2Gb以內(nèi)的mini版.Kraken速度極快郁惜,精度較低,適用于做微生物檢測(cè)的預(yù)處理.
官網(wǎng)網(wǎng)址:http://ccb.jhu.edu/software/kraken/
操作文檔網(wǎng)址 :http://ccb.jhu.edu/software/kraken/MANUAL.html
一 安裝
1甲锡、如果安裝了miniconda的話可以直接用命令安裝
??conda install kraken
2兆蕉、從kraken官網(wǎng)下載source包,其中包括了kraken的一些代碼缤沦,安裝腳本install_kraken.sh虎韵,以及readme文件
在安裝腳本目錄下運(yùn)行
./install_kraken.sh $KRAKEN_DIR
$KRAKEN_DIR指定kraken安裝的目錄
當(dāng)看到提示 "Kraken installation complete."說明安裝完成,隨后將kraken兩個(gè)主要的腳本復(fù)制到加入環(huán)境變量
cp $KRAKEN_DIR/bin/kraken $HOME/bin
cp $KRAKEN_DIR/bin/kraken-build $HOME/bin
$HOME/bin你環(huán)境變量的位置
二缸废、下載kraken標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)
kraken-build --standard --threads 24 --db $DBNAME
--threads 24?指定線程數(shù)24
--db $DBNAME?指定安裝的目錄
當(dāng)數(shù)據(jù)庫(kù)構(gòu)建完成包蓝,可以使用以下命令刪除冗余的文件
kraken-build --db $DBNAME --clean
三、分類代碼
kraken --db $DBNAME seqs.fa
主要參數(shù):
--threads NUM?設(shè)置線程數(shù)
--classified-out?輸出已經(jīng)被分類的序列也就是污染的序列
--unclassified-out?輸出未被分類的序列也就是未污染的序列
--output?輸出
| or >?也是輸出
--fastq-input?聲明輸入文件是fastq格式
--gzip-compressed?聲明輸入文件是.gz的壓縮格式
--bzip2-compressed?聲明輸入文件是.bz的壓縮格式
--paired?如果是雙端測(cè)序呆奕,則需聲明為是雙端測(cè)序
四养晋、實(shí)例代碼
代碼一:輸出classify序列和unclassify序列以及一個(gè).kraken文件
--threads?8:指定線程 8
--db?/data/program/Assessment/kraken_database/?指定標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)的路徑
--fastq-input--gzip-compressed?指定fastq文件格式,這里指定為gzip
--paired?指定是雙端測(cè)序
${output_forward_paired}${output_reverse_paired}輸入文件的路徑與名稱:read1 read2
--classified-out?指定輸出分類的序列文件——有污染
${output_classify}?輸出分類的序列文件的路徑及名稱
--unclassified-out?指定輸出未分類的序列文件——無污染
${output_unclassify}輸出未分類的序列文件的路徑及名稱
>?${kraken}?輸出一個(gè).kraken文件
代碼二:輸出報(bào)告梁钾,報(bào)告統(tǒng)計(jì)了污染的比例绳泉,還有污染的種類
${kraken}上面生成的.kraken文件
>?${kraken_report}?指定輸出報(bào)告的路徑及名稱
最終我加入我自己的輸入文件路徑與輸出文件路徑等內(nèi)容,寫成的代碼如下:
nohup...& 是把任務(wù)掛到后臺(tái)運(yùn)行
最終得到的報(bào)告如下:
98.46%未被污染
1.54%被污染姆泻,且列出污染的序列屬于哪個(gè)物種零酪。
就醬
希望對(duì)大家有幫助。