1. de novo assembly
De Bruijn 圖是目前二代測序序列最常用的拼接算法,該算法將已經(jīng)非常短的reads再分割成更多個kmer短序列(k 小于reads 序列的長度),相鄰的kmers序列通過(k-1)個堿基連接到一起(即每次只移動一個位置),進而降低算法計算重疊區(qū)域的復(fù)雜度,降低內(nèi)存消耗。
常用的短序列拼接軟件有:SPAdes柳譬、Velvet划乖、SOAPdenovo刘绣、Abyss瓦戚、MasuRCA
SPAdes的安裝
python環(huán)境的安裝,推薦安裝Anoconda,可以根據(jù)需要蕾羊,配置切換不同的python環(huán)境。
wget https://repo.anaconda.com/archive/Anaconda3-5.3.1-Linux-x86_64.sh
bash Anaconda3-5.3.1-Linux-x86_64.sh
創(chuàng)建python2的環(huán)境
conda create --name python27 python=2.7 -y
創(chuàng)建python3的環(huán)境
conda create --name python34 python=3.4 -y
激活python3 or python2
conda activate python=3.4/2.7
安裝SPAdes軟件
wget http://cab.spbu.ru/files/release3.12.0/SPAdes-3.12.0-Linux.tar.gz
mkdir ~/BioSofts/spades
tar -zvxf ~/SPAdes-3.12.0-Linux.tar.gz -C ~/BioSofts/spades/
~/BioSofts/spades/SPAdes-3.12.0-Linux/bin/spades.py -h
echo 'export PATH=~/BioSofts/spades/SPAdes-3.12.0-Linux/bin:$PATH'>> ~/.bashrc
source ~/.bashrc
spades.py -h
拼接基因組數(shù)據(jù)的情況
– 僅有一個 library 數(shù)據(jù) (SE帽驯、PE龟再、ME)
– 有多個 paired-end library 數(shù)據(jù)
– 有多個 mate-paired library 數(shù)據(jù)
– 有PACBIO 數(shù)據(jù)
– 有已拼接的Contig數(shù)據(jù)
僅有一個 library 數(shù)據(jù) (SE、PE尼变、ME)
--12 file_name:12 表示后面接的文件是交叉融合的 paired 數(shù)據(jù)利凑。
-1 file_name:1 表示 forward 數(shù)據(jù)
-2 file_name:2 表示 reverse數(shù)據(jù)
-s file_name:s 表示 single 數(shù)據(jù), 也用于輸入 PacBio CCS reads
有多個 paired-end library 數(shù)據(jù)的情況
--pe{int}-12 編號為 int 的 library 的交叉融合后的paired 數(shù)據(jù)。int 取值只能是 1,2,3,4,5 嫌术,下同哀澈。
--pe{int}-1 編號為 int 的 library 的 forward 數(shù)據(jù)
--pe{int}-2 編號為 int 的 library 的 reverse 數(shù)據(jù)
--pe{int}-s 編號為 int 的 PE 的 unpaired數(shù)據(jù)
--pe{int}-{fr|rf|ff} 編號為 int 的 PE數(shù)據(jù)的方向,默認(rèn)為 --pe{int}-fr
有多個 mate-paired library 數(shù)據(jù)
--mp{int}-12 編號為 int 的 library 的交叉融合后的paired 數(shù)據(jù)
--mp{int}-1 編號為 int 的 library 的 forward 數(shù)據(jù)
--mp{int}-2 編號為 int 的 library 的 reverse 數(shù)據(jù)
--mp{int}-{fr|rf|ff} 編號為 int 的 library 的數(shù)據(jù)的方向,默認(rèn)為 --mp{int}-rf
有PacBio 數(shù)據(jù)
選用--pacbio 參數(shù)
有已拼接contig的情況
--trusted-contigs:– 輸入可信度高的 contigs,用于 graph construction,
gap closure 和 repeat resolution
--untrusted-contigs:– 輸入可信度較低的 contigs, 用于gap closure 和
repeat resolution
運行測試代碼
spades.py --careful --pe1-1 ~/Seqs/test_7942raw_1.fq.gz --pe1-2 ~/Seqs/test_7942raw_2.fq.gz -o ./SPAdesout_7942_new
2.序列拼接評價軟件QUAST
安裝quast
tar -zvxf quast-5.0.0.tar.gz -C ~/BioSofts/
echo 'export PATH=$PATH:~/BioSofts/quast-5.0.0/'>>~/.bashrc
source ~/.bashrc
使用quast
quast.py ~/Seqs/SPAdesout_7942_new/contigs.fasta -o ~/Seqs/SPAdesout_7942/quast_out