一般需要8步驟:
![ME(}JV]M(16}157JQ6TIMWH.png](https://upload-images.jianshu.io/upload_images/24959989-adbdf01af82f0283.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
使用的原始文件
測(cè)序者會(huì)提供兩個(gè)文件: 一個(gè)是fastq文件(每個(gè)樣本一般為4行),包含測(cè)序序列邪驮,并且含有Phred quality score
來(lái)自wiki(https://en.wikipedia.org/wiki/Phred_quality_score)
Q= -10log10(P)
A good score is usually above Q20-30, which means 90-99% of the reads, are accurate. If your coverage is high you can afford to aim for a quality score above 30莫辨。
This module will raise a failure if the lower quartile for any base is less than 5 or if the median for any base is less than 20.
第二是:quality value 文件
QC的軟件
FastQC, FASTX-Toolkit, SolexaQA, Galaxy, Picard
使用FastQC
文檔:https://www.bioinformatics.babraham.ac.uk/projects/fastqc/
查看base的組成(ATGC比例),base的質(zhì)量(phred score), 測(cè)序重復(fù)水平
per sequence quality score report:
您設(shè)法只保留平均質(zhì)量得分較高的序列(例如 30-34)毅访。
對(duì)于read的correction
需要:去除重復(fù)的reads, 適配體沮榜, 潛在污染,和修剪低質(zhì)量的bases, 最后去除短reads喻粹。
工具:Trimmomatic
http://www.usadellab.org/cms/index.php?page=trimmomatic
其是用來(lái)處理:Illumina NGS 數(shù)據(jù)(paired-end and single-ended)處理fastq文件蟆融,對(duì)于phred +33或+64數(shù)據(jù)處理。
java -jar ../Trimmomatic-0.32/trimmomatic-0.32.jar PE -threads 4 -phred33 bactmp1.fastq bactmp2.fastq bactmp1.paired.fastq bactmp1.unpaired.fastq bactmp2.paired.fastq bactmp2.unpaired.fastq ILLUMINACLIP:../programfiles/adapters.fasta:2:30:20 LEADING:20 TRAILING:20 SLIDINGWINDOW:10:20 MINLEN:75
具有參考和從頭組裝比較:
從頭組裝
需要使用適當(dāng)?shù)慕M裝器來(lái)對(duì)Trimmomatic的文件()進(jìn)行組裝守呜。
velvet組裝器
介紹與下載:
http://www.ebi.ac.uk/~zerbino/velvet/
http://en.wikipedia.org/wiki/Velvet_assembler
需要兩步完成:
(1)velveth <newfolder> hash_length {[-file_format][-read_type][-separate|-interleaved] filename1 [filename2 ...]}
PS:hash_length : refers to k-value
(2) velvetg <newfolder>
實(shí)際代碼:
elveth denovo/ 45 -fastq -shortPaired ../reads/bactpe.paired.fastq -shortPaired2 ../reads/bactmp.paired.fastq
自動(dòng)進(jìn)行
gedit ../VelvetOptimiser-2.2.5/VelvetOptimiser.pl
cpanm Bio::SeqIO module
!/usr/bin/env perl
perl ../VelvetOptimiser-2.2.5/VelvetOptimiser.pl -e 75 -f '-fastq -shortPaired ../reads/bactpe.paired.fastq -shortPaired2 ../reads/bactmp.paired.fastq'
SPAdes組裝器
主頁(yè):http://cab.spbu.ru/software/spades/
但是其不適合哺乳動(dòng)物
使用:
spades.py [options] -o <output_dir>
c. 使用 Quast 評(píng)估組件(Evaluate assemblies with Quast)
./quast.py ../contigs/velvet_contigs.fasta --no-plots –s
6 使用CISA整合Assemblies
CISA整合不同的assemblies(來(lái)自Ray和Velvet)
通過這種方式型酥,它旨在在不失去覆蓋范圍的情況下最小化重疊群的總數(shù); 它還具有可以改進(jìn)重疊群的擴(kuò)展選項(xiàng)查乒; 您將使用生成并保存在 contigs 目錄中的兩個(gè)程序集來(lái)測(cè)試此工具弥喉。
使用:
1st: python Merge.py merge.config
需要建一個(gè)參數(shù)文件(merge.config),需要輸入:
eg:
接著使用:python Merge.py merge.config
2nd: python CISA.py cisa.config
再次創(chuàng)建一個(gè)參數(shù)文件(cisa.config):
再運(yùn)行:python CISA.py cisa.config
屏幕最后會(huì)輸出contigs的信息
一旦達(dá)到較少數(shù)量的具有良好基因組覆蓋的contigs,您就可以準(zhǔn)備構(gòu)建contigs玛迄,即由境,將它們按正確的順序和方向放置
7 scaffolding with SSPACE
SSPACE 是一個(gè)獨(dú)立程序,用于使用配對(duì)讀取數(shù)據(jù)構(gòu)建預(yù)組裝的contigs。 通過使用配對(duì)末端和/或配對(duì)數(shù)據(jù)的距離信息虏杰,SSPACE 能夠評(píng)估contigs的順序讥蟆、距離和方向,并將它們組合成支架纺阔。 最終scaffolds以 FASTA 格式提供瘸彤。
使用:
perl SSPACE.pl -l libraries.txt <options>
8 Mapping Scaffolds to a reference
將拼裝的基因組與參考genome比較,驗(yàn)證拼裝的好壞笛钝。
使用工具:CONTIHuator
CONTIGuator 是一種用于在參考基因組上映射contigs的軟件工具钧栖,它允許contigs圖的可視化,強(qiáng)調(diào)遺傳元件的丟失和/或增加婆翔,并允許完成多部分基因組拯杠。
Galardini, M., Biondi, E.G., Bazzicalupo, M. et al. CONTIGuator: a bacterial genomes finishing tool for structural insights on draft genomes. Source Code Biol Med 6, 11 (2011). https://doi.org/10.1186/1751-0473-6-11
從頭組裝基因組特點(diǎn)
其算法會(huì)比較每一個(gè)read和其他read:所以需要memory,很慢啃奴。
編譯器的類型:
1: 貪心算法(greedy algorithms)
2: 啟發(fā)式算法(heuristic algorithms):
重疊/布局/共識(shí)(OLC)
德布魯因圖 (DBG)
k-mer
使用K-merGenie估計(jì)最佳k-mer(http://kmergenie.bx.psu.edu/)
KmerGenie 估計(jì)基因組從頭組裝的最佳 k-mer 長(zhǎng)度潭陪。 給定一組讀數(shù),KmerGenie 首先計(jì)算 k 的許多值的 k-mer 豐度直方圖最蕾。 然后依溯,對(duì)于 k 的每個(gè)值,它預(yù)測(cè)數(shù)據(jù)集中不同基因組 k-mer 的數(shù)量瘟则,并返回使該數(shù)量最大化的 k-mer 長(zhǎng)度黎炉。 在序列組裝中,k-mers 通常用于構(gòu)建 De Bruijn 圖醋拧。
使用: kmergenie <path_to_kmergenie_reads_file.txt>
工作的長(zhǎng)度為k
使用特定的頻率重復(fù)整個(gè)基因組
頻率取決于長(zhǎng)度:
graph 理論
其實(shí)考慮一個(gè)結(jié)構(gòu)包含多少個(gè)nodes和edges
OLC
DBG
組裝的評(píng)價(jià)
覆蓋率百分比
計(jì)算:重疊群的數(shù)量/最長(zhǎng)重疊群的長(zhǎng)度
差距(Gap)百分比
讀取到重疊群的映射
支架(scaffold)和重疊群(conting) N50
組裝使用的文件
當(dāng)組裝時(shí),需要使用兩個(gè)文件:1 contigs, 其具有多種形式: paired-end reads, mate pair read and single-end reads
2 scaffolds