從頭組裝基因組實(shí)踐

一般需要8步驟:

![ME(}JV]M(16}157JQ6TIMWH.png](https://upload-images.jianshu.io/upload_images/24959989-adbdf01af82f0283.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

使用的原始文件

測(cè)序者會(huì)提供兩個(gè)文件: 一個(gè)是fastq文件(每個(gè)樣本一般為4行),包含測(cè)序序列邪驮,并且含有Phred quality score
來(lái)自wiki(https://en.wikipedia.org/wiki/Phred_quality_score)
Q= -10log10(P)

image.png

A good score is usually above Q20-30, which means 90-99% of the reads, are accurate. If your coverage is high you can afford to aim for a quality score above 30莫辨。
This module will raise a failure if the lower quartile for any base is less than 5 or if the median for any base is less than 20.

第二是:quality value 文件

QC的軟件

FastQC, FASTX-Toolkit, SolexaQA, Galaxy, Picard

使用FastQC

文檔:https://www.bioinformatics.babraham.ac.uk/projects/fastqc/

查看base的組成(ATGC比例),base的質(zhì)量(phred score), 測(cè)序重復(fù)水平

per sequence quality score report:
您設(shè)法只保留平均質(zhì)量得分較高的序列(例如 30-34)毅访。

對(duì)于read的correction

需要:去除重復(fù)的reads, 適配體沮榜, 潛在污染,和修剪低質(zhì)量的bases, 最后去除短reads喻粹。
工具:Trimmomatic
http://www.usadellab.org/cms/index.php?page=trimmomatic
其是用來(lái)處理:Illumina NGS 數(shù)據(jù)(paired-end and single-ended)處理fastq文件蟆融,對(duì)于phred +33或+64數(shù)據(jù)處理。

java -jar ../Trimmomatic-0.32/trimmomatic-0.32.jar PE -threads 4 -phred33 bactmp1.fastq bactmp2.fastq bactmp1.paired.fastq bactmp1.unpaired.fastq bactmp2.paired.fastq bactmp2.unpaired.fastq ILLUMINACLIP:../programfiles/adapters.fasta:2:30:20 LEADING:20 TRAILING:20 SLIDINGWINDOW:10:20 MINLEN:75

具有參考和從頭組裝比較:


image.png

從頭組裝

需要使用適當(dāng)?shù)慕M裝器來(lái)對(duì)Trimmomatic的文件()進(jìn)行組裝守呜。

velvet組裝器

介紹與下載:
http://www.ebi.ac.uk/~zerbino/velvet/
http://en.wikipedia.org/wiki/Velvet_assembler

需要兩步完成:
(1)velveth <newfolder> hash_length {[-file_format][-read_type][-separate|-interleaved] filename1 [filename2 ...]}
PS:hash_length : refers to k-value
(2) velvetg <newfolder>

實(shí)際代碼:
elveth denovo/ 45 -fastq -shortPaired ../reads/bactpe.paired.fastq -shortPaired2 ../reads/bactmp.paired.fastq

自動(dòng)進(jìn)行

gedit ../VelvetOptimiser-2.2.5/VelvetOptimiser.pl
cpanm Bio::SeqIO module

!/usr/bin/env perl

perl ../VelvetOptimiser-2.2.5/VelvetOptimiser.pl -e 75 -f '-fastq -shortPaired ../reads/bactpe.paired.fastq -shortPaired2 ../reads/bactmp.paired.fastq'

SPAdes組裝器

主頁(yè):http://cab.spbu.ru/software/spades/
但是其不適合哺乳動(dòng)物
使用:
spades.py –-test spades.py [options] -o <output_dir>

c. 使用 Quast 評(píng)估組件(Evaluate assemblies with Quast)
./quast.py ../contigs/velvet_contigs.fasta --no-plots –s

6 使用CISA整合Assemblies

CISA整合不同的assemblies(來(lái)自Ray和Velvet)
通過這種方式型酥,它旨在在不失去覆蓋范圍的情況下最小化重疊群的總數(shù); 它還具有可以改進(jìn)重疊群的擴(kuò)展選項(xiàng)查乒; 您將使用生成并保存在 contigs 目錄中的兩個(gè)程序集來(lái)測(cè)試此工具弥喉。
使用:

1st: python Merge.py merge.config

需要建一個(gè)參數(shù)文件(merge.config),需要輸入:


image.png

eg:


image.png

接著使用:python Merge.py merge.config

2nd: python CISA.py cisa.config

再次創(chuàng)建一個(gè)參數(shù)文件(cisa.config):


image.png

再運(yùn)行:python CISA.py cisa.config
屏幕最后會(huì)輸出contigs的信息

一旦達(dá)到較少數(shù)量的具有良好基因組覆蓋的contigs,您就可以準(zhǔn)備構(gòu)建contigs玛迄,即由境,將它們按正確的順序和方向放置

7 scaffolding with SSPACE

SSPACE 是一個(gè)獨(dú)立程序,用于使用配對(duì)讀取數(shù)據(jù)構(gòu)建預(yù)組裝的contigs。 通過使用配對(duì)末端和/或配對(duì)數(shù)據(jù)的距離信息虏杰,SSPACE 能夠評(píng)估contigs的順序讥蟆、距離和方向,并將它們組合成支架纺阔。 最終scaffolds以 FASTA 格式提供瘸彤。
使用:
perl SSPACE.pl -l libraries.txt <options>

8 Mapping Scaffolds to a reference

將拼裝的基因組與參考genome比較,驗(yàn)證拼裝的好壞笛钝。
使用工具:CONTIHuator
CONTIGuator 是一種用于在參考基因組上映射contigs的軟件工具钧栖,它允許contigs圖的可視化,強(qiáng)調(diào)遺傳元件的丟失和/或增加婆翔,并允許完成多部分基因組拯杠。
Galardini, M., Biondi, E.G., Bazzicalupo, M. et al. CONTIGuator: a bacterial genomes finishing tool for structural insights on draft genomes. Source Code Biol Med 6, 11 (2011). https://doi.org/10.1186/1751-0473-6-11

從頭組裝基因組特點(diǎn)

其算法會(huì)比較每一個(gè)read和其他read:所以需要memory,很慢啃奴。
編譯器的類型:
1: 貪心算法(greedy algorithms)
2: 啟發(fā)式算法(heuristic algorithms):
重疊/布局/共識(shí)(OLC)
德布魯因圖 (DBG)

k-mer

使用K-merGenie估計(jì)最佳k-mer(http://kmergenie.bx.psu.edu/
KmerGenie 估計(jì)基因組從頭組裝的最佳 k-mer 長(zhǎng)度潭陪。 給定一組讀數(shù),KmerGenie 首先計(jì)算 k 的許多值的 k-mer 豐度直方圖最蕾。 然后依溯,對(duì)于 k 的每個(gè)值,它預(yù)測(cè)數(shù)據(jù)集中不同基因組 k-mer 的數(shù)量瘟则,并返回使該數(shù)量最大化的 k-mer 長(zhǎng)度黎炉。 在序列組裝中,k-mers 通常用于構(gòu)建 De Bruijn 圖醋拧。
使用: kmergenie <path_to_kmergenie_reads_file.txt>
工作的長(zhǎng)度為k
使用特定的頻率重復(fù)整個(gè)基因組
頻率取決于長(zhǎng)度:

image.png

graph 理論

其實(shí)考慮一個(gè)結(jié)構(gòu)包含多少個(gè)nodes和edges


image.png

OLC

image.png

DBG

image.png

組裝的評(píng)價(jià)

覆蓋率百分比

計(jì)算:
image.png
重疊群的數(shù)量/最長(zhǎng)重疊群的長(zhǎng)度

差距(Gap)百分比
讀取到重疊群的映射
支架(scaffold)和重疊群(conting) N50

組裝使用的文件

當(dāng)組裝時(shí),需要使用兩個(gè)文件:1 contigs, 其具有多種形式: paired-end reads, mate pair read and single-end reads
2 scaffolds

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末丹壕,一起剝皮案震驚了整個(gè)濱河市庆械,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌菌赖,老刑警劉巖缭乘,帶你破解...
    沈念sama閱讀 211,639評(píng)論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異琉用,居然都是意外死亡堕绩,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,277評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門邑时,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)奴紧,“玉大人,你說(shuō)我怎么就攤上這事刁愿〈履” “怎么了到逊?”我有些...
    開封第一講書人閱讀 157,221評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵铣口,是天一觀的道長(zhǎng)滤钱。 經(jīng)常有香客問我,道長(zhǎng)脑题,這世上最難降的妖魔是什么件缸? 我笑而不...
    開封第一講書人閱讀 56,474評(píng)論 1 283
  • 正文 為了忘掉前任,我火速辦了婚禮叔遂,結(jié)果婚禮上他炊,老公的妹妹穿的比我還像新娘。我一直安慰自己已艰,他們只是感情好痊末,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,570評(píng)論 6 386
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著哩掺,像睡著了一般凿叠。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上嚼吞,一...
    開封第一講書人閱讀 49,816評(píng)論 1 290
  • 那天盒件,我揣著相機(jī)與錄音,去河邊找鬼舱禽。 笑死炒刁,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的誊稚。 我是一名探鬼主播翔始,決...
    沈念sama閱讀 38,957評(píng)論 3 408
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼里伯!你這毒婦竟也來(lái)了绽昏?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,718評(píng)論 0 266
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤俏脊,失蹤者是張志新(化名)和其女友劉穎全谤,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體爷贫,經(jīng)...
    沈念sama閱讀 44,176評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡认然,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,511評(píng)論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了漫萄。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片卷员。...
    茶點(diǎn)故事閱讀 38,646評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡奕枢,死狀恐怖瘪板,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情奏候,我是刑警寧澤,帶...
    沈念sama閱讀 34,322評(píng)論 4 330
  • 正文 年R本政府宣布未巫,位于F島的核電站窿撬,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏叙凡。R本人自食惡果不足惜劈伴,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,934評(píng)論 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望握爷。 院中可真熱鬧跛璧,春花似錦、人聲如沸新啼。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,755評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)燥撞。三九已至漓柑,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間叨吮,已是汗流浹背辆布。 一陣腳步聲響...
    開封第一講書人閱讀 31,987評(píng)論 1 266
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留茶鉴,地道東北人锋玲。 一個(gè)月前我還...
    沈念sama閱讀 46,358評(píng)論 2 360
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像涵叮,于是被迫代替她去往敵國(guó)和親惭蹂。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,514評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容