從頭組裝基因組實(shí)踐

一般需要8步驟：

![ME(}JV]M(16}157JQ6TIMWH.png](https://upload-images.jianshu.io/upload_images/24959989-adbdf01af82f0283.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

使用的原始文件

測(cè)序者會(huì)提供兩個(gè)文件：一個(gè)是fastq文件（每個(gè)樣本一般為4行），包含測(cè)序序列邪驮，并且含有Phred quality score
來(lái)自wiki(https://en.wikipedia.org/wiki/Phred_quality_score)
Q= -10log10(P)

image.png

A good score is usually above Q20-30, which means 90-99% of the reads, are accurate. If your coverage is high you can afford to aim for a quality score above 30莫辨。
This module will raise a failure if the lower quartile for any base is less than 5 or if the median for any base is less than 20.

第二是：quality value 文件

QC的軟件

FastQC, FASTX-Toolkit, SolexaQA, Galaxy, Picard

使用FastQC

文檔：https://www.bioinformatics.babraham.ac.uk/projects/fastqc/

查看base的組成（ATGC比例），base的質(zhì)量（phred score）, 測(cè)序重復(fù)水平

per sequence quality score report:
您設(shè)法只保留平均質(zhì)量得分較高的序列（例如 30-34）毅访。

對(duì)于read的correction

需要：去除重復(fù)的reads, 適配體沮榜，潛在污染，和修剪低質(zhì)量的bases, 最后去除短reads喻粹。
工具：Trimmomatic
http://www.usadellab.org/cms/index.php?page=trimmomatic
其是用來(lái)處理：Illumina NGS 數(shù)據(jù)（paired-end and single-ended）處理fastq文件蟆融，對(duì)于phred +33或+64數(shù)據(jù)處理。

java -jar ../Trimmomatic-0.32/trimmomatic-0.32.jar PE -threads 4 -phred33 bactmp1.fastq bactmp2.fastq bactmp1.paired.fastq bactmp1.unpaired.fastq bactmp2.paired.fastq bactmp2.unpaired.fastq ILLUMINACLIP:../programfiles/adapters.fasta:2:30:20 LEADING:20 TRAILING:20 SLIDINGWINDOW:10:20 MINLEN:75

具有參考和從頭組裝比較：

image.png

從頭組裝

需要使用適當(dāng)?shù)慕M裝器來(lái)對(duì)Trimmomatic的文件（）進(jìn)行組裝守呜。

velvet組裝器

介紹與下載：
http://www.ebi.ac.uk/~zerbino/velvet/
http://en.wikipedia.org/wiki/Velvet_assembler

需要兩步完成：
（1）velveth <newfolder> hash_length {[-file_format][-read_type][-separate|-interleaved] filename1 [filename2 ...]}
PS：hash_length : refers to k-value
（2） velvetg <newfolder>

實(shí)際代碼：
elveth denovo/ 45 -fastq -shortPaired ../reads/bactpe.paired.fastq -shortPaired2 ../reads/bactmp.paired.fastq

自動(dòng)進(jìn)行

gedit ../VelvetOptimiser-2.2.5/VelvetOptimiser.pl
cpanm Bio::SeqIO module

!/usr/bin/env perl

perl ../VelvetOptimiser-2.2.5/VelvetOptimiser.pl -e 75 -f '-fastq -shortPaired ../reads/bactpe.paired.fastq -shortPaired2 ../reads/bactmp.paired.fastq'

SPAdes組裝器

主頁(yè)：http://cab.spbu.ru/software/spades/
但是其不適合哺乳動(dòng)物
使用：
$spades.py –-test$ spades.py [options] -o <output_dir>

c. 使用 Quast 評(píng)估組件(Evaluate assemblies with Quast)
./quast.py ../contigs/velvet_contigs.fasta --no-plots –s

6 使用CISA整合Assemblies

CISA整合不同的assemblies(來(lái)自Ray和Velvet)
通過這種方式型酥，它旨在在不失去覆蓋范圍的情況下最小化重疊群的總數(shù)；它還具有可以改進(jìn)重疊群的擴(kuò)展選項(xiàng)查乒；您將使用生成并保存在 contigs 目錄中的兩個(gè)程序集來(lái)測(cè)試此工具弥喉。
使用：

1st: python Merge.py merge.config

需要建一個(gè)參數(shù)文件（merge.config）,需要輸入:

image.png

eg:

image.png

接著使用：python Merge.py merge.config

2nd: python CISA.py cisa.config

再次創(chuàng)建一個(gè)參數(shù)文件（cisa.config）：

image.png

再運(yùn)行：python CISA.py cisa.config
屏幕最后會(huì)輸出contigs的信息

一旦達(dá)到較少數(shù)量的具有良好基因組覆蓋的contigs，您就可以準(zhǔn)備構(gòu)建contigs玛迄，即由境，將它們按正確的順序和方向放置

7 scaffolding with SSPACE

SSPACE 是一個(gè)獨(dú)立程序，用于使用配對(duì)讀取數(shù)據(jù)構(gòu)建預(yù)組裝的contigs。通過使用配對(duì)末端和/或配對(duì)數(shù)據(jù)的距離信息虏杰，SSPACE 能夠評(píng)估contigs的順序讥蟆、距離和方向，并將它們組合成支架纺阔。最終scaffolds以 FASTA 格式提供瘸彤。
使用：
perl SSPACE.pl -l libraries.txt <options>

8 Mapping Scaffolds to a reference

將拼裝的基因組與參考genome比較，驗(yàn)證拼裝的好壞笛钝。
使用工具：CONTIHuator
CONTIGuator 是一種用于在參考基因組上映射contigs的軟件工具钧栖，它允許contigs圖的可視化，強(qiáng)調(diào)遺傳元件的丟失和/或增加婆翔，并允許完成多部分基因組拯杠。
Galardini, M., Biondi, E.G., Bazzicalupo, M. et al. CONTIGuator: a bacterial genomes finishing tool for structural insights on draft genomes. Source Code Biol Med 6, 11 (2011). https://doi.org/10.1186/1751-0473-6-11

從頭組裝基因組特點(diǎn)

其算法會(huì)比較每一個(gè)read和其他read：所以需要memory，很慢啃奴。
編譯器的類型：
1：貪心算法（greedy algorithms）
2：啟發(fā)式算法(heuristic algorithms)：
重疊/布局/共識(shí)（OLC）
德布魯因圖 (DBG)

k-mer

使用K-merGenie估計(jì)最佳k-mer（http://kmergenie.bx.psu.edu/）
KmerGenie 估計(jì)基因組從頭組裝的最佳 k-mer 長(zhǎng)度潭陪。給定一組讀數(shù)，KmerGenie 首先計(jì)算 k 的許多值的 k-mer 豐度直方圖最蕾。然后依溯，對(duì)于 k 的每個(gè)值，它預(yù)測(cè)數(shù)據(jù)集中不同基因組 k-mer 的數(shù)量瘟则，并返回使該數(shù)量最大化的 k-mer 長(zhǎng)度黎炉。在序列組裝中，k-mers 通常用于構(gòu)建 De Bruijn 圖醋拧。
使用： kmergenie <path_to_kmergenie_reads_file.txt>
工作的長(zhǎng)度為k
使用特定的頻率重復(fù)整個(gè)基因組
頻率取決于長(zhǎng)度：

image.png

graph 理論

其實(shí)考慮一個(gè)結(jié)構(gòu)包含多少個(gè)nodes和edges

image.png

OLC

image.png

DBG

image.png

組裝的評(píng)價(jià)

覆蓋率百分比

計(jì)算：

image.png

重疊群的數(shù)量/最長(zhǎng)重疊群的長(zhǎng)度

差距（Gap）百分比
讀取到重疊群的映射
支架(scaffold)和重疊群(conting) N50

組裝使用的文件

當(dāng)組裝時(shí)，需要使用兩個(gè)文件：1 contigs, 其具有多種形式： paired-end reads, mate pair read and single-end reads
2 scaffolds

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末丹壕，一起剝皮案震驚了整個(gè)濱河市庆械，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌菌赖，老刑警劉巖缭乘，帶你破解...
沈念sama閱讀 211,639評(píng)論 6贊 492
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異琉用，居然都是意外死亡堕绩，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 90,277評(píng)論 3贊 385
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門邑时，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)奴紧，“玉大人，你說(shuō)我怎么就攤上這事刁愿〈履” “怎么了到逊？”我有些...
開封第一講書人閱讀 157,221評(píng)論 0贊 348
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵铣口，是天一觀的道長(zhǎng)滤钱。經(jīng)常有香客問我，道長(zhǎng)脑题，這世上最難降的妖魔是什么件缸？我笑而不...
開封第一講書人閱讀 56,474評(píng)論 1贊 283
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮叔遂，結(jié)果婚禮上他炊，老公的妹妹穿的比我還像新娘。我一直安慰自己已艰，他們只是感情好痊末，可當(dāng)我...
茶點(diǎn)故事閱讀 65,570評(píng)論 6贊 386
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開白布。她就那樣靜靜地躺著哩掺，像睡著了一般凿叠。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上嚼吞，一...
開封第一講書人閱讀 49,816評(píng)論 1贊 290
城市分裂傳說(shuō)
那天盒件，我揣著相機(jī)與錄音，去河邊找鬼舱禽。笑死炒刁，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的誊稚。我是一名探鬼主播翔始，決...
沈念sama閱讀 38,957評(píng)論 3贊 408
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼里伯！你這毒婦竟也來(lái)了绽昏？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 37,718評(píng)論 0贊 266
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤俏脊，失蹤者是張志新（化名）和其女友劉穎全谤，沒想到半個(gè)月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體爷贫，經(jīng)...
沈念sama閱讀 44,176評(píng)論 1贊 303
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡认然，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 36,511評(píng)論 2贊 327
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了漫萄。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片卷员。...
茶點(diǎn)故事閱讀 38,646評(píng)論 1贊 340
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡奕枢，死狀恐怖瘪板，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情奏候，我是刑警寧澤，帶...
沈念sama閱讀 34,322評(píng)論 4贊 330
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布未巫，位于F島的核電站窿撬，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏叙凡。R本人自食惡果不足惜劈伴，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,934評(píng)論 3贊 313
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望握爷。院中可真熱鬧跛璧，春花似錦、人聲如沸新啼。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,755評(píng)論 0贊 21
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)燥撞。三九已至漓柑，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間叨吮，已是汗流浹背辆布。一陣腳步聲響...
開封第一講書人閱讀 31,987評(píng)論 1贊 266
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留茶鉴，地道東北人锋玲。一個(gè)月前我還...
沈念sama閱讀 46,358評(píng)論 2贊 360
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像涵叮，于是被迫代替她去往敵國(guó)和親惭蹂。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 43,514評(píng)論 2贊 348

從頭組裝基因組實(shí)踐

使用的原始文件

QC的軟件

使用FastQC

對(duì)于read的correction

從頭組裝

velvet組裝器

自動(dòng)進(jìn)行

!/usr/bin/env perl

SPAdes組裝器

6 使用CISA整合Assemblies

1st: python Merge.py merge.config

2nd: python CISA.py cisa.config

7 scaffolding with SSPACE

8 Mapping Scaffolds to a reference

從頭組裝基因組特點(diǎn)

k-mer

graph 理論

OLC

DBG

組裝的評(píng)價(jià)

組裝使用的文件

推薦閱讀更多精彩內(nèi)容