序列拼接 - Velvet

基因組測序數(shù)據(jù)的從頭組裝過程：測序讀段（reads) > contig > scaffold > chromosome

1.核心算法

基因組測序數(shù)據(jù)的從頭組裝的的核心算法主要可以分為以下幾大類：

基于貪婪算法（greedy-extention）(基本淘汰）廓鞠；
基于Overlap-Layout-Consensus（OLC）（適用于一代測序**）；
基于de Bruijn Graph；
以上兩種或多種算法的組合浪感；
其他類型莱革。
結(jié)果比較：contig N50, scaffold N50, BUSCO

2. 一般步驟

第一步是數(shù)據(jù)質(zhì)控控制 - fastp
第二步茧妒，確定起始參數(shù)，如K-mer和覆蓋率
第三步狰腌，使用不同軟件進(jìn)行組裝；
第四步，評估組裝結(jié)果甥材，如contig N50, scaffold N50, 判斷是否需要修改參數(shù)重新組裝。(QUAST和BUSCO)

3. 序列拼接 - velvet

1. Velvet - Current version: 1.2.10

一般工作過程簡化為：輸入short reads序列 > 排除錯誤 > 產(chǎn)生高質(zhì)量的contigs > 用paired-end reads和long reads信息檢索contigs之間的重復(fù)區(qū)域。

2. Velvet下載安裝

下載velvet的安裝包，直接使用make命令來編譯抄腔，即可獲得可執(zhí)行主程序velveth和velvetg绵患。安裝如下：

wget \ 
-O velvet.tgz
http://www.ebi.ac.uk/~zerbino/velvet/velvet_....tgz
tar zxf velvet.tgz
cd velvet.tgz
make 'CATEGORIES=10' 'MAXKMERLENGTH=57'\ 'LONGSEQUENCES=1' 'OPENMP=1' 'BUNDLEDZLIB=1'

參數(shù)詳解

CATEGORIES=10：輸入 10 groups of short reads。根據(jù)原始數(shù)據(jù)相應(yīng)增減該值的大幸破取荡陷；值越大徽龟，耗內(nèi)存越大。
MAXKMERLENGTH=31：最大的Kmer長度31（默認(rèn)為 31）。(k-mers一般選擇17即可讼昆，對于高度重復(fù)基因組或者基因組過大赃绊，可以選擇19甚至31也行。但不是越大越好传惠，kmer越大泰佳，越耗內(nèi)存,而且如果一條reads里有一個錯誤位點，越大的k-mers就會導(dǎo)致包含這個錯誤位點的k-mers個數(shù)增多)
BIGASSEMBLY=1：超過 2.2G 的reads用于組裝基因組的時候，需要設(shè)置該值。
LONGSEQUENCES=1：當(dāng)contigs長度超過 32kb 長的時候蜕猫，需要設(shè)置該值。
OPENMP=1：多線程運(yùn)行。需要設(shè)置環(huán)境變量 OMP_NUM_THREADS 和 OMP_THREAD_LIMIT蹬屹。最多為 OMP_NUM_THREADS+1 或 OMP_THREAD_LIMIT 個線程.
BUNDLEDZLIB=1： velvet默認(rèn)使用系統(tǒng)自帶的zlib，如果系統(tǒng)沒有zlib，則需要加入該參數(shù)來使用velvet源碼包中的zlib.

3. 功能介紹

velveth - 準(zhǔn)備數(shù)據(jù)

利用velvet自帶的兩個腳本程序?qū)γ恳粋€pair-end數(shù)據(jù)進(jìn)行合并

#fasta 格式
?shuffleSequences_fasta.pl s1_1.fasta s1_2.fasta s1.fasta
    ?
#fastq 格式
shuffleSequences_fastq.pl s1_1.fq s1_2.fq s1.fq

格式化

代碼：./velveth directory/ hash_length

[-file_format] [-read_type] [filename] [options]

當(dāng)有多個文庫的時候，按照粗體部分的格式重復(fù)寫。

directory：輸出文件所在路徑的名字（即創(chuàng)建一個文件夾存放結(jié)果文件）

hash_length：也叫k-mer length(起始設(shè)定塘慕，值越大蛤织，內(nèi)存需求越大)

filename：標(biāo)準(zhǔn)輸入文件名

Options:

-strand_specific：轉(zhuǎn)錄組序列數(shù)據(jù)，默認(rèn)為off

支持的文件格式：fasta（默認(rèn)），fastq，fasta.gz，fastq.gz，eland肯夏，gerald徊都。

讀類別：short槽奕，shortPaired夯接，short2问欠，shortPaired2注整，long驼唱，longPaired。默認(rèn)為short

例子：

 ./velveth output_directory/ 21 –fasta –short solexa1.fa solexa2.fa solexa3.fa –long capillary.fa </pre>

Velvetg - 序列組裝

代碼：./velvetg directory [options]

directory：工作路徑名

Standard options：

-cov_cutoff <floating-point|auto>：移除低覆蓋率的node惭婿，默認(rèn)不移除

#參數(shù)名 + 數(shù)字，如：
    ./velvetg output_directory/ -cov_cutoff 5.2

-ins_length <integer>：two paired end reads之間的期望距離漓滔，默認(rèn)no read pairing

-read_trkg <yes|no>：在集合中對short read位置進(jìn)行跟蹤秽誊，默認(rèn)不跟蹤

-min_contig_lgth <int>：導(dǎo)出到contig.fa文件中的最小contig長度，默認(rèn)為hash長度的2倍

-amos_file <yes|no>：導(dǎo)出到AMOS文件中，默認(rèn)不導(dǎo)出（no）

-exp_cov <floating point|auto>：唯一區(qū)域的期望覆蓋率

Advanced options:

-ins_length2 <int>：兩個paired-end reads在第二個short-read數(shù)據(jù)集中的期望距離鄙早，默認(rèn)否

-ins_length_long <integer>：兩個long paired-end reads的期望距離，默認(rèn)否

-ins_length_sd <int>：數(shù)據(jù)集的標(biāo)準(zhǔn)差躯舔，默認(rèn)corresponding length的10%（代表：nothing布讹，2，_long）

-scaffolding <yes|no>：scaffolding of contigs used paired end information (default: on)-->

-max_pergence <floating-point>：在一個bubble中的兩個分支的最大分歧率画恰，默認(rèn)0.2-->

-min_pair_count <integer>：構(gòu)成兩個長contigs的paired end的最小值甩鳄，默認(rèn)10

-max_coverage <floating point>：在tour bus后移除高覆蓋率的node

-long_mult_cutoff <int>：合并contig的long reads的最小值抑胎，默認(rèn)2

-unused_reads <yes|no>：將不用的reads導(dǎo)出到UnusedReads.fa文件中，默認(rèn)否

-alignments <yes|no>：導(dǎo)出一個主要的contig并和參照序列對其肪跋，默認(rèn)否

velvetg - 輸出結(jié)果

directory/contigs.fa 長度2倍長于kmer的contigs； -scaffolding決定生成的fasta文件是否包含scaffold序列造寝；
directory/stats.txt - 決定覆蓋度cutoff的統(tǒng)計表
directory/PreGraph - 初始的de vruijin圖
directory/Graph2 - 最終de bruijin圖签赃。
directory/velvet_asm.afg - MOS兼容的文件锦聊，能用于AMOS基因組組裝軟件包
directory/Log velvet的運(yùn)行記錄

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末卑吭，一起剝皮案震驚了整個濱河市豆赏，隨后出現(xiàn)的幾起案子己单，更是在濱河造成了極大的恐慌蔓涧，老刑警劉巖，帶你破解...
沈念sama閱讀 221,548評論 6贊 515
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件核蘸，死亡現(xiàn)場離奇詭異，居然都是意外死亡疆偿，警方通過查閱死者的電腦和手機(jī)咱筛，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 94,497評論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來杆故，“玉大人迅箩，你說我怎么就攤上這事〈︻酰” “怎么了饲趋？”我有些...
開封第一講書人閱讀 167,990評論 0贊 360
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長撤蟆。經(jīng)常有香客問我奕塑，道長，這世上最難降的妖魔是什么家肯？我笑而不...
開封第一講書人閱讀 59,618評論 1贊 296
?港島之戀（遺憾婚禮）
正文為了忘掉前任龄砰，我火速辦了婚禮，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘换棚。我一直安慰自己式镐，他們只是感情好，可當(dāng)我...
茶點故事閱讀 68,618評論 6贊 397
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布固蚤。她就那樣靜靜地躺著娘汞，像睡著了一般。火紅的嫁衣襯著肌膚如雪夕玩。梳的紋絲不亂的頭發(fā)上你弦，一...
開封第一講書人閱讀 52,246評論 1贊 308
城市分裂傳說
那天，我揣著相機(jī)與錄音风秤，去河邊找鬼鳖目。笑死，一個胖子當(dāng)著我的面吹牛缤弦，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播彻磁，決...
沈念sama閱讀 40,819評論 3贊 421
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼碍沐，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了衷蜓？” 一聲冷哼從身側(cè)響起累提，我...
開封第一講書人閱讀 39,725評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎磁浇，沒想到半個月后斋陪，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 46,268評論 1贊 320
?護(hù)林員之死
正文獨居荒郊野嶺守林人離奇死亡置吓，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 38,356評論 3贊 340
?白月光啟示錄
正文我和宋清朗相戀三年无虚，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片衍锚。...
茶點故事閱讀 40,488評論 1贊 352
活死人
序言：一個原本活蹦亂跳的男人離奇死亡友题，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出戴质，到底是詐尸還是另有隱情度宦，我是刑警寧澤，帶...
沈念sama閱讀 36,181評論 5贊 350
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布告匠，位于F島的核電站戈抄，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏后专。R本人自食惡果不足惜划鸽，卻給世界環(huán)境...
茶點故事閱讀 41,862評論 3贊 333
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望行贪。院中可真熱鬧漾稀，春花似錦模闲、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,331評論 0贊 24
一樁弒父案尸折，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至殷蛇，卻和暖如春实夹，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背粒梦。一陣腳步聲響...
開封第一講書人閱讀 33,445評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工亮航，沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人匀们。一個月前我還...
沈念sama閱讀 48,897評論 3贊 376
代替公主和親
正文我出身青樓缴淋，卻偏偏與公主長得像，于是被迫代替她去往敵國和親泄朴。傳聞我的和親對象是個殘疾皇子重抖，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 45,500評論 2贊 359