序列拼接 - Velvet

基因組測序數(shù)據(jù)的從頭組裝過程:測序讀段(reads) > contig > scaffold > chromosome

1.核心算法

基因組測序數(shù)據(jù)的從頭組裝的的核心算法主要可以分為以下幾大類:

  1. 基于貪婪算法(greedy-extention)(基本淘汰)廓鞠;

  2. 基于Overlap-Layout-Consensus(OLC)(適用于一代測序**);

  3. 基于de Bruijn Graph

  4. 以上兩種或多種算法的組合浪感;

  5. 其他類型莱革。

  6. 結(jié)果比較:contig N50, scaffold N50, BUSCO

2. 一般步驟

  1. 第一步是數(shù)據(jù)質(zhì)控控制 - fastp

  2. 第二步茧妒,確定起始參數(shù),如K-mer和覆蓋率

  3. 第三步狰腌,使用不同軟件進(jìn)行組裝;

  4. 第四步,評估組裝結(jié)果甥材,如contig N50, scaffold N50, 判斷是否需要修改參數(shù)重新組裝。(QUAST和BUSCO)

3. 序列拼接 - velvet

1. Velvet - Current version: 1.2.10

一般工作過程簡化為:輸入short reads序列 > 排除錯誤 > 產(chǎn)生高質(zhì)量的contigs > 用paired-end reads和long reads信息檢索contigs之間的重復(fù)區(qū)域。

2. Velvet下載安裝

  • 下載velvet的安裝包,直接使用make命令來編譯抄腔,即可獲得可執(zhí)行主程序velveth和velvetg绵患。安裝如下:
wget \ 
-O velvet.tgz
http://www.ebi.ac.uk/~zerbino/velvet/velvet_....tgz
tar zxf velvet.tgz
cd velvet.tgz
make 'CATEGORIES=10' 'MAXKMERLENGTH=57'\ 'LONGSEQUENCES=1' 'OPENMP=1' 'BUNDLEDZLIB=1'

參數(shù)詳解

  • CATEGORIES=10: 輸入 10 groups of short reads。根據(jù)原始數(shù)據(jù)相應(yīng)增減該值的大幸破取荡陷;值越大徽龟,耗內(nèi)存越大。

  • MAXKMERLENGTH=31: 最大的Kmer長度31(默認(rèn)為 31)。(k-mers一般選擇17即可讼昆,對于高度重復(fù)基因組或者基因組過大赃绊,可以選擇19甚至31也行。但不是越大越好传惠,kmer越大泰佳,越耗內(nèi)存,而且如果一條reads里有一個錯誤位點,越大的k-mers就會導(dǎo)致包含這個錯誤位點的k-mers個數(shù)增多)

  • BIGASSEMBLY=1: 超過 2.2G 的reads用于組裝基因組的時候,需要設(shè)置該值。

  • LONGSEQUENCES=1: 當(dāng)contigs長度超過 32kb 長的時候蜕猫,需要設(shè)置該值。

  • OPENMP=1:多線程運(yùn)行。需要設(shè)置環(huán)境變量 OMP_NUM_THREADS 和 OMP_THREAD_LIMIT蹬屹。最多為 OMP_NUM_THREADS+1 或 OMP_THREAD_LIMIT 個線程.

  • BUNDLEDZLIB=1: velvet默認(rèn)使用系統(tǒng)自帶的zlib,如果系統(tǒng)沒有zlib,則需要加入該參數(shù)來使用velvet源碼包中的zlib.

3. 功能介紹

  1. velveth - 準(zhǔn)備數(shù)據(jù)

利用velvet自帶的兩個腳本程序?qū)γ恳粋€pair-end數(shù)據(jù)進(jìn)行合并

#fasta 格式
?shuffleSequences_fasta.pl s1_1.fasta s1_2.fasta s1.fasta
    ?
#fastq 格式
shuffleSequences_fastq.pl s1_1.fq s1_2.fq s1.fq
  1. 格式化

    代碼:./velveth directory/ hash_length

    [-file_format] [-read_type] [filename] [options]

    當(dāng)有多個文庫的時候,按照粗體部分的格式重復(fù)寫。

    directory:輸出文件所在路徑的名字(即創(chuàng)建一個文件夾存放結(jié)果文件

    hash_length:也叫k-mer length(起始設(shè)定塘慕,值越大蛤织,內(nèi)存需求越大)

    filename:標(biāo)準(zhǔn)輸入文件名

    Options:

    -strand_specific:轉(zhuǎn)錄組序列數(shù)據(jù),默認(rèn)為off

    支持的文件格式:fasta(默認(rèn)),fastq,fasta.gz,fastq.gz,eland肯夏,gerald徊都。

    讀類別:short槽奕,shortPaired夯接,short2问欠,shortPaired2注整,long驼唱,longPaired。默認(rèn)為short

例子:

 ./velveth output_directory/ 21 –fasta –short solexa1.fa solexa2.fa solexa3.fa –long capillary.fa </pre>
  1. Velvetg - 序列組裝

代碼:./velvetg directory [options]

directory:工作路徑名

Standard options:

-cov_cutoff <floating-point|auto>:移除低覆蓋率的node惭婿,默認(rèn)不移除

#參數(shù)名 + 數(shù)字,如:
    ./velvetg output_directory/ -cov_cutoff 5.2

-ins_length <integer>:two paired end reads之間的期望距離漓滔,默認(rèn)no read pairing

-read_trkg <yes|no>:在集合中對short read位置進(jìn)行跟蹤秽誊,默認(rèn)不跟蹤

-min_contig_lgth <int>:導(dǎo)出到contig.fa文件中的最小contig長度,默認(rèn)為hash長度的2倍

-amos_file <yes|no>:導(dǎo)出到AMOS文件中,默認(rèn)不導(dǎo)出(no)

-exp_cov <floating point|auto>:唯一區(qū)域的期望覆蓋率

Advanced options:

-ins_length2 <int>:兩個paired-end reads在第二個short-read數(shù)據(jù)集中的期望距離鄙早,默認(rèn)否

-ins_length_long <integer>:兩個long paired-end reads的期望距離,默認(rèn)否

-ins_length_sd <int>:數(shù)據(jù)集的標(biāo)準(zhǔn)差躯舔,默認(rèn)corresponding length的10%(代表:nothing布讹,2,_long)

-scaffolding <yes|no>:scaffolding of contigs used paired end information (default: on)-->

-max_pergence <floating-point>:在一個bubble中的兩個分支的最大分歧率画恰,默認(rèn)0.2-->

-min_pair_count <integer>:構(gòu)成兩個長contigs的paired end的最小值甩鳄,默認(rèn)10

-max_coverage <floating point>:在tour bus后移除高覆蓋率的node

-long_mult_cutoff <int>:合并contig的long reads的最小值抑胎,默認(rèn)2

-unused_reads <yes|no>:將不用的reads導(dǎo)出到UnusedReads.fa文件中,默認(rèn)否

-alignments <yes|no>:導(dǎo)出一個主要的contig并和參照序列對其肪跋,默認(rèn)否

  1. velvetg - 輸出結(jié)果
  • directory/contigs.fa 長度2倍長于kmer的contigs; -scaffolding決定生成的fasta文件是否包含scaffold序列造寝;
  • directory/stats.txt - 決定覆蓋度cutoff的統(tǒng)計表
  • directory/PreGraph - 初始的de vruijin圖
  • directory/Graph2 - 最終de bruijin圖签赃。
  • directory/velvet_asm.afg - MOS兼容的文件锦聊,能用于AMOS基因組組裝軟件包
  • directory/Log velvet的運(yùn)行記錄
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末卑吭,一起剝皮案震驚了整個濱河市豆赏,隨后出現(xiàn)的幾起案子己单,更是在濱河造成了極大的恐慌蔓涧,老刑警劉巖,帶你破解...
    沈念sama閱讀 221,548評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件核蘸,死亡現(xiàn)場離奇詭異,居然都是意外死亡疆偿,警方通過查閱死者的電腦和手機(jī)咱筛,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,497評論 3 399
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來杆故,“玉大人迅箩,你說我怎么就攤上這事〈︻酰” “怎么了饲趋?”我有些...
    開封第一講書人閱讀 167,990評論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長撤蟆。 經(jīng)常有香客問我奕塑,道長,這世上最難降的妖魔是什么家肯? 我笑而不...
    開封第一講書人閱讀 59,618評論 1 296
  • 正文 為了忘掉前任龄砰,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘换棚。我一直安慰自己式镐,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 68,618評論 6 397
  • 文/花漫 我一把揭開白布固蚤。 她就那樣靜靜地躺著娘汞,像睡著了一般。 火紅的嫁衣襯著肌膚如雪夕玩。 梳的紋絲不亂的頭發(fā)上你弦,一...
    開封第一講書人閱讀 52,246評論 1 308
  • 那天,我揣著相機(jī)與錄音风秤,去河邊找鬼鳖目。 笑死,一個胖子當(dāng)著我的面吹牛缤弦,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播彻磁,決...
    沈念sama閱讀 40,819評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼碍沐,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了衷蜓?” 一聲冷哼從身側(cè)響起累提,我...
    開封第一講書人閱讀 39,725評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎磁浇,沒想到半個月后斋陪,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,268評論 1 320
  • 正文 獨居荒郊野嶺守林人離奇死亡置吓,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,356評論 3 340
  • 正文 我和宋清朗相戀三年无虚,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片衍锚。...
    茶點故事閱讀 40,488評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡友题,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出戴质,到底是詐尸還是另有隱情度宦,我是刑警寧澤,帶...
    沈念sama閱讀 36,181評論 5 350
  • 正文 年R本政府宣布告匠,位于F島的核電站戈抄,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏后专。R本人自食惡果不足惜划鸽,卻給世界環(huán)境...
    茶點故事閱讀 41,862評論 3 333
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望行贪。 院中可真熱鬧漾稀,春花似錦模闲、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,331評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至殷蛇,卻和暖如春实夹,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背粒梦。 一陣腳步聲響...
    開封第一講書人閱讀 33,445評論 1 272
  • 我被黑心中介騙來泰國打工亮航, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人匀们。 一個月前我還...
    沈念sama閱讀 48,897評論 3 376
  • 正文 我出身青樓缴淋,卻偏偏與公主長得像,于是被迫代替她去往敵國和親泄朴。 傳聞我的和親對象是個殘疾皇子重抖,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,500評論 2 359

推薦閱讀更多精彩內(nèi)容