宏基因組組裝:從what 到how

宏基因組分析教程
microPITA | 宏基因組測序前凿试,你可以這樣篩選樣本
microPITA
加拿大安大略研究所建立的生物信息網(wǎng)

1. 什么是 組裝?

基因組測序時將測得的各短序列拼接成連續(xù)完整的序列

簡單地說就是從reads 到 Scaftig的過程平夜。


assembly.png

2. 為什么要組裝?

因?yàn)槟壳岸鷾y序的序列讀長比較短最長只有300bp

  • Assembly improves annotation accuracy
Assembly for Metagenomics?

3. 怎樣組裝卸亮?

經(jīng)過預(yù)處理后得到 Clean Data忽妒,使用 SOAP denovo(腸道樣品用soapdenovo || soil,water用MEGAHIT)組裝軟件進(jìn)行組裝分析( Assembly Analysis )

不同組裝軟件組裝結(jié)果的對比

如何選擇組裝軟件:↓↓↓

 if (micro diversity is not a major issue&& the primary research goal is to bin && reconstruct representative bacterial genomes from a given environment){

  metaSPAdes should clearly be the assembler of choice. # This assembler yields the best contig size statistics  while capturing a high degree of community diversity, even at high complexity and low read coverage;

}elsif(mico diversity is however an issue || the degree of
  captured diversity is far more important than contig
  lengths){

  then IDBA-UD or Megahit should be preferred. #  The sensitivity of these assemblers, both for diversity as  well as micro diversity, makes them optimal choices when trying to discover novel species in complex habitats. Whenever computational resources become limiting, 
  Megahit becomes the most attractive option, due to its good compromise between contig size statistics, captured diversity and required memory.
}

 However, the bias of Megahit towards relatively low coverage genomes may provide a disadvantage for very large datasets, leading to a suboptimal assembly of high abundant community member genomes.
 In such cases, Megahit may provide better results when assembling subsets of the sequencing data in a “divide and conquer” approach.
  • Published: January 18, 2017 · plosone

Comparing and Evaluating Metagenome Assembly Tools from a Microbiologist’s Perspective - Not Only Size Matters!

宏基因組組裝有兩種常見策略:

  • 1基于序列overlap關(guān)系進(jìn)行拼接,代表軟件有Omega兼贸;
  • 2 基于de Bruijn圖進(jìn)行組裝

由于現(xiàn)階段的主流測序方法是二代短片段測序段直,序列短而且數(shù)目龐大,如果利用overlap關(guān)系直接進(jìn)行組裝溶诞,這要求每對reads之間都進(jìn)行一次序列比較鸯檬,這會很耗費(fèi)時間,而且結(jié)果并不可靠很澄。為迎合二代測序的特點(diǎn)京闰,一種基于k-mer的de Bruijn組裝策略則成為更有效的解決方法。

de Bruijn組裝原理
    SOAPdenovo-63mer all -d 1 -M 3 -R  -u -F  -s KB1.soapdenovo.cfg -K 55 -o 55 1>ass.55.log 2>ass.55.err
-d  <int>         去除kmers頻數(shù)不大于該值(kmerFreqCutoff)的k-mer甩苛,默認(rèn)值[0] ##最小化錯誤測序帶來的影響
-M  <int>         在contiging操作時蹂楣,合并相似序列的強(qiáng)度,默認(rèn)值為[1]讯蒲,最小值0痊土,最大值3。#deal with heterozygosis
-R  (optional)    移除repeats墨林,使用pregraph步驟中產(chǎn)生的結(jié)果赁酝,如果參數(shù)-R在pregraph步驟中被設(shè)置的話,默認(rèn)[NO]
-u  (optional)    構(gòu)建scaffolding前不屏蔽高/低覆蓋度的contigs旭等,這里高頻率覆蓋度指平均contig覆蓋深度的2倍酌呆。默認(rèn)[mask]屏蔽
-F  (optional)    對scaffold內(nèi)部的gap進(jìn)行填充,這個參數(shù)現(xiàn)在似乎沒什么用搔耕,因?yàn)镾OAPdenovo附帶了一個Gapcloser工具隙袁,就是用于scaffold內(nèi)部填充的。
-s  <string>      solexa reads 的配置文件
-K  <int>         輸入的K-mer值大小,默認(rèn)值[23]菩收,取值范圍 13-127 #K-mer值必須是奇數(shù)梨睁;組裝雜合子基因組的K-mer值應(yīng)該小一點(diǎn);組裝含有高repeats基因組且要求其有高的測序深度和長的reads,的K-mer應(yīng)該大一點(diǎn)娜饵。
-o  <string>      圖形輸出的文件名前綴

k-mer 如何影響宏基因組組裝 坡贺?
使用de Bruijn graph組裝基因組的時候,Kmer數(shù)為何必須是奇數(shù)呢

單個樣品的組裝過程

算法:SOAPdenovo的一個組裝過程
SOAPdenovo組裝軟件使用記錄

組裝的步驟

目前最好最完整的SOAPdenovo使用說明

基因組組裝工具之 SOAPdenovo 使用方法

基因組組裝

組裝結(jié)果評價

  • N50(N90)的定義
    指基因組組裝結(jié)果中箱舞,一半的scaffolds/ contigs長度都大于這個值遍坟。


    N50

1、 序列一致性評估:

2晴股、 序列完整性評估:

3政鼠、 準(zhǔn)確性評估:

4、 保守性基因評估:

基因組組裝效果評估
輕松get干貨—《基因組注釋與基因注釋原理及常用軟件使用方法》

混合組裝

什么是混合組裝

將各樣品未被利用上的 reads 放在一起進(jìn)行組裝

為什么要混合組裝
  • 以期發(fā)現(xiàn)樣品中的低豐度物種信息

  • 考慮到在宏基因組組裝中reads利用率很低队魏,單樣品5Gb測序量情況下公般,環(huán)境樣品組裝reads利用率一般只有10%左右,腸道樣品或極端環(huán)境樣品組裝reads利用率一般能達(dá)到30%

怎樣進(jìn)行混合組裝
  • Reads mapping

What is a read mapping?

Reads_mapping 來找出上一步單樣本未被利用的reads

    bowtie2-build --large-index B11.2.scaftigs.fa B11.2.scaftigs.fa 2> bwt.log

    bowtie2  --end-to-end --sensitive  -I 200 -X 400 --threads 8   -x  KB2.scaftigs.fa  -1 KB2_350.nohost.fq1.gz -2  KB2_350.nohost.fq2.gz -S KB2_350.bowtie.sam  2> bowtie.log
-x <bt2-idx> 由bowtie2-build所生成的索引文件的前綴胡桨。首先 在當(dāng)前目錄搜尋官帘,然后在環(huán)境變量 BOWTIE2_INDEXES 中制定的文件夾中搜尋。
-1 <m1> 雙末端測尋對應(yīng)的文件1昧谊」艉纾可以為多個文件,并用逗號分開呢诬;多個文件必須和 -2 <m2> 中制定的文件一一對應(yīng)涌哲。比如:"-1 flyA_1.fq,flyB_1.fq -2 flyA_2.fq,flyB_2.fq". 測序文件中的reads的長度可以不一樣。
-2 <m2> 雙末端測尋對應(yīng)的文件2.
-U <r> 非雙末端測尋對應(yīng)的文件尚镰》Щ可以為多個文件,并用逗號分開狗唉。測序文件中的reads的長度可以不一樣初烘。
-S <hit> 所生成的SAM格式的文件前綴。默認(rèn)是輸入到標(biāo)準(zhǔn)輸出分俯。
↑↑↑↑↑↑↑必須參數(shù)↑↑↑↑↑↑↑↑↓↓↓↓↓↓↓↓↓↓↓↓可選參數(shù):↓↓↓↓↓↓↓↓↓↓↓↓↓↓
--end-to-end 比對是將整個read和參考序列進(jìn)行比對. 該模式--ma的值為0. 該模式為默認(rèn)模式
--sensitive Same as: -D 15 -R 2 -N 0 -L 22 -i S,1,1.15 (default in --end-to-end mode) 
-I/--minins <int> 設(shè)定最小的插入片段長度. Default: 0.
-X/--maxins <int> 設(shè)定最長的插入片段長度. Default: 500.
-p/--threads NTHREADS 設(shè)置線程數(shù). Default: 1

Bowtie2使用方法與參數(shù)詳細(xì)介紹

  • unmmaped.assembly

      SOAPdenovo-63mer  all -d 1 -M 3 -R  -u -F   -s   NOVO_MIX.soapdenovo.cfg -K 55 -o 55 1>ass.55.log 2>ass.55.err
    

句句干貨肾筐!一文讀懂宏基因組binning

Microbiome Helper: a Custom and Streamlined Workflow for Microbiome Research
rrnDB: Stoddard et al

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市缸剪,隨后出現(xiàn)的幾起案子吗铐,更是在濱河造成了極大的恐慌,老刑警劉巖杏节,帶你破解...
    沈念sama閱讀 219,427評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件唬渗,死亡現(xiàn)場離奇詭異讥此,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)谣妻,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,551評論 3 395
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來卒稳,“玉大人蹋半,你說我怎么就攤上這事〕淇樱” “怎么了减江?”我有些...
    開封第一講書人閱讀 165,747評論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長捻爷。 經(jīng)常有香客問我辈灼,道長,這世上最難降的妖魔是什么也榄? 我笑而不...
    開封第一講書人閱讀 58,939評論 1 295
  • 正文 為了忘掉前任巡莹,我火速辦了婚禮,結(jié)果婚禮上甜紫,老公的妹妹穿的比我還像新娘降宅。我一直安慰自己,他們只是感情好囚霸,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,955評論 6 392
  • 文/花漫 我一把揭開白布腰根。 她就那樣靜靜地躺著,像睡著了一般拓型。 火紅的嫁衣襯著肌膚如雪额嘿。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,737評論 1 305
  • 那天劣挫,我揣著相機(jī)與錄音册养,去河邊找鬼。 笑死压固,一個胖子當(dāng)著我的面吹牛捕儒,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播邓夕,決...
    沈念sama閱讀 40,448評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼刘莹,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了焚刚?” 一聲冷哼從身側(cè)響起点弯,我...
    開封第一講書人閱讀 39,352評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎矿咕,沒想到半個月后抢肛,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體狼钮,經(jīng)...
    沈念sama閱讀 45,834評論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,992評論 3 338
  • 正文 我和宋清朗相戀三年捡絮,在試婚紗的時候發(fā)現(xiàn)自己被綠了熬芜。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,133評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡福稳,死狀恐怖涎拉,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情的圆,我是刑警寧澤鼓拧,帶...
    沈念sama閱讀 35,815評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站越妈,受9級特大地震影響季俩,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜梅掠,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,477評論 3 331
  • 文/蒙蒙 一酌住、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧阎抒,春花似錦赂韵、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,022評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至谴古,卻和暖如春质涛,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背掰担。 一陣腳步聲響...
    開封第一講書人閱讀 33,147評論 1 272
  • 我被黑心中介騙來泰國打工汇陆, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人带饱。 一個月前我還...
    沈念sama閱讀 48,398評論 3 373
  • 正文 我出身青樓毡代,卻偏偏與公主長得像,于是被迫代替她去往敵國和親勺疼。 傳聞我的和親對象是個殘疾皇子教寂,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,077評論 2 355

推薦閱讀更多精彩內(nèi)容