宏基因組測序分析(八)宏基因組數(shù)據(jù)組裝

宏基因組組裝

基因組組裝递瑰,即把短的reads拼裝成連續(xù)的序列(contig)杨蛋,再根據(jù)PE或者long reads等比對(duì)關(guān)系將contig拼接成scaffold猛们。


Kmer

從一段連續(xù)序列中迭代地選取長度為K個(gè)堿基的序列,若序列的長度為L吊宋,那么可以得到L-K+1個(gè)Kmer。

組裝算法

DBG:De Bruijn Graph

主要用于二代測序短reads的組裝颜武,基于Kmer的連接


OLC:Overlap Layout Consensus

多用于三代長reads組裝璃搜,基于比對(duì)的Overlap結(jié)果大于閾值連接拖吼。


二代測序數(shù)據(jù)組裝流程

  • 構(gòu)建contig:將所有小片段打成K-mer構(gòu)建deBruijn圖,然后會(huì)根據(jù)給定的參數(shù)對(duì)de Bruijn圖做一些化簡这吻,最后連接K-mer的路徑即可得到contig序列吊档。

  • 構(gòu)建scaffold:將reads map到contig序列上去,利用reads之間的PE關(guān)系去判斷contig之間的連接關(guān)系唾糯,得到scaffold序列怠硼。

  • 補(bǔ)洞:將成對(duì)reads比對(duì)到scaffold序列上,確定出一條reads比上contig序列而另外一條reads落入gap區(qū)域的比對(duì)信息移怯,利用落入同一個(gè)gap區(qū)域的reads做局部組裝香璃。

宏基因組組裝挑戰(zhàn)

  • 常規(guī)組裝軟件適用于單個(gè)物種且覆蓋度均勻的基因組,而微生物樣本中不同物
    種的豐度水平差異很大芋酌,導(dǎo)致不同物種基因組的測序深度高度不一致增显。宏基因
    組數(shù)據(jù)集中,大多數(shù)物種的測序深度遠(yuǎn)低于單個(gè)物種組裝需要的測序深度脐帝。

  • 微生物群落中的不同種物種可能存在共享的高度保守基因組區(qū)域同云,形成“種間
    重復(fù)”使得組裝復(fù)雜化。

  • 在一個(gè)微生物樣品中堵腹,許多細(xì)菌物種是由具有不同豐度的多個(gè)相關(guān)菌株混合在
    一起的炸站,這種混合會(huì)進(jìn)一步增加組裝的難度。

宏基因組組裝軟件評(píng)估

宏基因組組裝常用軟件為 megahit 及 metaspades疚顷。

參考腳本

使用 megahit 進(jìn)行組裝:

megahit \
-1 ./A1_1.fq.gz \ # 輸入旱易,fq1
-2 ./A1_2.fq.gz \ # 輸入,fq2
--min-contig-len 1000 \ # contig最小長度
--tmp-dir ./ \ # 設(shè)置tmp目錄
--memory 6 \ # 內(nèi)存占用
--num-cpu-threads 4 \ # 線程數(shù)
--out-dir A1_megahit \ # 輸出目錄
--out-prefix A1 # 輸出前綴
## 多組數(shù)據(jù)組裝, 輸入數(shù)據(jù)逗號(hào)分隔

使用 metaspades 進(jìn)行組裝:

## 單組數(shù)據(jù)組裝
spades.py \
--meta \ # 宏基因組模式
-t 4 \ # 線程
-k 21,33 \ # kmer
-1 ./A1_1.fq.gz \ # 輸入腿堤,fq1
-2 ./A1_2.fq.gz \ # 輸入阀坏,fq2
#-k 21,33,55,77 \ 多組數(shù)據(jù)組裝
#--pe-1 1 ./A1_1.fq.gz \ #輸入,第1組fq1
#--pe-2 1 ./A1_2.fq.gz \ #輸入笆檀,第1組fq2
#--pe-1 2 ./A2_1.fq.gz \ #輸入忌堂,第2組fq1
#--pe-2 2 ./A2_2.fq.gz \ #輸入,第2組fq
-o A1_metaspades # 輸出目錄

組裝結(jié)果可以使用 quast 進(jìn)行匯總統(tǒng)計(jì):

quast.py ./*.fa

歡迎關(guān)注Bioinfor 生信云

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末酗洒,一起剝皮案震驚了整個(gè)濱河市士修,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌樱衷,老刑警劉巖棋嘲,帶你破解...
    沈念sama閱讀 222,464評(píng)論 6 517
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異矩桂,居然都是意外死亡沸移,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,033評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來雹锣,“玉大人流妻,你說我怎么就攤上這事“手疲” “怎么了绅这?”我有些...
    開封第一講書人閱讀 169,078評(píng)論 0 362
  • 文/不壞的土叔 我叫張陵,是天一觀的道長在辆。 經(jīng)常有香客問我证薇,道長,這世上最難降的妖魔是什么匆篓? 我笑而不...
    開封第一講書人閱讀 59,979評(píng)論 1 299
  • 正文 為了忘掉前任浑度,我火速辦了婚禮,結(jié)果婚禮上鸦概,老公的妹妹穿的比我還像新娘箩张。我一直安慰自己,他們只是感情好窗市,可當(dāng)我...
    茶點(diǎn)故事閱讀 69,001評(píng)論 6 398
  • 文/花漫 我一把揭開白布先慷。 她就那樣靜靜地躺著,像睡著了一般咨察。 火紅的嫁衣襯著肌膚如雪论熙。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,584評(píng)論 1 312
  • 那天摄狱,我揣著相機(jī)與錄音脓诡,去河邊找鬼。 笑死媒役,一個(gè)胖子當(dāng)著我的面吹牛祝谚,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播酣衷,決...
    沈念sama閱讀 41,085評(píng)論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼交惯,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了鸥诽?” 一聲冷哼從身側(cè)響起商玫,我...
    開封第一講書人閱讀 40,023評(píng)論 0 277
  • 序言:老撾萬榮一對(duì)情侶失蹤箕憾,失蹤者是張志新(化名)和其女友劉穎牡借,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體袭异,經(jīng)...
    沈念sama閱讀 46,555評(píng)論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡钠龙,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,626評(píng)論 3 342
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片碴里。...
    茶點(diǎn)故事閱讀 40,769評(píng)論 1 353
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡沈矿,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出咬腋,到底是詐尸還是另有隱情羹膳,我是刑警寧澤,帶...
    沈念sama閱讀 36,439評(píng)論 5 351
  • 正文 年R本政府宣布根竿,位于F島的核電站陵像,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏寇壳。R本人自食惡果不足惜醒颖,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,115評(píng)論 3 335
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望壳炎。 院中可真熱鬧泞歉,春花似錦、人聲如沸匿辩。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,601評(píng)論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽铲球。三九已至沟优,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間睬辐,已是汗流浹背挠阁。 一陣腳步聲響...
    開封第一講書人閱讀 33,702評(píng)論 1 274
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留溯饵,地道東北人侵俗。 一個(gè)月前我還...
    沈念sama閱讀 49,191評(píng)論 3 378
  • 正文 我出身青樓,卻偏偏與公主長得像丰刊,于是被迫代替她去往敵國和親隘谣。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,781評(píng)論 2 361

推薦閱讀更多精彩內(nèi)容