宏基因組測序分析（八）宏基因組數(shù)據(jù)組裝

宏基因組組裝

基因組組裝递瑰，即把短的reads拼裝成連續(xù)的序列（contig）杨蛋，再根據(jù)PE或者long reads等比對(duì)關(guān)系將contig拼接成scaffold猛们。

Kmer

從一段連續(xù)序列中迭代地選取長度為K個(gè)堿基的序列，若序列的長度為L吊宋，那么可以得到L-K+1個(gè)Kmer。

組裝算法

DBG：De Bruijn Graph

主要用于二代測序短reads的組裝颜武，基于Kmer的連接

OLC：Overlap Layout Consensus

多用于三代長reads組裝璃搜，基于比對(duì)的Overlap結(jié)果大于閾值連接拖吼。

二代測序數(shù)據(jù)組裝流程

構(gòu)建contig：將所有小片段打成K-mer構(gòu)建deBruijn圖，然后會(huì)根據(jù)給定的參數(shù)對(duì)de Bruijn圖做一些化簡这吻，最后連接K-mer的路徑即可得到contig序列吊档。
構(gòu)建scaffold：將reads map到contig序列上去，利用reads之間的PE關(guān)系去判斷contig之間的連接關(guān)系唾糯，得到scaffold序列怠硼。
補(bǔ)洞：將成對(duì)reads比對(duì)到scaffold序列上，確定出一條reads比上contig序列而另外一條reads落入gap區(qū)域的比對(duì)信息移怯，利用落入同一個(gè)gap區(qū)域的reads做局部組裝香璃。

宏基因組組裝挑戰(zhàn)

常規(guī)組裝軟件適用于單個(gè)物種且覆蓋度均勻的基因組，而微生物樣本中不同物
種的豐度水平差異很大芋酌，導(dǎo)致不同物種基因組的測序深度高度不一致增显。宏基因
組數(shù)據(jù)集中，大多數(shù)物種的測序深度遠(yuǎn)低于單個(gè)物種組裝需要的測序深度脐帝。
微生物群落中的不同種物種可能存在共享的高度保守基因組區(qū)域同云，形成“種間
重復(fù)”使得組裝復(fù)雜化。
在一個(gè)微生物樣品中堵腹，許多細(xì)菌物種是由具有不同豐度的多個(gè)相關(guān)菌株混合在
一起的炸站，這種混合會(huì)進(jìn)一步增加組裝的難度。

宏基因組組裝軟件評(píng)估

宏基因組組裝常用軟件為 megahit 及 metaspades疚顷。

參考腳本

使用 megahit 進(jìn)行組裝:

megahit \
-1 ./A1_1.fq.gz \ # 輸入旱易，fq1
-2 ./A1_2.fq.gz \ # 輸入，fq2
--min-contig-len 1000 \ # contig最小長度
--tmp-dir ./ \ # 設(shè)置tmp目錄
--memory 6 \ # 內(nèi)存占用
--num-cpu-threads 4 \ # 線程數(shù)
--out-dir A1_megahit \ # 輸出目錄
--out-prefix A1 # 輸出前綴
## 多組數(shù)據(jù)組裝, 輸入數(shù)據(jù)逗號(hào)分隔

使用 metaspades 進(jìn)行組裝：

## 單組數(shù)據(jù)組裝
spades.py \
--meta \ # 宏基因組模式
-t 4 \ # 線程
-k 21,33 \ # kmer
-1 ./A1_1.fq.gz \ # 輸入腿堤，fq1
-2 ./A1_2.fq.gz \ # 輸入阀坏，fq2
#-k 21,33,55,77 \ 多組數(shù)據(jù)組裝
#--pe-1 1 ./A1_1.fq.gz \ #輸入，第1組fq1
#--pe-2 1 ./A1_2.fq.gz \ #輸入笆檀，第1組fq2
#--pe-1 2 ./A2_1.fq.gz \ #輸入忌堂，第2組fq1
#--pe-2 2 ./A2_2.fq.gz \ #輸入，第2組fq
-o A1_metaspades # 輸出目錄

組裝結(jié)果可以使用 quast 進(jìn)行匯總統(tǒng)計(jì)：

quast.py ./*.fa

歡迎關(guān)注Bioinfor 生信云

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末酗洒，一起剝皮案震驚了整個(gè)濱河市士修，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌樱衷，老刑警劉巖棋嘲，帶你破解...
沈念sama閱讀 222,464評(píng)論 6贊 517
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異矩桂，居然都是意外死亡沸移，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 95,033評(píng)論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來雹锣，“玉大人流妻，你說我怎么就攤上這事“手疲” “怎么了绅这？”我有些...
開封第一講書人閱讀 169,078評(píng)論 0贊 362
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長在辆。經(jīng)常有香客問我证薇，道長，這世上最難降的妖魔是什么匆篓？我笑而不...
開封第一講書人閱讀 59,979評(píng)論 1贊 299
?港島之戀（遺憾婚禮）
正文為了忘掉前任浑度，我火速辦了婚禮，結(jié)果婚禮上鸦概，老公的妹妹穿的比我還像新娘箩张。我一直安慰自己，他們只是感情好窗市，可當(dāng)我...
茶點(diǎn)故事閱讀 69,001評(píng)論 6贊 398
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布先慷。她就那樣靜靜地躺著，像睡著了一般咨察。火紅的嫁衣襯著肌膚如雪论熙。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 52,584評(píng)論 1贊 312
城市分裂傳說
那天摄狱，我揣著相機(jī)與錄音脓诡，去河邊找鬼。笑死媒役，一個(gè)胖子當(dāng)著我的面吹牛祝谚，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播酣衷，決...
沈念sama閱讀 41,085評(píng)論 3贊 422
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼交惯，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了鸥诽？” 一聲冷哼從身側(cè)響起商玫，我...
開封第一講書人閱讀 40,023評(píng)論 0贊 277
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤箕憾，失蹤者是張志新（化名）和其女友劉穎牡借，沒想到半個(gè)月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體袭异，經(jīng)...
沈念sama閱讀 46,555評(píng)論 1贊 319
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡钠龙，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 38,626評(píng)論 3贊 342
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片碴里。...
茶點(diǎn)故事閱讀 40,769評(píng)論 1贊 353
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡沈矿，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出咬腋，到底是詐尸還是另有隱情羹膳，我是刑警寧澤，帶...
沈念sama閱讀 36,439評(píng)論 5贊 351
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布根竿，位于F島的核電站陵像，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏寇壳。R本人自食惡果不足惜醒颖，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 42,115評(píng)論 3贊 335
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望壳炎。院中可真熱鬧泞歉，春花似錦、人聲如沸匿辩。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,601評(píng)論 0贊 25
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽铲球。三九已至沟优，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間睬辐，已是汗流浹背挠阁。一陣腳步聲響...
開封第一講書人閱讀 33,702評(píng)論 1贊 274
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留溯饵，地道東北人侵俗。一個(gè)月前我還...
沈念sama閱讀 49,191評(píng)論 3贊 378
代替公主和親
正文我出身青樓，卻偏偏與公主長得像丰刊，于是被迫代替她去往敵國和親隘谣。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,781評(píng)論 2贊 361