nanopore數(shù)據(jù)組裝人類基因組

Sergey Koren和Adam Phillippy提出了一種“trio binning”組裝策略組裝人的基因組單倍型家浇。兩位大神參與了多個組裝軟件項(xiàng)目:

MashMap: A fast and approximate long read mapper
Canu:A single molecule sequence assembler for genomes large and small
Mash: Fast genome and metagenome distance and containment estimation using MinHash
MHAP: A probabilistic sequence overlap algorithm

還在bioRxiv上發(fā)表了一系列優(yōu)秀文章:

RefSeq database growth influences the accuracy of k-mer-based species identification
Complete assembly of parental haplotypes with trio binning
Integrating Hi-C links with assembly graphs for chromosome-scale assembly
A fast adaptive algorithm for computing whole-genome homology maps

作者使用Oxford Nanopore MinION作者人的基因組(GM12878)红竭,使用“trio-based”組裝策略組裝單倍型鸯两。Nanopore持續(xù)推進(jìn)陡鹃,有一些重大提升沮峡,如一些工具Nanopolish 算撮,速度更加快速且增加了一些新的功能生宛。因此作者使用原先自己發(fā)現(xiàn)的文獻(xiàn)數(shù)據(jù),用最新的工具再次base call和組裝肮柜。新的組裝版本提升了NG50陷舅,trio binning準(zhǔn)確的重建了兩個單倍型的MHC基因。
作者使用 Albacore v2.1 其call raw data审洞,覆蓋了從37升至41x莱睁,reads平均長度從7.3提升至8.1kbp。Canu 1.6組裝提升NG50至10.2 Mbp(150k cpu小時)芒澜。作者使用Canu 1.7對reads糾錯仰剿,并使用WTDBG 進(jìn)行組裝,組裝結(jié)果NG50為12.4 Mbp痴晦,WTDBG僅需30k cpu小時南吮。

使用Canu + WTDBG的策略比單獨(dú)使用Miniasm 或單獨(dú)使用WTDBG要好,可能原因是Canu糾錯后的結(jié)果更利于組裝誊酌。

評估 Canu + WTDBG的組裝準(zhǔn)確性為98.94%部凑,比之前文章報道的95.94%高。經(jīng)過Nanopolish 兩輪“CpG甲基化”修正后碧浊,準(zhǔn)確性達(dá)到了99.76%涂邀,而 deletion bias和short indels的比例較突出,作者隨后旨在對其進(jìn)行改進(jìn)箱锐。

image.png

由于GM12878有親代的數(shù)據(jù)可用比勉,作者試著用剛發(fā)表的trio binning方法(Koren et al. 2018)組裝。在組裝前瑞躺,使用TrioCanu對GM12878的nanopore reads分為母本和父本單倍型bins敷搪,兩輪CpG Nanopolish后,兩種單倍體的識別率均為99.24%幢哨。

作者將兩種nanopore的單倍體排列成一種結(jié)構(gòu)變體赡勘,并將這些結(jié)果與PacBio的分析結(jié)果進(jìn)行比較。在nanopore的組裝結(jié)果中有更高比例的short indels捞镰。


image.png

嘗試使用雙親Illumina數(shù)據(jù)在每個nanopore單倍型上運(yùn)行Pilon實(shí)際上降低了質(zhì)量闸与,并在幾個MHC基因中引入了額外的錯誤毙替。然而,將Pilon限制為僅修正inels確實(shí)修正了所有類型基因的錯誤践樱,最終的一致性準(zhǔn)確率為99.92%厂画。

作者組裝的方法發(fā)表在Jain et al. 2017 ,trio binning 的方法在 Koren et al. 2018

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末拷邢,一起剝皮案震驚了整個濱河市袱院,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌瞭稼,老刑警劉巖忽洛,帶你破解...
    沈念sama閱讀 206,839評論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異环肘,居然都是意外死亡欲虚,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,543評論 2 382
  • 文/潘曉璐 我一進(jìn)店門悔雹,熙熙樓的掌柜王于貴愁眉苦臉地迎上來复哆,“玉大人,你說我怎么就攤上這事腌零√菡遥” “怎么了?”我有些...
    開封第一講書人閱讀 153,116評論 0 344
  • 文/不壞的土叔 我叫張陵莱没,是天一觀的道長初肉。 經(jīng)常有香客問我,道長饰躲,這世上最難降的妖魔是什么牙咏? 我笑而不...
    開封第一講書人閱讀 55,371評論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮嘹裂,結(jié)果婚禮上妄壶,老公的妹妹穿的比我還像新娘。我一直安慰自己寄狼,他們只是感情好丁寄,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,384評論 5 374
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著泊愧,像睡著了一般伊磺。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上删咱,一...
    開封第一講書人閱讀 49,111評論 1 285
  • 那天屑埋,我揣著相機(jī)與錄音,去河邊找鬼痰滋。 笑死摘能,一個胖子當(dāng)著我的面吹牛续崖,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播团搞,決...
    沈念sama閱讀 38,416評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼严望,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了逻恐?” 一聲冷哼從身側(cè)響起像吻,我...
    開封第一講書人閱讀 37,053評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎梢莽,沒想到半個月后萧豆,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體奸披,經(jīng)...
    沈念sama閱讀 43,558評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡昏名,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,007評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了阵面。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片轻局。...
    茶點(diǎn)故事閱讀 38,117評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖样刷,靈堂內(nèi)的尸體忽然破棺而出仑扑,到底是詐尸還是另有隱情,我是刑警寧澤置鼻,帶...
    沈念sama閱讀 33,756評論 4 324
  • 正文 年R本政府宣布镇饮,位于F島的核電站,受9級特大地震影響箕母,放射性物質(zhì)發(fā)生泄漏储藐。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,324評論 3 307
  • 文/蒙蒙 一嘶是、第九天 我趴在偏房一處隱蔽的房頂上張望钙勃。 院中可真熱鬧,春花似錦聂喇、人聲如沸辖源。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,315評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽克饶。三九已至,卻和暖如春誊辉,著一層夾襖步出監(jiān)牢的瞬間矾湃,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,539評論 1 262
  • 我被黑心中介騙來泰國打工芥映, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留洲尊,地道東北人远豺。 一個月前我還...
    沈念sama閱讀 45,578評論 2 355
  • 正文 我出身青樓,卻偏偏與公主長得像坞嘀,于是被迫代替她去往敵國和親躯护。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,877評論 2 345

推薦閱讀更多精彩內(nèi)容