Sergey Koren和Adam Phillippy提出了一種“trio binning”組裝策略組裝人的基因組單倍型家浇。兩位大神參與了多個組裝軟件項(xiàng)目:
MashMap: A fast and approximate long read mapper
Canu:A single molecule sequence assembler for genomes large and small
Mash: Fast genome and metagenome distance and containment estimation using MinHash
MHAP: A probabilistic sequence overlap algorithm
還在bioRxiv上發(fā)表了一系列優(yōu)秀文章:
RefSeq database growth influences the accuracy of k-mer-based species identification
Complete assembly of parental haplotypes with trio binning
Integrating Hi-C links with assembly graphs for chromosome-scale assembly
A fast adaptive algorithm for computing whole-genome homology maps
作者使用Oxford Nanopore MinION作者人的基因組(GM12878)红竭,使用“trio-based”組裝策略組裝單倍型鸯两。Nanopore持續(xù)推進(jìn)陡鹃,有一些重大提升沮峡,如一些工具Nanopolish 算撮,速度更加快速且增加了一些新的功能生宛。因此作者使用原先自己發(fā)現(xiàn)的文獻(xiàn)數(shù)據(jù),用最新的工具再次base call和組裝肮柜。新的組裝版本提升了NG50陷舅,trio binning準(zhǔn)確的重建了兩個單倍型的MHC基因。
作者使用 Albacore v2.1 其call raw data审洞,覆蓋了從37升至41x莱睁,reads平均長度從7.3提升至8.1kbp。Canu 1.6組裝提升NG50至10.2 Mbp(150k cpu小時)芒澜。作者使用Canu 1.7對reads糾錯仰剿,并使用WTDBG 進(jìn)行組裝,組裝結(jié)果NG50為12.4 Mbp痴晦,WTDBG僅需30k cpu小時南吮。
使用Canu + WTDBG的策略比單獨(dú)使用Miniasm 或單獨(dú)使用WTDBG要好,可能原因是Canu糾錯后的結(jié)果更利于組裝誊酌。
評估 Canu + WTDBG的組裝準(zhǔn)確性為98.94%部凑,比之前文章報道的95.94%高。經(jīng)過Nanopolish 兩輪“CpG甲基化”修正后碧浊,準(zhǔn)確性達(dá)到了99.76%涂邀,而 deletion bias和short indels的比例較突出,作者隨后旨在對其進(jìn)行改進(jìn)箱锐。
由于GM12878有親代的數(shù)據(jù)可用比勉,作者試著用剛發(fā)表的trio binning方法(Koren et al. 2018)組裝。在組裝前瑞躺,使用TrioCanu對GM12878的nanopore reads分為母本和父本單倍型bins敷搪,兩輪CpG Nanopolish后,兩種單倍體的識別率均為99.24%幢哨。
作者將兩種nanopore的單倍體排列成一種結(jié)構(gòu)變體赡勘,并將這些結(jié)果與PacBio的分析結(jié)果進(jìn)行比較。在nanopore的組裝結(jié)果中有更高比例的short indels捞镰。
嘗試使用雙親Illumina數(shù)據(jù)在每個nanopore單倍型上運(yùn)行Pilon實(shí)際上降低了質(zhì)量闸与,并在幾個MHC基因中引入了額外的錯誤毙替。然而,將Pilon限制為僅修正inels確實(shí)修正了所有類型基因的錯誤践樱,最終的一致性準(zhǔn)確率為99.92%厂画。
作者組裝的方法發(fā)表在Jain et al. 2017 ,trio binning 的方法在 Koren et al. 2018