「BioNano系列」光學(xué)圖譜混合組裝應(yīng)該怎么做? 簡單的介紹了混合組裝的整體步驟,這一篇具體介紹它是如何生成hybrid scaffold表征的AGP和FASTA文件
MergeNGS_BN.pl
的輸出結(jié)果是/MergeNGS_BN/step2.hybrid.cmap
载城,之后RefAligner將conflict-resolved 序列和Bionano map比對到Hybrid scaffolds空入,方便檢查NGS和BNG對hybrid scaffold的貢獻(xiàn)碌宴。
這一步輸出結(jié)果在align_final
文件夾下,分為xmap, _r.cmap 和_q.cmp文件籍滴,可以在BioNano Access上可視化酪夷。
后續(xù)的scaffold構(gòu)建就依賴于物理圖譜和光學(xué)圖譜回帖到hybrid scaffold的聯(lián)配結(jié)果。
第一步孽惰,根據(jù)光學(xué)圖譜晚岭,物理圖譜和混合圖譜的比對結(jié)果,構(gòu)建AGP文件勋功。
主要目標(biāo)是從混合圖譜中對原始序列進(jìn)行拼接, 需要考慮3種情況
- 混合圖譜中兩翼無序列覆蓋區(qū)
- 混合圖譜中中間無序列覆蓋區(qū)
- 一個區(qū)域有多個序列覆蓋
為了和NCBI的AGP兼容坦报,第一種情況的處理方法就是將混合圖譜中兩翼無序列覆蓋區(qū)直接刪除,保證其實序列不是N狂鞋。
第二種情況的解決方案就是用N進(jìn)行填充片择。其中N的數(shù)目來自于光學(xué)圖譜和物理圖譜距離比例換算,但是最低不低于固定值G, 默認(rèn)G是13.
第三種情況下骚揍,會采用覆蓋同一個區(qū)域中多條序列中最長的那條
第二步: 基于AGP文件信息字管,BioNano的Hybrid Scaffold流程對原始序列進(jìn)行拼接啰挪。最終產(chǎn)生2類FASTA文件,一類是未被用于混合組裝的序列嘲叔,文件命名里包含NOT_SCAFFOLD
亡呵,另一類是由基因組序列和代表未知區(qū)域的N組成。每一類文件還會有額外的NCBI版本硫戈,也就是未知區(qū)域只能用N表示锰什。
最終在agp_fasta目錄下有下面這些文件, 不同項目的文件名或許有些不同,但差異不會太大
athaliana_BSPQ1_0kb_0labels_key.txt.cut.txt
athaliana.fasta.cut.fasta
EXP_REFINEFINAL1_bppAdjust_cmap_athaliana_fasta_NGScontigs_HYBRID_SCAFFOLD.agp
EXP_REFINEFINAL1_bppAdjust_cmap_athaliana_fasta_NGScontigs_HYBRID_SCAFFOLD.fasta
EXP_REFINEFINAL1_bppAdjust_cmap_athaliana_fasta_NGScontigs_HYBRID_SCAFFOLD.gap
EXP_REFINEFINAL1_bppAdjust_cmap_athaliana_fasta_NGScontigs_HYBRID_SCAFFOLD_NCBI.fasta
EXP_REFINEFINAL1_bppAdjust_cmap_athaliana_fasta_NGScontigs_HYBRID_SCAFFOLD_NOT_SCAFFOLDED.fasta
EXP_REFINEFINAL1_bppAdjust_cmap_athaliana_fasta_NGScontigs_HYBRID_SCAFFOLD_trimHeadTailGap.coord
EXP_REFINEFINAL1_bppAdjust_cmap_athaliana_fasta_NGScontigs_HYBRID_SCAFFOLD.xmap_sorted.xmap
xmap2agp.errlog
xmap2agp.log
對于scaffold中的gap丁逝,可以用一些補洞軟件汁胆,例如PBjelly進(jìn)行 gap filling
舉例說明
以下是AGP文件中其中一條scaffold的搭建情況
Super-Scaffold_9 1 2266237 1 W ctg19_subseq_289397:2555633 1 2266237 -
Super-Scaffold_9 2266238 2266250 2 N 13 scaffold yes map
Super-Scaffold_9 2266251 2556219 3 W ctg165 1 289969 -
Super-Scaffold_9 2556220 2556232 4 N 13 scaffold yes map
Super-Scaffold_9 2556233 2873797 5 W ctg149 1 317565 -
Super-Scaffold_9 2873798 2873810 6 N 13 scaffold yes map
Super-Scaffold_9 2873811 11480417 7 W ctg9 1 8606607 -
在BioNano access對應(yīng)的內(nèi)容如下
對于開頭區(qū)域,雖然有很多NGS的contig比對到同一個區(qū)域霜幼,但是只會選擇其中最長的那條嫩码,其他則都可以當(dāng)做haplotype。
之后就需要接上另外一條contig辛掠。雖然從圖中我們可以發(fā)現(xiàn)谢谦,這兩條contig其實存在一部分的重疊,最好的策略是將刪掉其中一部分萝衩,避免冗余回挽,但是Solve的做法其實是在兩個contig中加入13個N。
其結(jié)果就是猩谊,導(dǎo)致該區(qū)域用重測序比對時出現(xiàn)多比對千劈,影響后續(xù)轉(zhuǎn)錄組預(yù)測
后續(xù)的組裝BioNano 出現(xiàn)了一個明顯錯誤的操作,顯然1后面應(yīng)該直接接2牌捷,如果是這樣子處理墙牌,那么AGP文件中的記錄就應(yīng)該只出現(xiàn)2處N記錄,但實際上卻有三處暗甥,這說明BioNano實際的連接策略是1->3->2, 那么結(jié)果里在這里就會出現(xiàn)一處大規(guī)模的冗余
我將二代測序的重測序和轉(zhuǎn)錄組測序進(jìn)行回帖喜滨,對該區(qū)域進(jìn)行檢查
同樣造成了多序列的比對,以及轉(zhuǎn)錄組錯誤組裝
解決方法: 不知道撤防,和BioNano公司討論中虽风。我目前就采用手工解決沖突的方法了。