「BioNano系列」光學(xué)圖譜混合組裝后的scaffold序列構(gòu)建過程

「BioNano系列」光學(xué)圖譜混合組裝應(yīng)該怎么做? 簡單的介紹了混合組裝的整體步驟,這一篇具體介紹它是如何生成hybrid scaffold表征的AGP和FASTA文件

MergeNGS_BN.pl的輸出結(jié)果是/MergeNGS_BN/step2.hybrid.cmap载城,之后RefAligner將conflict-resolved 序列和Bionano map比對到Hybrid scaffolds空入,方便檢查NGS和BNG對hybrid scaffold的貢獻(xiàn)碌宴。

這一步輸出結(jié)果在align_final文件夾下,分為xmap, _r.cmap 和_q.cmp文件籍滴,可以在BioNano Access上可視化酪夷。

例1
例2
例3

后續(xù)的scaffold構(gòu)建就依賴于物理圖譜和光學(xué)圖譜回帖到hybrid scaffold的聯(lián)配結(jié)果。

第一步孽惰,根據(jù)光學(xué)圖譜晚岭,物理圖譜和混合圖譜的比對結(jié)果,構(gòu)建AGP文件勋功。

主要目標(biāo)是從混合圖譜中對原始序列進(jìn)行拼接, 需要考慮3種情況

  1. 混合圖譜中兩翼無序列覆蓋區(qū)
  2. 混合圖譜中中間無序列覆蓋區(qū)
  3. 一個區(qū)域有多個序列覆蓋

為了和NCBI的AGP兼容坦报,第一種情況的處理方法就是將混合圖譜中兩翼無序列覆蓋區(qū)直接刪除,保證其實序列不是N狂鞋。

第二種情況的解決方案就是用N進(jìn)行填充片择。其中N的數(shù)目來自于光學(xué)圖譜和物理圖譜距離比例換算,但是最低不低于固定值G, 默認(rèn)G是13.

第三種情況下骚揍,會采用覆蓋同一個區(qū)域中多條序列中最長的那條

第二步: 基于AGP文件信息字管,BioNano的Hybrid Scaffold流程對原始序列進(jìn)行拼接啰挪。最終產(chǎn)生2類FASTA文件,一類是未被用于混合組裝的序列嘲叔,文件命名里包含NOT_SCAFFOLD亡呵,另一類是由基因組序列和代表未知區(qū)域的N組成。每一類文件還會有額外的NCBI版本硫戈,也就是未知區(qū)域只能用N表示锰什。

最終在agp_fasta目錄下有下面這些文件, 不同項目的文件名或許有些不同,但差異不會太大

athaliana_BSPQ1_0kb_0labels_key.txt.cut.txt
athaliana.fasta.cut.fasta
EXP_REFINEFINAL1_bppAdjust_cmap_athaliana_fasta_NGScontigs_HYBRID_SCAFFOLD.agp
EXP_REFINEFINAL1_bppAdjust_cmap_athaliana_fasta_NGScontigs_HYBRID_SCAFFOLD.fasta
EXP_REFINEFINAL1_bppAdjust_cmap_athaliana_fasta_NGScontigs_HYBRID_SCAFFOLD.gap
EXP_REFINEFINAL1_bppAdjust_cmap_athaliana_fasta_NGScontigs_HYBRID_SCAFFOLD_NCBI.fasta
EXP_REFINEFINAL1_bppAdjust_cmap_athaliana_fasta_NGScontigs_HYBRID_SCAFFOLD_NOT_SCAFFOLDED.fasta
EXP_REFINEFINAL1_bppAdjust_cmap_athaliana_fasta_NGScontigs_HYBRID_SCAFFOLD_trimHeadTailGap.coord
EXP_REFINEFINAL1_bppAdjust_cmap_athaliana_fasta_NGScontigs_HYBRID_SCAFFOLD.xmap_sorted.xmap
xmap2agp.errlog
xmap2agp.log

對于scaffold中的gap丁逝,可以用一些補洞軟件汁胆,例如PBjelly進(jìn)行 gap filling

舉例說明

以下是AGP文件中其中一條scaffold的搭建情況

Super-Scaffold_9        1       2266237 1       W       ctg19_subseq_289397:2555633     1       2266237 -
Super-Scaffold_9        2266238 2266250 2       N       13      scaffold        yes     map
Super-Scaffold_9        2266251 2556219 3       W       ctg165  1       289969  -
Super-Scaffold_9        2556220 2556232 4       N       13      scaffold        yes     map
Super-Scaffold_9        2556233 2873797 5       W       ctg149  1       317565  -
Super-Scaffold_9        2873798 2873810 6       N       13      scaffold        yes     map
Super-Scaffold_9        2873811 11480417        7       W       ctg9    1       8606607 -

在BioNano access對應(yīng)的內(nèi)容如下

BioNano Access

對于開頭區(qū)域,雖然有很多NGS的contig比對到同一個區(qū)域霜幼,但是只會選擇其中最長的那條嫩码,其他則都可以當(dāng)做haplotype。

代表性

之后就需要接上另外一條contig辛掠。雖然從圖中我們可以發(fā)現(xiàn)谢谦,這兩條contig其實存在一部分的重疊,最好的策略是將刪掉其中一部分萝衩,避免冗余回挽,但是Solve的做法其實是在兩個contig中加入13個N。

兩個contig的交接

其結(jié)果就是猩谊,導(dǎo)致該區(qū)域用重測序比對時出現(xiàn)多比對千劈,影響后續(xù)轉(zhuǎn)錄組預(yù)測

冗余的后果

后續(xù)的組裝BioNano 出現(xiàn)了一個明顯錯誤的操作,顯然1后面應(yīng)該直接接2牌捷,如果是這樣子處理墙牌,那么AGP文件中的記錄就應(yīng)該只出現(xiàn)2處N記錄,但實際上卻有三處暗甥,這說明BioNano實際的連接策略是1->3->2, 那么結(jié)果里在這里就會出現(xiàn)一處大規(guī)模的冗余

第二處連接點

我將二代測序的重測序和轉(zhuǎn)錄組測序進(jìn)行回帖喜滨,對該區(qū)域進(jìn)行檢查

ctg149 起始
ctg149 結(jié)束
ctg9 起始

同樣造成了多序列的比對,以及轉(zhuǎn)錄組錯誤組裝

解決方法: 不知道撤防,和BioNano公司討論中虽风。我目前就采用手工解決沖突的方法了。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末寄月,一起剝皮案震驚了整個濱河市辜膝,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌漾肮,老刑警劉巖厂抖,帶你破解...
    沈念sama閱讀 217,542評論 6 504
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異克懊,居然都是意外死亡忱辅,警方通過查閱死者的電腦和手機七蜘,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,822評論 3 394
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來耕蝉,“玉大人崔梗,你說我怎么就攤上這事±菰冢” “怎么了?”我有些...
    開封第一講書人閱讀 163,912評論 0 354
  • 文/不壞的土叔 我叫張陵扔亥,是天一觀的道長场躯。 經(jīng)常有香客問我,道長旅挤,這世上最難降的妖魔是什么踢关? 我笑而不...
    開封第一講書人閱讀 58,449評論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮粘茄,結(jié)果婚禮上签舞,老公的妹妹穿的比我還像新娘。我一直安慰自己柒瓣,他們只是感情好儒搭,可當(dāng)我...
    茶點故事閱讀 67,500評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著芙贫,像睡著了一般搂鲫。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上磺平,一...
    開封第一講書人閱讀 51,370評論 1 302
  • 那天魂仍,我揣著相機與錄音,去河邊找鬼拣挪。 笑死擦酌,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的菠劝。 我是一名探鬼主播赊舶,決...
    沈念sama閱讀 40,193評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼闸英!你這毒婦竟也來了锯岖?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,074評論 0 276
  • 序言:老撾萬榮一對情侶失蹤甫何,失蹤者是張志新(化名)和其女友劉穎出吹,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體辙喂,經(jīng)...
    沈念sama閱讀 45,505評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡捶牢,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,722評論 3 335
  • 正文 我和宋清朗相戀三年鸠珠,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片秋麸。...
    茶點故事閱讀 39,841評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡渐排,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出灸蟆,到底是詐尸還是另有隱情驯耻,我是刑警寧澤,帶...
    沈念sama閱讀 35,569評論 5 345
  • 正文 年R本政府宣布炒考,位于F島的核電站可缚,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏斋枢。R本人自食惡果不足惜帘靡,卻給世界環(huán)境...
    茶點故事閱讀 41,168評論 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望瓤帚。 院中可真熱鬧描姚,春花似錦、人聲如沸戈次。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,783評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽朝扼。三九已至赃阀,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間擎颖,已是汗流浹背榛斯。 一陣腳步聲響...
    開封第一講書人閱讀 32,918評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留搂捧,地道東北人驮俗。 一個月前我還...
    沈念sama閱讀 47,962評論 2 370
  • 正文 我出身青樓,卻偏偏與公主長得像允跑,于是被迫代替她去往敵國和親王凑。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,781評論 2 354

推薦閱讀更多精彩內(nèi)容