基因組組裝這塊我看的不是很多,盡管也看過一些資料岔激,跟朋友也討論過勒极。但仍然感覺理解不夠深入。索性虑鼎,自己直接肉眼看看辱匿,或許更為實在。
hifiasm 輸出結(jié)果有哪些炫彩?
一般來說匾七,用hifiasm組裝基因組,純合材料用- l0
江兢,非純系材料昨忆,比如我們做園藝果樹的,盡量是希望分出來兩個單倍型杉允,所以參數(shù)-l3
邑贴,當然,分出兩個單倍型叔磷,是默認參數(shù)痢缎,所以默認可以不設(shè)置。
兩個模式大體輸出結(jié)果如下圖:
可以看出來世澜,區(qū)別在于前者多輸出了一個
a_ctg
而后者則多輸出了hap1.p_ctg
和hap2.p_ctg
邏輯上独旷,看過文獻應(yīng)該比較容易理解
理解共同的輸出文件
r_utg
r 代表 raw,也就是最初組裝出來的原始結(jié)果寥裂。其中 utg 表示 unitig嵌洼,或理解為初步組裝且沒有拆分氣泡或者沖突的結(jié)果。
p_utg
p 代表 primary封恰,基本上是在 raw 的基礎(chǔ)上去除掉一些覆蓋率低的連接(或叫氣泡)麻养。看起來簡潔了不少诺舔,其實是少了 60000 條邊(當然圖太大鳖昌,看不太出區(qū)別....不過確實是小了四分之一)
或許高雜合材料里面备畦,覆蓋率低的區(qū)域,也可能是另一個單倍型區(qū)域许昨?用于后續(xù)HiC掛載懂盐,可能也要考慮進去。在 p_utg 和 p_ctg 上的選擇糕档,或需要考量莉恼。
p_ctg
p 代表 primary,ctg 代表了拆分結(jié)果速那。
邏輯上 p_ctg 包含了全部單倍型結(jié)果(含 hap1 和 hap2)俐银。事實上,這個文件在
l0
和l3
的表現(xiàn)不相同端仰,可以從文件大小看出區(qū)別捶惜。個人感覺,l0
下 p_ctg 約等于 canu 軟件的組裝結(jié)果荔烧;而l3
模式下吱七,p_ctg 比較接近于主要的一套單倍型結(jié)果,大體是hap1
和hap2
中表現(xiàn)最好的每個contig的hap的組合茴晋。
a_ctg
a 代表 alternative陪捷,大體是拆分出來 p_ctg 之后剩下的就放在 alternative回窘。
hap1/hap2 ctg
亦即兩個單倍型的拆分結(jié)果诺擅。
假如有 HiC 數(shù)據(jù)
結(jié)果類似。phased的效果會好很多啡直。