hifiasm對HiFi PacBio進行組裝

hifiasm是一個能有效利用PacBio HiFi測序技術(shù),在分型組裝圖(pahsed assembly gprah)中可靠的表示單倍體信息的算法宪潮。

流程介紹

hifiasm的分析流程如下,主要分為3個階段

第一階段:通過所有序列的相互比對,對前在測序錯誤進行糾正。如果一個位置只存在兩種堿基類型趾断,且每個堿基類型至少有3條read支持,那么這個位置會被當作雜合位點吩愧,否則芋酌,視作測序錯誤,將被糾正耻警。

第二階段:根據(jù)序列之間的重疊關(guān)系隔嫡,構(gòu)建分型的字符串圖(phased string graph)甸怕。其中調(diào)整朝向的序列作為頂點(vertex),一致重疊作為邊(edge)腮恩。字符串圖中的氣泡(bubble)則是雜合位點梢杭。

第三階段:如果沒有額外的信息,hifiasm會隨機選擇氣泡的一邊構(gòu)建primary assembly秸滴,另一邊則是alternate assembly. 該策略和HiCanu武契,F(xiàn)alcon-Unzip一樣。對于雜合基因組而言荡含,由于存在一個以上的純合haplotype咒唆,因此primary assembly可能還會包含haplotigs。HiCanu依賴于第三方的purge_dups, 而hifiasm內(nèi)部實現(xiàn)了purge_dups算法的變種释液,簡化了流程全释。如果有額外的信息,那么hifiasm就可以正確的對haplotype進行分型误债。

workflow

安裝

hifiasm僅僅依賴 g++和zlib浸船,以及git

# 依賴g++和zlib
git clone https://github.com/chhylp123/hifiasm
cd hifiasm && make

# bioconda
conda install -c bioconda hifiasm

通過源碼編譯的方式安裝,需要將hifiasm移動到你的軟件目錄下寝蹈,或者將hifiasm的路徑加入到環(huán)境變量PATH中李命。

如果是 trio-binning模式,需要額外安裝yak

#source code
git clone https://github.com/lh3/yak
cd yak && make
# bioncda
conda install -c bioconda yak

案例展示

hifiasm的使用非常簡潔明了箫老,根據(jù)已有的數(shù)據(jù)分為封字,僅HiFi數(shù)據(jù)模式,有雙親二代測序的Trio-binning模式和有Hi-C數(shù)據(jù)的Hi-C模式耍鬓。

僅有HiFi數(shù)據(jù)

最基本的用法阔籽,會得到兩個部分分型的組裝

wget https://github.com/chhylp123/hifiasm/releases/download/v0.7/chr11-2M.fa.gz
hifiasm -o test -t 32 chr11-2M.fa.gz 2> test.log

其中 -o定義輸出文件的文件名前綴, -t是線程數(shù)

運行結(jié)束后生成的一系列文件中界斜,我們只需要關(guān)注如下幾項 (prefix表示前綴)

  • prefix.bp.r_utg.gfa: haplotype-resolved raw unitig graph仿耽,記錄所有的單倍型信息

  • prefix.bp.p_utg.gfa: 在raw unitig graph基礎(chǔ)上過濾小的bubble合冀,

  • prefix.bp.p_ctg.gfa: 主要contig的assembly graph

  • prefix.bp.hap1.p_ctg.gfa: haplotype1的部分分型的contig graph

  • prefix.bp.hap2.p_ctg.gfa: haplotype2的部分分型的contig graph

如果并不需要部分分型的組裝各薇,而只想要primary和alternate的組裝結(jié)果,可以在之前的命令的基礎(chǔ)上君躺,加上 --primary參數(shù)峭判。

hifiasm --primary -o test -t 32 chr11-2M.fa.gz 2> test.log2

由于hifiasm運行時會將步驟中糾錯和相互比對的結(jié)果保存成 bin 文件,因此重新這一次運行速度會很快

primay模式下輸出的文件和之前的類似棕叫,唯一的不同在于沒有 bp

  • ``prefix.r_utg.gfa: haplotype-resolved raw unitig graph

  • ``prefix.p_utg.gfa: haplotype-resolved processed unitig graph without small bubbles.

  • ``prefix.p_ctg.gfa: assembly graph of primary contigs.

  • ``prefix.a_ctg.gfa: assembly graph of alternate contigs.

我們關(guān)心的林螃,可能就是 主要的contig,通過awk進行提取

 awk '/^S/{print ">"$2;print $3}' test.p_ctg.gfa > test.p_ctg.fa

Trio-binning模式

如果測了雙親俺泣,則可以使用trio-binning方法進行更加可靠的分型疗认。分為兩步完残,先用yak統(tǒng)計k-mers, 然后用hifiasm進行組裝

案例代碼如下

yak count -k31 -b37 -t16 -o pat.yak paternal.fq.gz
yak count -k31 -b37 -t16 -o mat.yak maternal.fq.gz
hifiasm -o NA12878.asm -t 32 -1 pat.yak -2 mat.yak NA12878.fq.gz

輸出的文章和之前類似横漏,主要關(guān)心其中文件名帶 dip 的輸出gfa文件

  • prefix.dip.hap1.p_ctg.gfa: 完成分型的父源單倍體 contig圖.

  • prefix.dip.hap2.p_ctg.gfa: 完全分型的母源單倍體contig圖.

整合Hi-C數(shù)據(jù)

由于Hi-C數(shù)據(jù)能夠提供遠距信息谨设,因此也能用于單倍體分型。只需要加上兩個參數(shù)缎浇, h1接受Hi-C的read1, h2 接受Hi-C的read2

hifiasm -o NA12878.asm -t32 --h1 read1.fq.gz --h2 read2.fq.gz HiFi-reads.fq.gz

在該模式下扎拣,每個contig要么是來自于父親,要么是來自于母親素跺。hifiasm會將同一來源的contig放在同一個組裝中二蓝。需要注意的是,hifiasm未必能夠處理好著絲粒附近的區(qū)域指厌,另外hifiasm中Hi-C也不會用于進行scaffold刊愚。

輸出結(jié)果中,我們重點關(guān)注其中名字帶hic的文件

  • prefix.hic.p_ctg.gfa: 主要contig的組裝圖

  • prefix.hic.hap1.p_ctg.gfa: 完全分型的haplotype1的contig圖

  • prefix.hic.hap2.p_ctg.gfa: 完全分型的haplotype2的contig圖

  • prefix.hic.a_ctg.gfa : 如果設(shè)置了 --primary參數(shù)踩验,還會輸出該次要contig的組裝圖

日志和參數(shù)調(diào)整

絕大部分的時候百拓,我們只需要使用默認參數(shù)即可得到相對比較好的結(jié)果。但是當默認參數(shù)無法達到自己的目的晰甚,那我們就需要檢查日志信息衙传,閱讀相關(guān)參數(shù)從而優(yōu)化結(jié)果。

日志信息主要分為三項

  • k-mer圖: 純合樣本只有一個peak厕九,雜合樣本則會有2個peak蓖捶。

  • 純合峰的覆蓋度: [M::purge_dups] homozygous read coverage threshold: X , 一般會由hifiasm自動推斷。

  • 雜合/純合堿基數(shù)目(Hi-C模式): 在Hi-C模式下扁远,如果純合的堿基數(shù)超過雜合堿基數(shù)俊鱼,那么hifiasm就不容易找對純合read的所在峰。

對于日志信息畅买,我們最主要關(guān)注的就是k-mer圖并闲,從而判斷hifiasm是否能夠正確的找到純合峰,雜合峰的所在位置谷羞。如果hifiasm沒有找對純合峰所在的位置帝火,就需要我們根據(jù)k-mer圖手動指定 --hom-cov

對于一個組裝結(jié)果湃缎,最直接的評估標準就是基因組大小是否符合預(yù)期犀填,分型的兩套基因組是否相差不大,序列是否足夠長嗓违,是否存在錯誤組裝的情況九巡。

如果基因組大小不符合預(yù)期,一般都是hifiasm找錯了純合峰的位置蹂季,我們需要手動指定 --hom-cov冕广;如果分型的兩套基因組差別過大疏日,則通過降低 -s 調(diào)整。如果序列不夠長撒汉,片段化明顯制恍,則可以嘗試增加 -D-N, 雖然會增加運行時間,但是會提高重復(fù)區(qū)域的分辨率神凑。如果后續(xù)的Hi-C净神,或者BioNano發(fā)現(xiàn)hifiasm組裝結(jié)果有比較多錯誤組裝,則可以適當降低 --purge-max, -s-O溉委【槲ǎ或者設(shè)置 -u 關(guān)閉post-join 步驟,hifiasm通過該步驟提高組裝的連續(xù)性瓣喊。

參考資料

https://github.com/chhylp123/hifiasm

https://hifiasm.readthedocs.io/en/latest/index.html

https://www.nature.com/articles/s41592-020-01056-5

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末坡慌,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子藻三,更是在濱河造成了極大的恐慌洪橘,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,941評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件棵帽,死亡現(xiàn)場離奇詭異熄求,居然都是意外死亡,警方通過查閱死者的電腦和手機逗概,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,397評論 3 395
  • 文/潘曉璐 我一進店門弟晚,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人逾苫,你說我怎么就攤上這事卿城。” “怎么了铅搓?”我有些...
    開封第一講書人閱讀 165,345評論 0 356
  • 文/不壞的土叔 我叫張陵瑟押,是天一觀的道長。 經(jīng)常有香客問我星掰,道長多望,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,851評論 1 295
  • 正文 為了忘掉前任蹋偏,我火速辦了婚禮便斥,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘威始。我一直安慰自己,他們只是感情好像街,可當我...
    茶點故事閱讀 67,868評論 6 392
  • 文/花漫 我一把揭開白布黎棠。 她就那樣靜靜地躺著晋渺,像睡著了一般。 火紅的嫁衣襯著肌膚如雪脓斩。 梳的紋絲不亂的頭發(fā)上木西,一...
    開封第一講書人閱讀 51,688評論 1 305
  • 那天,我揣著相機與錄音随静,去河邊找鬼八千。 笑死,一個胖子當著我的面吹牛燎猛,可吹牛的內(nèi)容都是我干的恋捆。 我是一名探鬼主播,決...
    沈念sama閱讀 40,414評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼重绷,長吁一口氣:“原來是場噩夢啊……” “哼沸停!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起昭卓,我...
    開封第一講書人閱讀 39,319評論 0 276
  • 序言:老撾萬榮一對情侶失蹤愤钾,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后候醒,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體能颁,經(jīng)...
    沈念sama閱讀 45,775評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,945評論 3 336
  • 正文 我和宋清朗相戀三年倒淫,在試婚紗的時候發(fā)現(xiàn)自己被綠了劲装。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,096評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡昌简,死狀恐怖占业,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情纯赎,我是刑警寧澤谦疾,帶...
    沈念sama閱讀 35,789評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站犬金,受9級特大地震影響念恍,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜晚顷,卻給世界環(huán)境...
    茶點故事閱讀 41,437評論 3 331
  • 文/蒙蒙 一峰伙、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧该默,春花似錦瞳氓、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,993評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽店诗。三九已至,卻和暖如春音榜,著一層夾襖步出監(jiān)牢的瞬間庞瘸,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,107評論 1 271
  • 我被黑心中介騙來泰國打工赠叼, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留擦囊,地道東北人。 一個月前我還...
    沈念sama閱讀 48,308評論 3 372
  • 正文 我出身青樓嘴办,卻偏偏與公主長得像瞬场,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子户辞,可洞房花燭夜當晚...
    茶點故事閱讀 45,037評論 2 355

推薦閱讀更多精彩內(nèi)容