Hifiasm Parameter Reference
概要
僅使用 HiFi reads進行組裝
hifiasm -o [prefix] -t [nThreads] [options] input1.fq [input2.fq [...]]
#-o [prefix]: 指定輸出文件的前綴枉氮。hifiasm會根據(jù)這個前綴生成幾個輸出文件枢希,包括最終的組裝結(jié)果、日志文件等卦睹。
#-t [nThreads]: 指定用于組裝過程的線程數(shù)结序。增加線程數(shù)可以加快計算速度笼痹,但請注意不要超過你的硬件資源限制凳干。
#[options]: hifiasm提供了一系列的選項來調(diào)整組裝參數(shù)救赐,例如:
#-s: 是否使用單分子序列。
#-p: 是否使用PacBio CLR序列泌绣。
#-P: 是否使用PacBio CCS序列阿迈。
#-S: 是否使用Nanopore序列轧叽。
#-L: 設(shè)置長序列的最小重疊長度炭晒。
#-k: 設(shè)置k-mer大小网严。
#input1.fq [input2.fq [...]]: 一個或多個輸入文件震束,可以是FASTQ格式的測序讀取文件。對于雙端測序數(shù)據(jù)割疾,需要提供正向和反向序列的文件。
三重組分分選(先用yak)
yak count -o paternal.yak -b37 [-t nThreads] [-k kmerLen] paternal.fq.gz
yak count -o maternal.yak -b37 [-t nThreads] [-k kmerLen] maternal.fq.gz
hifiasm [-o prefix] [-t nThreads] [options] -1 paternal.yak -2 maternal.yak child.hifi.fq.gz
#yak count 是一個用于快速估算基因組大小和雜合度的程序胸懈。它基于k-mer計數(shù)趣钱,可以幫助確定基因組中可能的重復區(qū)域和結(jié)構(gòu)變異首有。
#-b37: 指定參考基因組的版本井联,這里 b37 指的是Human Genome Build 37您旁。
#-k [kmerLen]: 可選參數(shù)鹤盒,用于指定k-mer的長度。
#這里驼鞭,paternal.fq.gz 和 maternal.fq.gz 是壓縮的測序數(shù)據(jù)文件挣棕,分別對應父本和母本的樣本穴张。
Hi-C集成組件
hifiasm -o [prefix] -t [nThreads] --h1 [hic_r1.fq.gz,...] --h2 [hic_r2.fq.gz,...] [options] HiFi.read.fq.gz
獲取選項的詳細說明
hifiasm -h
#or
man ./hifiasm.1
常規(guī)選項
-o <FILE=hifiasm.asm>輸出文件的前綴玻驻。
-t <INT=1> hifiasm使用的CPU線程數(shù)偿枕。
-h -顯示幫助信息渐夸。
--version --版本
錯誤方案
-k <INT=51> K-mer長度。此選項必須小于64瘟忱。
-w <INT=51> 最小化窗口大小
-f <INT=37> 過濾器访诱,0 表示禁用触菜。該 過濾器用于在計算所有 k-mers 時過濾掉單個 k-mers涡相。它占用 2(INT-3) 字節(jié)內(nèi)存剩蟀。適當?shù)脑O(shè)置可以節(jié)省內(nèi)存育特。建議在人類組裝時使用
-f37
。對于小型基因組烙无,使用-f0
可禁用初始過濾器截酷,該過濾器在開始時占用 16GB 內(nèi)存迂苛。對于比人類大得多的基因組三幻,最好使用-f38
甚至-f39
念搬,以節(jié)省 k 聚合體計數(shù)的內(nèi)存朗徊。-D <FLOAT=5.0>丟棄出現(xiàn) >FLOAT* 覆蓋次數(shù)的 k-mers爷恳。Hifiasm 在糾錯過程中會丟棄這些高頻 k-mer温亲,以減少運行時間。覆蓋次數(shù)由 hifiasm 根據(jù) k-mer 圖自動確定菊碟,測序覆蓋度可以通過以下公式計算得出: 覆蓋度(%)=(測序得到的堿基總數(shù)基因組大小)/(基因組大小測序得到的堿基總數(shù))×100逆害,簡單理解就是測序深度魄幕,提高該選項可提高重復區(qū)域的分辨率纯陨,但需要更長的時間
-
-N <INT=100>這個參數(shù)定義了在組裝過程中,每個定向讀攘(oriented read)所考慮的重疊(overlaps)的最大數(shù)量,這個數(shù)量由
-D
參數(shù)和測序覆蓋度的乘積與-N
的值中的較大者決定hifiasm -o output_prefix -t 8 -D 6.0 -N 150 input1.fq input2.fq
-r <INT=3>參數(shù)指定了進行單倍型感知錯誤校正(haplotype-aware error correction)的輪數(shù)單倍型感知錯誤校正是一種考慮到基因組中可能存在的雜合性(即個體基因組中同一位置的兩個等位基因可能不同)的校正過程钾菊。在人類和其他多倍體生物中煞烫,雜合性是常見的滞详,因此單倍型感知校正對于提高組裝質(zhì)量尤其重要。
-z <INT=0>用于指定應該從每個讀取序列的兩端去除的適配器(adaptors稀火,也稱為接頭或引物)的長度凰狞。這個選項對于處理一些包含短適配器的舊 HiFi 讀取數(shù)據(jù)特別有用赡若。
--max-kocc <INT=2000>用于指定在處理重復區(qū)域(repeats)時使用的 k-mers 的最大出現(xiàn)次數(shù)。這個選項可以影響組裝過程中對重復序列的處理躺苦,尤其是在基因組中存在高度重復的區(qū)域時匹厘。使用出現(xiàn)次數(shù)更少的 k-mers 來改善重復區(qū)域的分辨率
--hg-size <INT(k/m/g)>用于估計單倍體基因組大小愈诚,即一個單倍體基因組中的堿基對總數(shù)。這個參數(shù)對于推斷讀取覆蓋度(read coverage)非常重要媒佣,特別是在錯誤校正過程中需要準確估計純合(homozygous)讀取的覆蓋度。
--min-hist-cnt <INT=5>用于在分析 k-mer 頻譜時忽略小于指定整數(shù)值 INT 的計數(shù)授霸。這個選項對于處理不同覆蓋度的 HiFi 數(shù)據(jù)特別重要巡验,可以幫助減少由于測序深度不足導致的假陰性結(jié)果,但也可能增加計算時間和假陽性結(jié)果的風險碘耳。
組裝選項
-a <INT=4>用于指定組裝圖(assembly graph)清理的輪數(shù)显设。這個步驟是在基因組組裝過程中對組裝圖進行優(yōu)化,以提高最終組裝結(jié)果的質(zhì)量和準確性
-
-m <INT=10000000>參數(shù)用于設(shè)置在生成主要/替代(primary/alternate)連續(xù)圖(contig graphs)時辛辨,進行氣泡(bubbles)彈出操作的最大探測距離捕捂。這個參數(shù)決定了在組裝圖中,多長距離的氣泡會被考慮彈出斗搞。氣泡彈出(Bubble Popping):
在基因組組裝圖中指攒,氣泡是指由測序錯誤或基因組中的重復區(qū)域引起的環(huán)狀結(jié)構(gòu)。這些氣泡可能會干擾組裝過程僻焚,導致生成非最優(yōu)的連續(xù)圖隙弛。氣泡彈出是指識別并移除這些環(huán)狀結(jié)構(gòu)萍启,以改善組裝圖的質(zhì)量局服。
-p <INT=0>參數(shù)用于設(shè)置在生成單倍型解析的加工單元圖(haplotype-resolved processed unitig graph)時進行氣泡彈出操作的最大探測距離搏讶。這個參數(shù)特別關(guān)注于不包含小氣泡的圖的生成妒蔚。
-n <INT=3>用于定義小單元圖(small unitigs)的閾值菜皂。單元圖是指在基因組組裝圖中章母,由一系列重疊的讀取序列組成的連續(xù)序列舞肆。在基因組組裝過程中哩盲,小單元圖可能會在多個步驟中被嘗試移除抒线。這是因為小單元圖可能代表基因組中的低復雜區(qū)域、測序錯誤或覆蓋度不足的區(qū)域。移除這些小單元圖可以提高最終組裝結(jié)果的質(zhì)量和準確性兰迫。
-x <FLOAT1=0.8>, -y <FLOAT2=0.2>參數(shù)用于控制在組裝圖中移除短重疊區(qū)域(overlaps)時使用的最大和最小重疊丟棄比率须鼎。這兩個參數(shù)與
-a
參數(shù)一起使用仲吏,用于優(yōu)化組裝圖,提高最終基因組組裝的質(zhì)量。在組裝圖的每個節(jié)點 N 上舀武,HiFiasm 會計算與該節(jié)點相連的重疊的長度。然后,根據(jù)-x
和-y
設(shè)定的閾值范圍藏澳,HiFiasm 會迭代地移除那些長度與節(jié)點 N 最長重疊長度之比低于這個范圍的重疊双炕。如果你想要更積極地移除短重疊乖酬,可以減小-x
的值并增大-y
的值:-i忽略所有bin文件,以便hifiasm從頭開始,Bin 文件是在基因組組裝過程中產(chǎn)生的中間文件狸驳,它們包含了組裝的某些部分或階段的信息酥馍。
-u數(shù)用于禁用組裝后的特定步驟术辐,即連接(post-join)步驟。這個步驟通常用于提高連續(xù)圖(contigs)的 N50 值,但有時可能會引入錯誤組裝(misassemblies)冰评。連接步驟是指在初步組裝后,嘗試將連續(xù)圖進一步連接成長度更長的序列荠商,N50 是衡量組裝質(zhì)量的一個指標寂恬,代表最長的連續(xù)序列,使得該序列及更長序列的總長度至少占基因組大小的 50%
-hom-cov <INT>用于指定純合(homozygous)讀取測序深度的估計值莱没。這個參數(shù)對于工具自動推斷的測序深度進行調(diào)整初肉,可以影響包括 Hi-C 分相組裝(Hi-C phased assembly)和僅限 HiFi 數(shù)據(jù)的組裝(HiFi-only assembly)在內(nèi)的不同類型輸出
--pri-range <INT1[,INT2]> 用于指定在組裝過程中處理主要(primary)組裝的堿基范圍。這個參數(shù)可以用于控制組裝的區(qū)域饰躲,特別是當對基因組的某些特定區(qū)域感興趣時牙咏。如果未指定“INT 2”,則將其設(shè)置為無窮大属铁。設(shè)置-1表示禁用
--lowQ <INT=70>用于設(shè)置低質(zhì)量分數(shù)的閾值眠寿,在測序數(shù)據(jù)中躬翁,每個堿基后面通常跟著一個質(zhì)量分數(shù)焦蘑,該分數(shù)表示了測序過程中該堿基被正確識別的置信度。較低的質(zhì)量分數(shù)意味著較高的測序錯誤率盒发。設(shè)置0為禁用
--b-cov <INT=0>在組裝過程中考慮的氣泡(bubbles)的最小覆蓋度閾值
--h-cov <INT=-1>用于設(shè)置在組裝過程中考慮的異質(zhì)性氣泡(heterozygous bubbles例嘱,或稱為雜合氣泡)的最小覆蓋度閾值。異質(zhì)性氣泡是指在基因組組裝圖中宁舰,由于雜合性(即個體基因組中同一位置的兩個等位基因不同)而產(chǎn)生的環(huán)狀結(jié)構(gòu)
--m-rate <FLOAT=0.75> 用于設(shè)置在組裝過程中考慮的匹配率(match rate)的閾值拼卵。這個參數(shù)對于決定哪些重疊(overlaps)將被用于組裝圖的構(gòu)建
--primary
--primary
參數(shù)與--alternate
(或簡寫為-l0
)一起使用時,可以輸出兩種類型的組裝結(jié)果:主要(primary)組裝和替代(alternate)組裝蛮艰。主要組裝:這是最有可能代表個體基因組的標準路徑腋腮。它通常代表了基因組中的主要等位基因或最頻繁出現(xiàn)的序列。
替代組裝:這代表了除了主要路徑之外的其他可能的組裝路徑壤蚜。在雜合個體中即寡,這可能揭示了次要等位基因或其他變異形式。
Trio-binning選項
-1 <FILE>由來自父本/單倍型1read的yak計數(shù)生成的K-mer袜刷。
-2 <FILE>由來自母本/單倍型2read的yak計數(shù)生成的K-mer聪富。
-3 <FILE>父系/單倍型1read名稱列表。
-4 <FILE>-4<FILE>母系/單倍型2read名稱列表著蟹。
-c <INT1=2>, -d <INT2=5>區(qū)分不同樣本的 k-mer 頻率的下限和上限墩蔓,如果一個 k-mer 在一個樣本中出現(xiàn)的次數(shù) >= INT2,而在另一個樣本中出現(xiàn)的次數(shù) < INT1萧豆,則稱該 k-mer 為差異化 k-mer
--t-occ <INT=60>于在基因組組裝過程中強制移除包含多于指定閾值數(shù)量(INT)的非預期單倍型特異讀燃榕(haplotype-specific reads)的單元圖(unitigs)如果一個單元圖包含超過60個非預期的單倍型特異讀取,該單元圖將被移除如果一個單元圖包含超過60個非預期的單倍型特異讀取涮雷,該單元圖將被移除
有關(guān)重復選項
-l <INT=3>清除重復的級別源内。0表示禁用,1表示僅清除包含的單倍體,2表示清除所有類型的單倍體膜钓,3表示以最積極的方式清除所有類型的單倍體嗽交。默認情況下,3表示非trio裝配颂斜,0表示trio裝箱裝配夫壁。對于trio裝箱裝配,僅允許級別0和級別1沃疮。
-s <FLOAT=0.55> 應該清除的重復單倍體的相似性閾值盒让。默認情況下,0.75用于
-l1/-l2
司蔬,0.55用于-l3
邑茄。此選項同時影響HiFi-only組裝和Hi-C分階段組裝。有關(guān)更多詳細信息俊啼,請參閱如何調(diào)整參數(shù)以改善Hi-C整合組裝肺缕?以及為什么初級組裝或部分分階段組裝的大小遠大于估計的基因組大小授帕?-O <INT=1>應清除的重復單倍體的重疊讀段的最小數(shù)量同木。
--purge-max <INT>清除重復的覆蓋率上限,默認情況下自動推斷跛十。如果重疊群的覆蓋率高于此上限彤路,則不應用清除重復。較大的值使組裝更連續(xù)芥映,但可能會折疊重復或分段重復
--n-hap <INT=2> 單倍型數(shù)的假設(shè)洲尊。如果設(shè)置為> 2,則可能提高多倍體基因組初級組裝的質(zhì)量奈偏。
Hi-C組裝選項
--h1 <FILEs> 輸入Hi-C R1的文件名
[r1_1.fq坞嘀,r1_2.fq,...]
.--h2 <FILEs>輸入Hi-C R2的文件名
[r2_1.fq霎苗,r2_2.fq姆吭,...]
.--n-weight <INT=3> 重新加權(quán)Hi-C鏈接的回合。提高此選項可能會改善相位調(diào)整結(jié)果唁盏,但需要更長的時間内狸。
--n-perturb <INT=10000> 擾動輪次。增加此選項可能會改善相位調(diào)整結(jié)果厘擂,但需要更長的時間昆淡。
--f-perturb <FLOAT=0.1>擾動翻轉(zhuǎn)的分數(shù)。增加此選項可能會改善相位調(diào)整結(jié)果刽严,但需要更長的時間昂灵。
--seed <INT=11>RNG seed.RNG種子。
--l-msjoin <INT=500000> 檢測大小為“>=INT”的錯誤連接的單元格; 0將禁用。