背景介紹
這篇應(yīng)該是10x genomics數(shù)據(jù)輔助基因組組裝的最后一篇唉俗,tigmint也是這些軟件之中效果最好的一個,屬于壓箱底的好工具惊奇。并且這個軟件是個活著的軟件互躬,相比于那些GitHub上最后更新時間是兩三年前的軟件而言播赁,它還在不斷地動態(tài)更新中颂郎,在我寫這篇內(nèi)容的2022年10月30日的時候,這個軟件在3天前剛剛提交了一次更新容为。
而且tigmint安裝起來也愈加地方便了乓序,最初使用它的時候甚至只能用源碼安裝或者brew,現(xiàn)如今也支持conda一鍵安裝了坎背。
這里順便提一下tigmint的開發(fā)者替劈,是Shaun Jackman
,根據(jù)他的簡歷(https://sjackman.ca/resume/
), 他現(xiàn)在是10x genomcis
的高級計算生物學(xué)家職位得滤,之前提到過的ARCS/ARKS也是他開發(fā)的陨献。也難怪tigmint處理10x數(shù)據(jù)的表現(xiàn)如此優(yōu)秀了。
根據(jù)GitHub上的介紹懂更,tigmint不但可以用10x的數(shù)據(jù)眨业,也可以使用nanopore數(shù)據(jù)匹耕。
tigmint的主要作用是識別并糾正錯誤組裝冕房。將10x/nanopore數(shù)據(jù)比對到基因組上之后,從比對結(jié)果中推斷出DNA大分子(large DNA molecules
)范圍的谓传,因?yàn)楦鷨为?dú)的序列相比慷暂,DNA大分子的物理覆蓋位置更一致聘殖,更不容易出現(xiàn)覆蓋缺失的情況。在沒有覆蓋到的位置把基因組給斷開行瑞。tigmint會以bed文件的格式輸出需要切割的斷點(diǎn)位置奸腺。而在運(yùn)行tigmint的時候可以選擇結(jié)合使用ARCS或者ARKS做后續(xù)的處理,當(dāng)然也可以單獨(dú)使用tigmint糾錯血久。
軟件安裝
GitHub地址:https://github.com/bcgsc/tigmint
文章地址:https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-018-2425-6
conda install -c bioconda tigmint arcs links abyss seqtk
軟件運(yùn)行
前期處理
輸入文件要先把10x的原始數(shù)據(jù)用longranger basic
進(jìn)行處理突照,處理完之后就可以直接輸給tigmint進(jìn)行組裝了。
longranger basic
的使用可以參考10x的官網(wǎng):
https://support.10xgenomics.com/genome-exome/software/pipelines/latest/advanced/other-pipelines
運(yùn)行tigmint-make
tigmint-make的命令主要有3種模式:
- 只調(diào)用tigmint進(jìn)行糾錯
tigmint-make tigmint
- 糾錯加組裝
tigmint-make arcs
洋魂,還有一個arcs-long
模式 - 糾錯+組裝+基于reference計算一個組裝的matrics绷旗。感覺這個應(yīng)該是有比較好的reference的情況下再進(jìn)行組裝才需要的喜鼓。
tigmint-make arcs draft=test.hic.hap2.p_ctg reads=10x_longranger_basic
注意事項(xiàng)
- draft和reads都只能是文件名,不能帶后綴衔肢,否則會報錯庄岖。
- draft(即基因組文件)得是
.fa
結(jié)尾的,如果是.fasta
角骤,記得改成.fa
才能運(yùn)行,否則會報找不到基因組文件的錯誤隅忿。 - 環(huán)境中安裝的
samtools
的版本不能太低,samtools sort
命令里得有-t
選項(xiàng)邦尊,似乎samtools
的1.9或者1.10版本之后才更新出這個選項(xiàng)背桐,老版本的samtools
運(yùn)行到后面會報找不到-t
選項(xiàng)的錯誤。 - 運(yùn)行過程中可能會遇到/tmp滿了無法繼續(xù)寫入文件而中斷的問題蝉揍,解決辦法是在有空間的位置設(shè)置一個臨時文件夾链峭,把中間文件寫到我們自己設(shè)置的臨時文件夾中去。
mkdir tmpdir
# 記得把這一句寫入環(huán)境變量中哦又沾。
export TMPDIR=/path/to/tmpdir
萌哥碎碎念
- 我嘗試過
tigmint-make arcs
和tigmint-make arcs-long
弊仪,arcs-long
的結(jié)果里會引入更多的N,如果你后面還有Hi-C數(shù)據(jù)的話杖刷,沒有必要在這一步里引入不必要的N励饵,反正后面該打斷該連不上的都是會現(xiàn)出原形的。 - 如果你是手動安裝的ARCS滑燃,安裝的過程中可能會遇到
sparsehash
找不到的錯誤役听,但是這個不影響ARCS的使用。因?yàn)檫@個依賴是ARKS所需要的表窘,所以如果報錯了典予,只是影響ARKS的使用,ARCS還是能正常使用的蚊丐。一般而言熙参,從結(jié)果來看,ARCS要比ARKS要好麦备,只是ARKS更快罷了孽椰。