導(dǎo)讀
本文將介紹基因組組裝過(guò)程中,如何利用HiC
測(cè)序數(shù)據(jù)怯疤,進(jìn)行染色體級(jí)別基因組的組裝喂饥。該過(guò)程主要利用 Juicer 和 3D-DNA 進(jìn)行旅急,有關(guān)第一步Juicer
的過(guò)程醇坝,已經(jīng)下方的文章中介紹了,本文主要介紹第二步:3D-DNA
的安裝與使用高职。
1. 背景介紹
目前基因組組裝的主要流程是钩乍,利用二代或者三代技術(shù)進(jìn)行測(cè)序,利用得到的測(cè)序數(shù)據(jù)怔锌,拼接為contig
級(jí)別的基因組寥粹,如果需要上升到染色體級(jí)別,那么就需要對(duì)物種進(jìn)行HiC
測(cè)序埃元,進(jìn)一步進(jìn)行染色體掛載涝涤。目前對(duì)于二倍體動(dòng)物,3D-DNA
是效果最好的亚情,下面就介紹3D-DNA
的使用方法妄痪。
2. 安裝
2.1. 流程圖
上圖是使用3D-DNA
進(jìn)行染色體掛載的流程圖哈雏,其中第一步是測(cè)序和基礎(chǔ)組裝楞件,測(cè)序一般是交給測(cè)序公司來(lái)完成,contig
組裝利用物種對(duì)應(yīng)的組裝軟件即可裳瘪。第二步時(shí)利用Juicer
對(duì)HiC
數(shù)據(jù)進(jìn)行分析土浸。第三步是利用3D-DNA
進(jìn)行掛載。
2.2. 依賴
下面這些是3D-DNA
的依賴彭羹,如果閱讀過(guò)之前Juicer
的使用教程黄伊,那么環(huán)境已經(jīng)配置完成,沒(méi)有閱讀過(guò)的讀者派殷,可以在文末選擇跳轉(zhuǎn)还最。
-
LastZ (version 1.03.73 released 20150708)
–僅適用于二倍體 Java version >=1.7
Bash >=4
GNU Awk >=4.0.2
GNU coreutils sort >=8.11
-
Python >=2.7
- 僅適用于染色體編號(hào)感知分離器模塊 -
scipy numpy matplotlib
- 僅適用于染色體編號(hào)感知分離器模塊
2.3. clone
# 從Github拉取倉(cāng)庫(kù)
git clone https://github.com/theaidenlab/3d-dna.git
3. 實(shí)戰(zhàn)
3.1. 數(shù)據(jù)準(zhǔn)備
- 基因組文件:
genome.fa
-
Juicer
結(jié)果:merged_nodups.txt
3.2. run
# 對(duì)組裝的信心高墓阀,用-r 0, 否則用默認(rèn)的-r 2就行了
# -r 代表 3d-dna 修正的次數(shù)
# merged_nodups.txt 在 上一步Juicer運(yùn)行的aligned目錄下
/home/ubuntu/3d-dna/run-asm-pipeline.sh -r 2 \
reference/genome.fa aligned/merged_nodups.txt &> log.txt &
3.3. 結(jié)果
最終的輸出文件最關(guān)鍵的是下面三類:
-
.fasta
: 以FINAL標(biāo)記的是最終結(jié)果 -
.hic
: 各個(gè)階段都會(huì)有輸出結(jié)果,用于在JABT中展示 -
.assembly
: 各個(gè)階段都會(huì)有輸出拓轻,一共兩列斯撮,存放contig的組裝順序
將結(jié)果中的.hic
文件和.assembly
文件導(dǎo)入Juicebox
中進(jìn)行調(diào)整,最后輸出修改后的.assembly
文件扶叉,再運(yùn)行下面命令勿锅,即可獲取染色體級(jí)別的基因組。
/home/ubuntu/3d-dna/run-asm-pipeline-post-review.sh \
-r genome.review.assembly \
genome.fa aligned/merged_nodups.txt
# genome.review.assembly 來(lái)自Juicebox中導(dǎo)出
讀者有任何問(wèn)題枣氧,可在評(píng)論區(qū)進(jìn)行交流溢十。
本文由mdnice多平臺(tái)發(fā)布