背景介紹
在得到初步的組裝結(jié)果之后,如果手上有10x genomics的基因組測(cè)序數(shù)據(jù)的話皮官,除了可以用supernova基于10x數(shù)據(jù)獨(dú)立組裝出一個(gè)新版本的基因組外(詳見(jiàn)我的往期推送10x基因組數(shù)據(jù)的組裝
)震桶,還可以借助10x的數(shù)據(jù)把contig序列給連成更長(zhǎng)的片段钟些,做一個(gè)初步的scaffolding桦卒。
scaff10x的開(kāi)發(fā)者來(lái)自于大名鼎鼎的桑格研究所的高性能算法團(tuán)隊(duì)(High Performance Algorithms Group
)诗箍,下面是它的github地址:
https://github.com/wtsi-hpag/Scaff10X
軟件原理
scaff10x的工作原理是:
- 把barcoded從10x的原始數(shù)據(jù)中提取出來(lái)鳖敷,放到序列的id行里以備后續(xù)使用脖苏;
- 把10x的序列比對(duì)到基因組上,這里可以選擇用
bwa
或者SMALT
定踱; - 把barcode根據(jù)contig和比對(duì)坐標(biāo)(
mapping coordinates
)給排個(gè)序棍潘; - 建立一個(gè)關(guān)系矩陣(
relation matrix
)用以記錄潛在的可相互連接的contig之間的共享barcodes信息; - 在找到最接近的contigs后把他們根據(jù)順序和方向連接起來(lái)。
軟件安裝
git clone https://github.com/wtsi-hpag/Scaff10X.git
cd Scaff10X
./install.sh
打開(kāi)這個(gè)install.sh
會(huì)發(fā)現(xiàn)它做的工作是去自動(dòng)下載bwa
亦歉、smalt
和pigz
這幾個(gè)依賴軟件恤浪,可以直接用conda安裝。我這里為了方便還是讓他默認(rèn)安裝吧肴楷。
一個(gè)小bug是由于pigz從2.6版本更新到了2.7水由,因此需要手動(dòng)修改一下install.sh里的pigz的版本,從2.6修改到2.7赛蔫,否則會(huì)報(bào)錯(cuò)的哦砂客。
安裝好后記得把軟件加入到環(huán)境變量中,當(dāng)然也可以寫(xiě)絕對(duì)路徑調(diào)用濒募。
軟件運(yùn)行
scaff10x \
-nodes 120 \ # 設(shè)置運(yùn)行的線程數(shù)
-size 2.0 \ # 基因組的大致大小鞭盟,單位是Gb,可以寫(xiě)0.5, 1.0, 2.0 (Gb)
-longread 1 \ # 基因組是用什么組裝的瑰剃?1代表三代數(shù)據(jù)齿诉,0代表二代數(shù)據(jù)。
-gap 100 \ # 設(shè)置gap的大小晌姚,默認(rèn)是100
-matrix 5000 \ # 設(shè)置relation matrix的大小粤剧,默認(rèn)是2000
-reads 10 \ # 上面原理中第一步和第二步的最小共享barcode的reads數(shù)目,默認(rèn)是10
-link 8 \ # 上面原理中第一步和第二步的最小的被共享的barcode的數(shù)目挥唠,默認(rèn)是8
-score 20 \ # 最小的平均比對(duì)質(zhì)量抵恋,默認(rèn)是20
-edge 50000 \ # scaffolding時(shí)邊界的長(zhǎng)度,默認(rèn)是50000
-block 10000 \ # 決定最接近的相鄰者的長(zhǎng)度宝磨。默認(rèn)是50000
-plot hap2_length.png \ # 打印出barcode的長(zhǎng)度分布弧关。
/path/to/test.hic.hap2.p_ctg.fasta \ # 用于scaffold的contig,即前期組裝結(jié)果
/path/to/test_L001_R1_001.fastq.gz \ # 10x數(shù)據(jù)reads 1
/path/to/test_L001_R2_001.fastq.gz \ # 10x數(shù)據(jù)reads 2
test.hap2.scaff10x_block10000.fasta # 最終結(jié)果唤锉。
其實(shí)看起來(lái)設(shè)置了很多的數(shù)據(jù)世囊,其實(shí)大多數(shù)都是默認(rèn)值。只是修改了block的數(shù)值窿祥。
最終效果還不錯(cuò)株憾,我的數(shù)據(jù)從2155條contig減少到了1037條,N50也從3.5 Mb提升到了37 Mb晒衩。直接翻了十倍嗤瞎。當(dāng)然,我這里用的是hifiasm的單倍體的數(shù)據(jù)听系,本身N50較短贝奇。
萌哥碎碎念
- 就我的觀察而言,10x scaffolding對(duì)于較長(zhǎng)的contig的貢獻(xiàn)比較一般靠胜,但是一些較短的contig確實(shí)有明顯的提高弃秆,這也非常符合預(yù)期届惋。因?yàn)?0x的數(shù)據(jù)是基于illumina平臺(tái)的二代短序列,本身較短菠赚,即使有共享的barcode輔助延伸脑豹,對(duì)于長(zhǎng)片段的作用也非常有限。
- 最近不知道選什么圖片作為頭圖比較好衡查,于是突發(fā)奇想就用自己拍的照片做頭圖好了~這樣也減少了使用有版權(quán)照片的法律/商業(yè)風(fēng)險(xiǎn)瘩欺。昨天的頭圖是我養(yǎng)的小兔子圖圖,今天的圖是前段時(shí)間熱氣球節(jié)上拍的照片拌牲,希望你喜歡俱饿。