用scaffold10x基于10x genomics數(shù)據(jù)做genome scaffolding

背景介紹

在得到初步的組裝結(jié)果之后,如果手上有10x genomics的基因組測(cè)序數(shù)據(jù)的話皮官,除了可以用supernova基于10x數(shù)據(jù)獨(dú)立組裝出一個(gè)新版本的基因組外(詳見(jiàn)我的往期推送10x基因組數(shù)據(jù)的組裝)震桶,還可以借助10x的數(shù)據(jù)把contig序列給連成更長(zhǎng)的片段钟些,做一個(gè)初步的scaffolding桦卒。

scaff10x的開(kāi)發(fā)者來(lái)自于大名鼎鼎的桑格研究所的高性能算法團(tuán)隊(duì)(High Performance Algorithms Group)诗箍,下面是它的github地址:
https://github.com/wtsi-hpag/Scaff10X

軟件原理

scaff10x的工作原理是:

  1. 把barcoded從10x的原始數(shù)據(jù)中提取出來(lái)鳖敷,放到序列的id行里以備后續(xù)使用脖苏;
  2. 把10x的序列比對(duì)到基因組上,這里可以選擇用bwa或者SMALT定踱;
  3. 把barcode根據(jù)contig和比對(duì)坐標(biāo)(mapping coordinates)給排個(gè)序棍潘;
  4. 建立一個(gè)關(guān)系矩陣(relation matrix)用以記錄潛在的可相互連接的contig之間的共享barcodes信息;
  5. 在找到最接近的contigs后把他們根據(jù)順序和方向連接起來(lái)。

軟件安裝

git clone  https://github.com/wtsi-hpag/Scaff10X.git
cd Scaff10X
./install.sh

打開(kāi)這個(gè)install.sh會(huì)發(fā)現(xiàn)它做的工作是去自動(dòng)下載bwa亦歉、smaltpigz這幾個(gè)依賴軟件恤浪,可以直接用conda安裝。我這里為了方便還是讓他默認(rèn)安裝吧肴楷。

一個(gè)小bug是由于pigz從2.6版本更新到了2.7水由,因此需要手動(dòng)修改一下install.sh里的pigz的版本,從2.6修改到2.7赛蔫,否則會(huì)報(bào)錯(cuò)的哦砂客。

安裝好后記得把軟件加入到環(huán)境變量中,當(dāng)然也可以寫(xiě)絕對(duì)路徑調(diào)用濒募。

軟件運(yùn)行

scaff10x \
-nodes 120 \ # 設(shè)置運(yùn)行的線程數(shù)
-size 2.0 \ # 基因組的大致大小鞭盟,單位是Gb,可以寫(xiě)0.5, 1.0, 2.0 (Gb)
-longread 1 \ # 基因組是用什么組裝的瑰剃?1代表三代數(shù)據(jù)齿诉,0代表二代數(shù)據(jù)。
-gap 100 \ # 設(shè)置gap的大小晌姚,默認(rèn)是100
-matrix 5000 \ # 設(shè)置relation matrix的大小粤剧,默認(rèn)是2000
-reads 10 \ # 上面原理中第一步和第二步的最小共享barcode的reads數(shù)目,默認(rèn)是10
-link 8 \ # 上面原理中第一步和第二步的最小的被共享的barcode的數(shù)目挥唠,默認(rèn)是8
-score 20 \ # 最小的平均比對(duì)質(zhì)量抵恋,默認(rèn)是20
-edge 50000 \ # scaffolding時(shí)邊界的長(zhǎng)度,默認(rèn)是50000
-block 10000 \ # 決定最接近的相鄰者的長(zhǎng)度宝磨。默認(rèn)是50000
-plot hap2_length.png \ # 打印出barcode的長(zhǎng)度分布弧关。
/path/to/test.hic.hap2.p_ctg.fasta \ # 用于scaffold的contig,即前期組裝結(jié)果
/path/to/test_L001_R1_001.fastq.gz \ # 10x數(shù)據(jù)reads 1
/path/to/test_L001_R2_001.fastq.gz \ # 10x數(shù)據(jù)reads 2
test.hap2.scaff10x_block10000.fasta # 最終結(jié)果唤锉。

其實(shí)看起來(lái)設(shè)置了很多的數(shù)據(jù)世囊,其實(shí)大多數(shù)都是默認(rèn)值。只是修改了block的數(shù)值窿祥。

最終效果還不錯(cuò)株憾,我的數(shù)據(jù)從2155條contig減少到了1037條,N50也從3.5 Mb提升到了37 Mb晒衩。直接翻了十倍嗤瞎。當(dāng)然,我這里用的是hifiasm的單倍體的數(shù)據(jù)听系,本身N50較短贝奇。

萌哥碎碎念

  1. 就我的觀察而言,10x scaffolding對(duì)于較長(zhǎng)的contig的貢獻(xiàn)比較一般靠胜,但是一些較短的contig確實(shí)有明顯的提高弃秆,這也非常符合預(yù)期届惋。因?yàn)?0x的數(shù)據(jù)是基于illumina平臺(tái)的二代短序列,本身較短菠赚,即使有共享的barcode輔助延伸脑豹,對(duì)于長(zhǎng)片段的作用也非常有限。
  2. 最近不知道選什么圖片作為頭圖比較好衡查,于是突發(fā)奇想就用自己拍的照片做頭圖好了~這樣也減少了使用有版權(quán)照片的法律/商業(yè)風(fēng)險(xiǎn)瘩欺。昨天的頭圖是我養(yǎng)的小兔子圖圖,今天的圖是前段時(shí)間熱氣球節(jié)上拍的照片拌牲,希望你喜歡俱饿。
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市塌忽,隨后出現(xiàn)的幾起案子拍埠,更是在濱河造成了極大的恐慌,老刑警劉巖土居,帶你破解...
    沈念sama閱讀 216,324評(píng)論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件枣购,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡擦耀,警方通過(guò)查閱死者的電腦和手機(jī)棉圈,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,356評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)眷蜓,“玉大人分瘾,你說(shuō)我怎么就攤上這事∮跸担” “怎么了德召?”我有些...
    開(kāi)封第一講書(shū)人閱讀 162,328評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)汽纤。 經(jīng)常有香客問(wèn)我上岗,道長(zhǎng),這世上最難降的妖魔是什么冒版? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,147評(píng)論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮逞姿,結(jié)果婚禮上辞嗡,老公的妹妹穿的比我還像新娘。我一直安慰自己滞造,他們只是感情好续室,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,160評(píng)論 6 388
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著谒养,像睡著了一般挺狰。 火紅的嫁衣襯著肌膚如雪明郭。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 51,115評(píng)論 1 296
  • 那天丰泊,我揣著相機(jī)與錄音薯定,去河邊找鬼。 笑死瞳购,一個(gè)胖子當(dāng)著我的面吹牛话侄,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播学赛,決...
    沈念sama閱讀 40,025評(píng)論 3 417
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼年堆,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了盏浇?” 一聲冷哼從身側(cè)響起变丧,我...
    開(kāi)封第一講書(shū)人閱讀 38,867評(píng)論 0 274
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎绢掰,沒(méi)想到半個(gè)月后痒蓬,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,307評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡曼月,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,528評(píng)論 2 332
  • 正文 我和宋清朗相戀三年谊却,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片哑芹。...
    茶點(diǎn)故事閱讀 39,688評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡炎辨,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出聪姿,到底是詐尸還是另有隱情碴萧,我是刑警寧澤,帶...
    沈念sama閱讀 35,409評(píng)論 5 343
  • 正文 年R本政府宣布末购,位于F島的核電站破喻,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏盟榴。R本人自食惡果不足惜曹质,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,001評(píng)論 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望擎场。 院中可真熱鬧羽德,春花似錦、人聲如沸迅办。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,657評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)站欺。三九已至姨夹,卻和暖如春纤垂,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背磷账。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,811評(píng)論 1 268
  • 我被黑心中介騙來(lái)泰國(guó)打工峭沦, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人够颠。 一個(gè)月前我還...
    沈念sama閱讀 47,685評(píng)論 2 368
  • 正文 我出身青樓熙侍,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親履磨。 傳聞我的和親對(duì)象是個(gè)殘疾皇子蛉抓,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,573評(píng)論 2 353

推薦閱讀更多精彩內(nèi)容