Pilon | 基因組糾錯

前言

三代測序錯誤率比較高,一般組裝后需要進行糾錯來提高準(zhǔn)確度隘梨。本次介紹使用Pilon通過引入二代測序數(shù)據(jù)來對三代基因組進行糾錯。

Pilon官網(wǎng)

https://github.com/broadinstitute/pilon/wiki

Pilon軟件安裝

#conda 安裝pilon
conda install -y pilon
#編譯安裝
wget https://github.com/broadinstitute/pilon/releases/download/v1.24/pilon-1.24.jar
chomd 755 pilon-1.24.jar

Pilon示例數(shù)據(jù)下載

#下載二代測序數(shù)據(jù)用于糾錯
wget \
-O illumina.sra \
https://sra-pub-run-odp.s3.amazonaws.com/sra/SRR8482586/SRR8482586

本期需要糾錯的基因組選擇上期推文中Flye組裝的nanopore數(shù)據(jù)進行演示考余,即下文assembly.fasta

Pilon示例數(shù)據(jù)處理

fastq-dump --split-files --gzip illumina.sra

fastq-dump會將sra格式轉(zhuǎn)化成fastq格式饲窿,同時--gzip參數(shù)會對fastq進行壓縮,示例illumina.sra最終會被轉(zhuǎn)化為illumina_1.fastq.gz 和 illumina_2.fastq.gz

Pilon常用參數(shù)

--genome : 設(shè)置需要糾錯的基因組
--fix : 參數(shù)可選snps佳遣、indels识埋、gaps、local零渐、all等(默認all)
--changes : 列出糾錯位點
--frags : 輸入paired-end比對文件(不同測序數(shù)據(jù)該選項不同,具體查看該軟件幫助文檔系忙;若不知道诵盼,可直接使用--bam
--output : 輸入結(jié)果前綴
--outdir : 輸出文件
--vcf : 生成vcf格式文件

Pilon使用案例

示例使用的是conda安裝的Pilon

#對拼接結(jié)果建立索引(如何獲得assembly.fasta詳見Flye三代基因組推文)
bwa index assembly.fasta
#illumina與assembly.fasta進行比對,生成assembly_illumina.sam結(jié)果文件
bwa mem -t 12 assembly.fasta  illumina_1.fastq.gz illumina_2.fastq.gz > assembly_illumina.sam
#將assembly_illumina.sam進行排序银还,生成assembly_illumina.sorted.bam 
samtools sort -@ 12 -O bam -o assembly_illumina.sorted.bam assembly_illumina.sam
#運行Pilon
pilon --genome assembly.fasta --fix all --changes --frags assembly_illumina.sorted.bam --output pilon --outdir pilon_result  --vcf

可能會遇到下面的報錯信息风宁,這是由于軟件設(shè)定的內(nèi)存不足造成的

Exception in thread "main" java.lang.OutOfMemoryError: Java heap space
    at org.broadinstitute.pilon.BaseSum.<init>(BaseSum.scala:24)
    at org.broadinstitute.pilon.PileUp.<init>(PileUp.scala:27)
    at org.broadinstitute.pilon.PileUpRegion.$anonfun$new$1(PileUpRegion.scala:30)
    at org.broadinstitute.pilon.PileUpRegion$$Lambda$52/0x0000000100178840.apply$mcVI$sp(Unknown Source)
    at scala.collection.immutable.Range.foreach$mVc$sp(Range.scala:190)
    at org.broadinstitute.pilon.PileUpRegion.<init>(PileUpRegion.scala:30)
    at org.broadinstitute.pilon.GenomeRegion.initializePileUps(GenomeRegion.scala:150)
    at org.broadinstitute.pilon.GenomeFile.$anonfun$processRegions$4(GenomeFile.scala:104)
    at org.broadinstitute.pilon.GenomeFile.$anonfun$processRegions$4$adapted(GenomeFile.scala:102)
    at org.broadinstitute.pilon.GenomeFile$$Lambda$51/0x0000000100169840.apply(Unknown Source)
    at scala.collection.immutable.List.foreach(List.scala:333)
    at org.broadinstitute.pilon.GenomeFile.processRegions(GenomeFile.scala:102)
    at org.broadinstitute.pilon.Pilon$.main(Pilon.scala:111)
    at org.broadinstitute.pilon.Pilon.main(Pilon.scala)

解決辦法如下:

#查詢pilon路徑
which pilon
#修改pilon配置
vim /home/xiaoli/miniconda3/envs/NGS/bin/pilon

修改下圖紅色框,將 -Xmsg和-Xmx對應(yīng)的數(shù)值調(diào)大蛹疯,再次運行即可成功戒财。

pilon debug.png

Pilon主要結(jié)果文件

pilon.changes  #該文件列出了糾錯的位點
pilon.fasta  #最終糾錯后文件

查看Pilon糾錯效果

#有多少行代表有多少錯誤被糾正
wc -l  pilon.changes
#統(tǒng)計糾錯前后文件信息
seqkit stats pilon.fasta assembly.fasta

PS.糾錯可以進行多次,即:將第一次糾錯結(jié)果作為第二次需要糾錯的文件再次糾錯

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末捺弦,一起剝皮案震驚了整個濱河市饮寞,隨后出現(xiàn)的幾起案子孝扛,更是在濱河造成了極大的恐慌,老刑警劉巖幽崩,帶你破解...
    沈念sama閱讀 222,183評論 6 516
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件苦始,死亡現(xiàn)場離奇詭異,居然都是意外死亡慌申,警方通過查閱死者的電腦和手機陌选,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,850評論 3 399
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來蹄溉,“玉大人咨油,你說我怎么就攤上這事∑饩簦” “怎么了役电?”我有些...
    開封第一講書人閱讀 168,766評論 0 361
  • 文/不壞的土叔 我叫張陵,是天一觀的道長餐弱。 經(jīng)常有香客問我宴霸,道長,這世上最難降的妖魔是什么膏蚓? 我笑而不...
    開封第一講書人閱讀 59,854評論 1 299
  • 正文 為了忘掉前任瓢谢,我火速辦了婚禮,結(jié)果婚禮上驮瞧,老公的妹妹穿的比我還像新娘氓扛。我一直安慰自己,他們只是感情好论笔,可當(dāng)我...
    茶點故事閱讀 68,871評論 6 398
  • 文/花漫 我一把揭開白布采郎。 她就那樣靜靜地躺著,像睡著了一般狂魔。 火紅的嫁衣襯著肌膚如雪蒜埋。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,457評論 1 311
  • 那天最楷,我揣著相機與錄音整份,去河邊找鬼。 笑死籽孙,一個胖子當(dāng)著我的面吹牛烈评,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播犯建,決...
    沈念sama閱讀 40,999評論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼讲冠,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了适瓦?” 一聲冷哼從身側(cè)響起竿开,我...
    開封第一講書人閱讀 39,914評論 0 277
  • 序言:老撾萬榮一對情侶失蹤谱仪,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后德迹,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體芽卿,經(jīng)...
    沈念sama閱讀 46,465評論 1 319
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,543評論 3 342
  • 正文 我和宋清朗相戀三年胳搞,在試婚紗的時候發(fā)現(xiàn)自己被綠了卸例。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,675評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡肌毅,死狀恐怖筷转,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情悬而,我是刑警寧澤呜舒,帶...
    沈念sama閱讀 36,354評論 5 351
  • 正文 年R本政府宣布,位于F島的核電站笨奠,受9級特大地震影響袭蝗,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜般婆,卻給世界環(huán)境...
    茶點故事閱讀 42,029評論 3 335
  • 文/蒙蒙 一到腥、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧蔚袍,春花似錦乡范、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,514評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至宇整,卻和暖如春瓶佳,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背鳞青。 一陣腳步聲響...
    開封第一講書人閱讀 33,616評論 1 274
  • 我被黑心中介騙來泰國打工涩哟, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人盼玄。 一個月前我還...
    沈念sama閱讀 49,091評論 3 378
  • 正文 我出身青樓,卻偏偏與公主長得像潜腻,于是被迫代替她去往敵國和親埃儿。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,685評論 2 360

推薦閱讀更多精彩內(nèi)容