生信 | 基因組組裝實(shí)戰(zhàn)(五):三代數(shù)據(jù)糾錯(cuò)gcpp、racon

寫在前面

  • 以下內(nèi)容均來(lái)自我在菲沙基因(Frasergen)暑期生信培訓(xùn)班上記錄的課堂筆記

1.三代數(shù)據(jù)糾錯(cuò)

  • \color{red}{軟件一}gcpp兜辞,封裝到了pb-assembly中,使用conda安裝
conda install -c bioconda pb-assembly -y 
  • 使用方法夸溶,一輪糾錯(cuò)就差不多了
pbmm2 index contig.fasta ref.mmi
pbmm2 align ref.mmi *subreadset.xml contigs.fasta.bam
samtools sort -@ 32 -o contigs.fasta.sorted.bam contigs.fasta.bam
gcpp -j60 --algorithm=arrow contigs.fasta.sorted.bam -r contig.fasta -o myConsensus.fasta
  • \color{red}{軟件二}racon逸吵,使用conda安裝
#比對(duì)要用到minimap2,因此順手安裝一下
conda install -c bioconda minimap2 -y
conda install -c bioconda racon -y
  • 軟件用法缝裁,進(jìn)行多輪糾錯(cuò)更加準(zhǔn)確
input=/test/4-fsa/contigs.fasta
data=/00.data/all_subreads.bam.fasta
#第一輪糾錯(cuò)
minimap2 -t 10 $input $data > round1.paf
racon -t 10 $data round1.paf $input > round1.fasta
#第二輪糾錯(cuò)
minimap2 -t 10 round1.fasta $data > round2.paf
racon -t 10 $data round2.paf round1.fasta > round2.fasta
#第三輪糾錯(cuò)
minimap2 -t 10 round2.fasta $data > round3.paf
racon -t 10 $data round3.paf round2.fasta > round3.fasta

2.二代糾錯(cuò)

  • 軟件:pilon
  • 使用conda安裝
#比對(duì)用到了bwa與samtools 扫皱,也順手安裝一下
conda install -c bioconda bwa -y
conda install -c bioconda pilon -y
conda install -c bioconda samtools -y
  • 比對(duì)
bwa index -p index/draft draft.fa
bwa mem -t 16 index/draft raed1_fq.gz read2_fq.gz |samtools sort -@ 10 -O bam -o align.bam
samtools index -@ 10 align.bam

draft.fa:三代數(shù)據(jù)組裝好的基因組文件
read1_fq.gz read2_fq.gz:illumina的雙端測(cè)序數(shù)據(jù)經(jīng)過(guò)質(zhì)控之后的數(shù)據(jù)

  • 糾錯(cuò)
pilon \
--genome draft.fa \
--frags align_filter.bam \
--fix snp,indels \
--output pilon_polished \
--vcf

--frags 表示輸入的是1kb以內(nèi)的paired-end文庫(kù),
--jumps 表示 大于1k以上的mate pair文庫(kù),
--bam 則是讓軟件自己猜測(cè)
-vcf 輸出一個(gè)vcf文件,包含每個(gè)堿基的信息
--fix Pilon將會(huì)處理的內(nèi)容韩脑,基本上選snps和indels就夠了
--variant 啟發(fā)式的變異檢測(cè)氢妈,等價(jià)于--vcf --fix all,breaks, 如果是polish不要使用該選項(xiàng)
--minmq 用于Pilon堆疊的read最低比對(duì)質(zhì)量,默認(rèn)是0段多。

3.Hi-C掛載

  • Hi-C技術(shù)簡(jiǎn)介
    Hi-C技術(shù)是3C技術(shù)(Chromosome Conformation Capture染色體構(gòu)象捕獲)的一種衍生技術(shù)首量。
    Hi-C是結(jié)合3C技術(shù)高通量測(cè)序技術(shù)捕獲基因組的三維結(jié)構(gòu)的技術(shù)。
    Hi-C技術(shù)
  • Hi-C 輔助組裝簡(jiǎn)介
    使用Hi-C輔助組裝进苍,可以將contigs組裝到假染色體水平
    Hi-C輔助組裝
  • Hi-C輔助組裝原理
    首先對(duì)下機(jī)數(shù)據(jù)進(jìn)行質(zhì)控去接頭獲得高質(zhì)量的clean reads加缘,然后將數(shù)據(jù)比對(duì)到已經(jīng)組裝的基因組序列上并去除PCR重復(fù)。利用去噪矯正之后的交互數(shù)據(jù)觉啊,構(gòu)建染色質(zhì)交互矩陣拣宏,針對(duì)其染色質(zhì)三維空間結(jié)構(gòu)特征,選取合適的聚類模型將未定位scaffolds錨定到染色體上杠人,并采用相應(yīng)的排序算法確定掛載scaffolds的正確順序和方向蚀浆,組裝出染色體水平的全基因組序列。
Hi-C輔助組裝原理
  • 關(guān)于Hi-C的介紹單獨(dú)記錄一篇
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末搜吧,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子杨凑,更是在濱河造成了極大的恐慌滤奈,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,013評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件撩满,死亡現(xiàn)場(chǎng)離奇詭異蜒程,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)伺帘,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,205評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門昭躺,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人伪嫁,你說(shuō)我怎么就攤上這事领炫。” “怎么了张咳?”我有些...
    開(kāi)封第一講書人閱讀 152,370評(píng)論 0 342
  • 文/不壞的土叔 我叫張陵帝洪,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我脚猾,道長(zhǎng)葱峡,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書人閱讀 55,168評(píng)論 1 278
  • 正文 為了忘掉前任龙助,我火速辦了婚禮砰奕,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己军援,他們只是感情好仅淑,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,153評(píng)論 5 371
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著盖溺,像睡著了一般漓糙。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上烘嘱,一...
    開(kāi)封第一講書人閱讀 48,954評(píng)論 1 283
  • 那天昆禽,我揣著相機(jī)與錄音,去河邊找鬼蝇庭。 笑死醉鳖,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的哮内。 我是一名探鬼主播盗棵,決...
    沈念sama閱讀 38,271評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼北发!你這毒婦竟也來(lái)了纹因?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書人閱讀 36,916評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤琳拨,失蹤者是張志新(化名)和其女友劉穎瞭恰,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體狱庇,經(jīng)...
    沈念sama閱讀 43,382評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡惊畏,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,877評(píng)論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了密任。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片颜启。...
    茶點(diǎn)故事閱讀 37,989評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖浪讳,靈堂內(nèi)的尸體忽然破棺而出缰盏,到底是詐尸還是另有隱情,我是刑警寧澤驻债,帶...
    沈念sama閱讀 33,624評(píng)論 4 322
  • 正文 年R本政府宣布乳规,位于F島的核電站,受9級(jí)特大地震影響合呐,放射性物質(zhì)發(fā)生泄漏暮的。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,209評(píng)論 3 307
  • 文/蒙蒙 一淌实、第九天 我趴在偏房一處隱蔽的房頂上張望冻辩。 院中可真熱鬧猖腕,春花似錦、人聲如沸恨闪。這莊子的主人今日做“春日...
    開(kāi)封第一講書人閱讀 30,199評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)咙咽。三九已至老玛,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間钧敞,已是汗流浹背蜡豹。 一陣腳步聲響...
    開(kāi)封第一講書人閱讀 31,418評(píng)論 1 260
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留溉苛,地道東北人镜廉。 一個(gè)月前我還...
    沈念sama閱讀 45,401評(píng)論 2 352
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像愚战,于是被迫代替她去往敵國(guó)和親娇唯。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,700評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容