寫在前面
- 以下內(nèi)容均來(lái)自我在菲沙基因(Frasergen)暑期生信培訓(xùn)班上記錄的課堂筆記
1.三代數(shù)據(jù)糾錯(cuò)
- :gcpp兜辞,封裝到了pb-assembly中,使用conda安裝
conda install -c bioconda pb-assembly -y
- 使用方法夸溶,一輪糾錯(cuò)就差不多了
pbmm2 index contig.fasta ref.mmi
pbmm2 align ref.mmi *subreadset.xml contigs.fasta.bam
samtools sort -@ 32 -o contigs.fasta.sorted.bam contigs.fasta.bam
gcpp -j60 --algorithm=arrow contigs.fasta.sorted.bam -r contig.fasta -o myConsensus.fasta
- :racon逸吵,使用conda安裝
#比對(duì)要用到minimap2,因此順手安裝一下
conda install -c bioconda minimap2 -y
conda install -c bioconda racon -y
- 軟件用法缝裁,進(jìn)行多輪糾錯(cuò)更加準(zhǔn)確
input=/test/4-fsa/contigs.fasta
data=/00.data/all_subreads.bam.fasta
#第一輪糾錯(cuò)
minimap2 -t 10 $input $data > round1.paf
racon -t 10 $data round1.paf $input > round1.fasta
#第二輪糾錯(cuò)
minimap2 -t 10 round1.fasta $data > round2.paf
racon -t 10 $data round2.paf round1.fasta > round2.fasta
#第三輪糾錯(cuò)
minimap2 -t 10 round2.fasta $data > round3.paf
racon -t 10 $data round3.paf round2.fasta > round3.fasta
2.二代糾錯(cuò)
- 軟件:pilon
- 使用conda安裝
#比對(duì)用到了bwa與samtools 扫皱,也順手安裝一下
conda install -c bioconda bwa -y
conda install -c bioconda pilon -y
conda install -c bioconda samtools -y
- 比對(duì)
bwa index -p index/draft draft.fa
bwa mem -t 16 index/draft raed1_fq.gz read2_fq.gz |samtools sort -@ 10 -O bam -o align.bam
samtools index -@ 10 align.bam
draft.fa:三代數(shù)據(jù)組裝好的基因組文件
read1_fq.gz read2_fq.gz:illumina的雙端測(cè)序數(shù)據(jù)經(jīng)過(guò)質(zhì)控之后的數(shù)據(jù)
- 糾錯(cuò)
pilon \
--genome draft.fa \
--frags align_filter.bam \
--fix snp,indels \
--output pilon_polished \
--vcf
--frags 表示輸入的是1kb以內(nèi)的paired-end文庫(kù),
--jumps 表示 大于1k以上的mate pair文庫(kù),
--bam 則是讓軟件自己猜測(cè)
-vcf 輸出一個(gè)vcf文件,包含每個(gè)堿基的信息
--fix Pilon將會(huì)處理的內(nèi)容韩脑,基本上選snps和indels就夠了
--variant 啟發(fā)式的變異檢測(cè)氢妈,等價(jià)于--vcf --fix all,breaks, 如果是polish不要使用該選項(xiàng)
--minmq 用于Pilon堆疊的read最低比對(duì)質(zhì)量,默認(rèn)是0段多。
3.Hi-C掛載
- Hi-C技術(shù)簡(jiǎn)介
Hi-C技術(shù)是3C技術(shù)(Chromosome Conformation Capture染色體構(gòu)象捕獲)的一種衍生技術(shù)首量。
Hi-C是結(jié)合3C技術(shù)和高通量測(cè)序技術(shù)捕獲基因組的三維結(jié)構(gòu)的技術(shù)。
- Hi-C 輔助組裝簡(jiǎn)介
使用Hi-C輔助組裝进苍,可以將contigs組裝到假染色體水平
- Hi-C輔助組裝原理
首先對(duì)下機(jī)數(shù)據(jù)進(jìn)行質(zhì)控去接頭獲得高質(zhì)量的clean reads加缘,然后將數(shù)據(jù)比對(duì)到已經(jīng)組裝的基因組序列上并去除PCR重復(fù)。利用去噪矯正之后的交互數(shù)據(jù)觉啊,構(gòu)建染色質(zhì)交互矩陣拣宏,針對(duì)其染色質(zhì)三維空間結(jié)構(gòu)特征,選取合適的聚類模型將未定位scaffolds錨定到染色體上杠人,并采用相應(yīng)的排序算法確定掛載scaffolds的正確順序和方向蚀浆,組裝出染色體水平的全基因組序列。
-
關(guān)于Hi-C的介紹單獨(dú)記錄一篇