寫在前面:當(dāng)學(xué)習(xí)某一重要文件格式時(shí)佩番,更需要對(duì)此格式對(duì)應(yīng)軟件工具進(jìn)行全面的學(xué)習(xí)(如sam/bam——samtools)。在多次花時(shí)間寫腳本處理文件之后發(fā)現(xiàn)睹逃,80%左右的任務(wù)其實(shí)只需要對(duì)應(yīng)工具的某個(gè)子命令再加上合適的參數(shù)即可解決。故為提升效率,處理VCF文件之前先好好將對(duì)應(yīng)工具vcftools學(xué)習(xí)一遍
VCFTOOLS基本說明
vcftools為專門處理vcf/bcf文件而生桐绒,此工具能處理VCF數(shù)據(jù)包括:過濾(filter), ;變異位點(diǎn)的基本統(tǒng)計(jì)之拨;數(shù)據(jù)格式的轉(zhuǎn)換茉继;多個(gè)vcf文件的比較(compare files);集合運(yùn)算蚀乔。
目前常用版本v0.1.16烁竭。官方網(wǎng)站[https://vcftools.github.io/index.html]
vcftools [ --vcf/gzvcf/bcf FILE ] [ --out OUTPUT PREFIX ] [ FILTERING OPTIONS ] [ OUTPUT OPTIONS ]
輸入?yún)?shù)
--vcf
-
--gzvcf
輸入gz壓縮的vcf文件 --bcf
輸出
-
-out
輸出文件 -
--stdout/-c
標(biāo)準(zhǔn)輸入,可后接管道操作 -
--temp
指定輸出目錄
過濾參數(shù)
-
根據(jù)位置進(jìn)行過濾
-
--chr
,--not-chr
指定過濾選擇某染色體吉挣,可多次使用 -
--from-bp INT
,--to-bp
派撕,需和--chr一起使用,指定區(qū)域 -
--positions FILE
,--exclude-positions
接tab分割的多個(gè)坐標(biāo)位置文件 -
--bed FILE
,--exclude-bed
根據(jù)BED文件進(jìn)行過濾
-
-
根據(jù)指定ID位點(diǎn)過濾
-
--snp
根據(jù)vcf文件第三列ID列的snp名進(jìn)行過濾睬魂。 -
--snps FILE
,--exclude
根據(jù)ID文件進(jìn)行過濾
-
-
變異類型過濾
--keep-only-indels
-
--remove-indels
即保留或去除SNP终吼,留下INDEL。
-
根據(jù)VCF文件第七列FILTER進(jìn)行過濾
-
--remove-filterer-all
FILTER列除了PASS保留氯哮,其余都過濾 -
--keep-filtered
,--remove-filtered
保留或去除特定FILTER標(biāo)簽际跪。可多次使用。
-
-
根據(jù)vcf第八列INFO進(jìn)行過濾
--keep-INFO
-
--remove-INFO
根據(jù)INFO列的指定tag進(jìn)行過濾
-
根據(jù)ALLEL進(jìn)行過濾
-
--maf
,--max-maf
Minor Allele Frequency二等位基因頻率進(jìn)行過濾姆打,常為--maf 0.05良姆,保留大于0.05的。 -
--non-ref-af
,--non-ref-ac
.... 保留都是ALT變異的位點(diǎn)穴肘。 -
--mac INT
,--max-mac
保留Minor Allel Count數(shù)大于INT數(shù)的位點(diǎn) -
--min-alleles 2
,--max-alleles 2
篩選保留含有2個(gè)ALT變異的位點(diǎn)歇盼。常用。
-
-
根據(jù)基因型GENOTYPE數(shù)值進(jìn)行過濾
-
--min-meanDP
,--max-meanDP
根據(jù)平均覆蓋深度進(jìn)行過濾评抚。--min-meanDP 3 -
--hwe
哈溫平衡檢測(cè)豹缀,根據(jù)pvalue值進(jìn)行過濾,保留值以內(nèi)的慨代。--hwe 0.01 -
--max-missing
常用耘柱,缺失率怜森,0為接受完全缺失,1為接受數(shù)據(jù)全都存在。一般0.8 -
--max-missing-count INT
缺失的個(gè)體數(shù)目超過INT擅耽,即被過濾。 -
--phased
刪除unpased位點(diǎn) -
--minQ
保留Quality值大于INT的位點(diǎn)挨摸。
-
-
對(duì)樣品個(gè)體進(jìn)行過濾
-
--indv
,--remove-indv
保留或刪除指定樣本 -
--keep FILE
,--remove
保留/刪除多個(gè)體的文件 -
--max-indv INT
隨機(jī)保留INT數(shù)目的樣本栅炒。
-
-
基因型過濾
-
--remove-filtered-geno-all
,--remove-filtered-geno
保留/刪除 FILTER FLAG的位點(diǎn)。 -
--minGQ
刪除GQ值低于數(shù)值的位點(diǎn) -
--minDP
,--maxDP
保留覆蓋率min~max范圍內(nèi)的位點(diǎn)说莫。
-
計(jì)算統(tǒng)計(jì)參數(shù)
-
輸出變異位點(diǎn)的計(jì)算統(tǒng)計(jì)
-
--freq
,--freq2
輸出每個(gè)等位基因位點(diǎn)的頻率杨箭。 -
--counts
,位點(diǎn)數(shù)目的統(tǒng)計(jì)
-
-
位點(diǎn)覆蓋深度Depth統(tǒng)計(jì)
-
depth
輸出每個(gè)個(gè)體的平均覆蓋度,以idepth文件展示 -
--site-depth
,--site-mean-depth
每個(gè)位點(diǎn)的所有個(gè)體深度 -
--geno-depth
每個(gè)基因型的覆蓋深度文件
-
-
LD計(jì)算(Linkage Disequilibrium)
-
--hap-r2
同時(shí)輸出r^2值, D值和D’值储狭。傳統(tǒng)LD值計(jì)算方法互婿,輸出hap.ld -
--geno-r2
,方法同PLINK軟件辽狈,計(jì)算squared correlation coefficient慈参,輸出geno.ld -
--geno-chisq
, -
--hap-r2-positions FILE
,--geno-r2-positions FILE
和已有文件中的點(diǎn)做LD計(jì)算 -
--ld-window INT
LD計(jì)算的最大SNP數(shù)目,即LD-window刮萌。--ld-window-min
最小數(shù)目 -
--ld-window-bp INT
LD計(jì)算窗口的實(shí)際物理距離驮配。--ld-window-bp-min
-
--min-r2
小于r2相關(guān)系數(shù)值將不被展示 -
--interchrom-hap-r2
,--interchrom-geno-r2
跨染色體的r2值計(jì)算。
-
-
Ts/Tv計(jì)算(transition/transversion )
-
TsTv INT
計(jì)算INT值內(nèi)的TsTv值着茸,輸出TsTv文件 -
TsTv-summary
TsTv值計(jì)算統(tǒng)計(jì)壮锻。 -
--TsTv-by-count
,--TsTv-by-qual
計(jì)算tstv率。 -
--FILTER-summary
添加到T值到FILTER列中
-
-
核酸多樣性統(tǒng)計(jì)
-
--site-pi
計(jì)算所有位點(diǎn)的多樣性值 -
--window-pi
,--window-pi-step
計(jì)算窗口中的核酸多樣性值
-
-
FST計(jì)算
-
--weir-fst-pop FILE
:file must contain a list of individuals (one individual per line) from the VCF file that correspond to one population元扔,可多次躯保,生成weir.fst文件 -
--fst-window-size
,--fst-window-step
FSTc滑動(dòng)窗口計(jì)算,重測(cè)序一般2kb-10kb
-
-
其它計(jì)算
-
--het
Calculates a measure of heterozygosity on a per-individual basis. -
--hardy
每個(gè)位點(diǎn)的哈溫平衡計(jì)算的Pvalue澎语。 -
--TajimaD INT
Tajima’s D 計(jì)算 -
--indv-freq-burden
:calculates the number of variants within each individual of a specific frequency. -
--LROH
Long Runs of Homozygosity -
--relatedness
,--relatedness2
計(jì)算relatedness statistic -
--site-quality
提取VCF文件中每個(gè)位點(diǎn)的QUAL信息 -
--missing-indv
計(jì)算每個(gè)樣本的缺失率途事,輸出imiss -
--missing-site
計(jì)算每個(gè)位點(diǎn)的缺失率验懊。 -
--SNPdensity INT
一定窗口內(nèi)的SNP數(shù)目和頻率 -
--kept-sites
,--remove-sites
通過過濾的位點(diǎn)到另一文件kept.sites文件,removed.sites中 -
--singletons
detailing the location of singletons -
--hapcount BED
output the number of unique haplotypes within user specified bins. -
--mendel PED
report mendel errors identified in trios. -
--extract-FORMAT-info <STRING>
提取format列中的指定TAG -
--get-INFO <string>
提取INFO列中信息
-
輸出格式轉(zhuǎn)換
-
輸出參數(shù)
-
--recode
輸出.recode.vcf新文件 -
--recode-INFO-all
保留所有的INFO信息
-
-
格式轉(zhuǎn)換
-
--012
012矩陣文件 -
--IMPUTE
impute文件 -
--ldhat-geno
--ldhat
LDhat格式。 -
--BEAGLE-GL
,--BEAGLE-PL
-
--plink
,--plink-tped
,--chrom-map
PLINK格式
-
兩個(gè)VCF文件的比較操作
-
另外一個(gè)VCF文件的輸入
-
--diff
,--gzdiff
,--diff-bcf
FILE -
--not-chr
不同的chr跳過
-
-
比較參數(shù)
-
--diff-site
Outputs the sites that are common / unique to each file -
--diff-indv
不同的個(gè)體樣本 -
--diff-site-discordance
,--diff-indv-discordance
calculates discordance on a site by site basis. -
--diff-indv-map <filename>
指定ID文件進(jìn)行比較 -
--diff-discordance-matrix
calculates a discordance matrix -
--diff-switch-error
calculates phasing errors
-