WGS全基因組分析||VCFTOOLS使用

寫在前面:當(dāng)學(xué)習(xí)某一重要文件格式時(shí)佩番,更需要對(duì)此格式對(duì)應(yīng)軟件工具進(jìn)行全面的學(xué)習(xí)(如sam/bam——samtools)。在多次花時(shí)間寫腳本處理文件之后發(fā)現(xiàn)睹逃,80%左右的任務(wù)其實(shí)只需要對(duì)應(yīng)工具的某個(gè)子命令再加上合適的參數(shù)即可解決。故為提升效率,處理VCF文件之前先好好將對(duì)應(yīng)工具vcftools學(xué)習(xí)一遍

VCFTOOLS基本說明

vcftools為專門處理vcf/bcf文件而生桐绒,此工具能處理VCF數(shù)據(jù)包括:過濾(filter), ;變異位點(diǎn)的基本統(tǒng)計(jì)之拨;數(shù)據(jù)格式的轉(zhuǎn)換茉继;多個(gè)vcf文件的比較(compare files);集合運(yùn)算蚀乔。

目前常用版本v0.1.16烁竭。官方網(wǎng)站[https://vcftools.github.io/index.html]

vcftools [ --vcf/gzvcf/bcf FILE ] [ --out OUTPUT PREFIX ] [ FILTERING OPTIONS ] [ OUTPUT OPTIONS ]

輸入?yún)?shù)

  • --vcf
  • --gzvcf輸入gz壓縮的vcf文件
  • --bcf

輸出

  • -out 輸出文件
  • --stdout/-c標(biāo)準(zhǔn)輸入,可后接管道操作
  • --temp指定輸出目錄

過濾參數(shù)

  1. 根據(jù)位置進(jìn)行過濾

    • --chr, --not-chr指定過濾選擇某染色體吉挣,可多次使用
    • --from-bp INT, --to-bp派撕,需和--chr一起使用,指定區(qū)域
    • --positions FILE,--exclude-positions接tab分割的多個(gè)坐標(biāo)位置文件
    • --bed FILE,--exclude-bed根據(jù)BED文件進(jìn)行過濾
  2. 根據(jù)指定ID位點(diǎn)過濾

    • --snp 根據(jù)vcf文件第三列ID列的snp名進(jìn)行過濾睬魂。
    • --snps FILE, --exclude根據(jù)ID文件進(jìn)行過濾
  3. 變異類型過濾

    • --keep-only-indels
    • --remove-indels即保留或去除SNP终吼,留下INDEL。
  4. 根據(jù)VCF文件第七列FILTER進(jìn)行過濾

    • --remove-filterer-allFILTER列除了PASS保留氯哮,其余都過濾
    • --keep-filtered,--remove-filtered保留或去除特定FILTER標(biāo)簽际跪。可多次使用。
  5. 根據(jù)vcf第八列INFO進(jìn)行過濾

    • --keep-INFO
    • --remove-INFO根據(jù)INFO列的指定tag進(jìn)行過濾
  6. 根據(jù)ALLEL進(jìn)行過濾

    • --maf,--max-maf Minor Allele Frequency二等位基因頻率進(jìn)行過濾姆打,常為--maf 0.05良姆,保留大于0.05的。
    • --non-ref-af,--non-ref-ac.... 保留都是ALT變異的位點(diǎn)穴肘。
    • --mac INT,--max-mac 保留Minor Allel Count數(shù)大于INT數(shù)的位點(diǎn)
    • --min-alleles 2, --max-alleles 2篩選保留含有2個(gè)ALT變異的位點(diǎn)歇盼。常用。
  7. 根據(jù)基因型GENOTYPE數(shù)值進(jìn)行過濾

    • --min-meanDP,--max-meanDP根據(jù)平均覆蓋深度進(jìn)行過濾评抚。--min-meanDP 3
    • --hwe哈溫平衡檢測(cè)豹缀,根據(jù)pvalue值進(jìn)行過濾,保留值以內(nèi)的慨代。--hwe 0.01
    • --max-missing常用耘柱,缺失率怜森,0為接受完全缺失,1為接受數(shù)據(jù)全都存在。一般0.8
    • --max-missing-count INT缺失的個(gè)體數(shù)目超過INT擅耽,即被過濾。
    • --phased 刪除unpased位點(diǎn)
    • --minQ 保留Quality值大于INT的位點(diǎn)挨摸。
  8. 對(duì)樣品個(gè)體進(jìn)行過濾

    • --indv, --remove-indv保留或刪除指定樣本
    • --keep FILE,--remove 保留/刪除多個(gè)體的文件
    • --max-indv INT隨機(jī)保留INT數(shù)目的樣本栅炒。
  9. 基因型過濾

    • --remove-filtered-geno-all, --remove-filtered-geno 保留/刪除 FILTER FLAG的位點(diǎn)。
    • --minGQ 刪除GQ值低于數(shù)值的位點(diǎn)
    • --minDP,--maxDP保留覆蓋率min~max范圍內(nèi)的位點(diǎn)说莫。

計(jì)算統(tǒng)計(jì)參數(shù)

  1. 輸出變異位點(diǎn)的計(jì)算統(tǒng)計(jì)
    • --freq, --freq2輸出每個(gè)等位基因位點(diǎn)的頻率杨箭。
    • --counts,位點(diǎn)數(shù)目的統(tǒng)計(jì)
  2. 位點(diǎn)覆蓋深度Depth統(tǒng)計(jì)
    • depth輸出每個(gè)個(gè)體的平均覆蓋度,以idepth文件展示
    • --site-depth,--site-mean-depth每個(gè)位點(diǎn)的所有個(gè)體深度
    • --geno-depth每個(gè)基因型的覆蓋深度文件
  3. LD計(jì)算(Linkage Disequilibrium)
    • --hap-r2同時(shí)輸出r^2值, D值和D’值储狭。傳統(tǒng)LD值計(jì)算方法互婿,輸出hap.ld
    • --geno-r2,方法同PLINK軟件辽狈,計(jì)算squared correlation coefficient慈参,輸出geno.ld
    • --geno-chisq,
    • --hap-r2-positions FILE, --geno-r2-positions FILE和已有文件中的點(diǎn)做LD計(jì)算
    • --ld-window INT LD計(jì)算的最大SNP數(shù)目,即LD-window刮萌。 --ld-window-min最小數(shù)目
    • --ld-window-bp INT LD計(jì)算窗口的實(shí)際物理距離驮配。--ld-window-bp-min
    • --min-r2小于r2相關(guān)系數(shù)值將不被展示
    • --interchrom-hap-r2, --interchrom-geno-r2跨染色體的r2值計(jì)算。
  4. Ts/Tv計(jì)算(transition/transversion )
    • TsTv INT 計(jì)算INT值內(nèi)的TsTv值着茸,輸出TsTv文件
    • TsTv-summaryTsTv值計(jì)算統(tǒng)計(jì)壮锻。
    • --TsTv-by-count, --TsTv-by-qual 計(jì)算tstv率。
    • --FILTER-summary添加到T值到FILTER列中
  5. 核酸多樣性統(tǒng)計(jì)
    • --site-pi計(jì)算所有位點(diǎn)的多樣性值
    • --window-pi, --window-pi-step計(jì)算窗口中的核酸多樣性值
  6. FST計(jì)算
    • --weir-fst-pop FILE:file must contain a list of individuals (one individual per line) from the VCF file that correspond to one population元扔,可多次躯保,生成weir.fst文件
    • --fst-window-size, --fst-window-step FSTc滑動(dòng)窗口計(jì)算,重測(cè)序一般2kb-10kb
  7. 其它計(jì)算
    • --het Calculates a measure of heterozygosity on a per-individual basis.
    • --hardy 每個(gè)位點(diǎn)的哈溫平衡計(jì)算的Pvalue澎语。
    • --TajimaD INT Tajima’s D 計(jì)算
    • --indv-freq-burden:calculates the number of variants within each individual of a specific frequency.
    • --LROH Long Runs of Homozygosity
    • --relatedness, --relatedness2 計(jì)算relatedness statistic
    • --site-quality提取VCF文件中每個(gè)位點(diǎn)的QUAL信息
    • --missing-indv計(jì)算每個(gè)樣本的缺失率途事,輸出imiss
    • --missing-site計(jì)算每個(gè)位點(diǎn)的缺失率验懊。
    • --SNPdensity INT 一定窗口內(nèi)的SNP數(shù)目和頻率
    • --kept-sites,--remove-sites 通過過濾的位點(diǎn)到另一文件kept.sites文件,removed.sites中
    • --singletons detailing the location of singletons
    • --hapcount BED output the number of unique haplotypes within user specified bins.
    • --mendel PED report mendel errors identified in trios.
    • --extract-FORMAT-info <STRING> 提取format列中的指定TAG
    • --get-INFO <string> 提取INFO列中信息

輸出格式轉(zhuǎn)換

  1. 輸出參數(shù)
    • --recode輸出.recode.vcf新文件
    • --recode-INFO-all保留所有的INFO信息
  2. 格式轉(zhuǎn)換
    • --012 012矩陣文件
    • --IMPUTE impute文件
    • --ldhat-geno --ldhat LDhat格式。
    • --BEAGLE-GL, --BEAGLE-PL
    • --plink, --plink-tped, --chrom-mapPLINK格式

兩個(gè)VCF文件的比較操作

  1. 另外一個(gè)VCF文件的輸入
    • --diff,--gzdiff,--diff-bcf FILE
    • --not-chr不同的chr跳過
  2. 比較參數(shù)
    • --diff-site Outputs the sites that are common / unique to each file
    • --diff-indv 不同的個(gè)體樣本
    • --diff-site-discordance, --diff-indv-discordancecalculates discordance on a site by site basis.
    • --diff-indv-map <filename> 指定ID文件進(jìn)行比較
    • --diff-discordance-matrix calculates a discordance matrix
    • --diff-switch-error calculates phasing errors
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末尸变,一起剝皮案震驚了整個(gè)濱河市义图,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌召烂,老刑警劉巖碱工,帶你破解...
    沈念sama閱讀 206,968評(píng)論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異奏夫,居然都是意外死亡怕篷,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,601評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門酗昼,熙熙樓的掌柜王于貴愁眉苦臉地迎上來廊谓,“玉大人,你說我怎么就攤上這事麻削≌舯裕” “怎么了?”我有些...
    開封第一講書人閱讀 153,220評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵呛哟,是天一觀的道長(zhǎng)叠荠。 經(jīng)常有香客問我,道長(zhǎng)扫责,這世上最難降的妖魔是什么榛鼎? 我笑而不...
    開封第一講書人閱讀 55,416評(píng)論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮公给,結(jié)果婚禮上借帘,老公的妹妹穿的比我還像新娘蜘渣。我一直安慰自己淌铐,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,425評(píng)論 5 374
  • 文/花漫 我一把揭開白布蔫缸。 她就那樣靜靜地躺著腿准,像睡著了一般。 火紅的嫁衣襯著肌膚如雪拾碌。 梳的紋絲不亂的頭發(fā)上吐葱,一...
    開封第一講書人閱讀 49,144評(píng)論 1 285
  • 那天,我揣著相機(jī)與錄音校翔,去河邊找鬼弟跑。 笑死,一個(gè)胖子當(dāng)著我的面吹牛防症,可吹牛的內(nèi)容都是我干的孟辑。 我是一名探鬼主播哎甲,決...
    沈念sama閱讀 38,432評(píng)論 3 401
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼饲嗽!你這毒婦竟也來了炭玫?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,088評(píng)論 0 261
  • 序言:老撾萬榮一對(duì)情侶失蹤貌虾,失蹤者是張志新(化名)和其女友劉穎吞加,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體尽狠,經(jīng)...
    沈念sama閱讀 43,586評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡衔憨,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,028評(píng)論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了袄膏。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片巫财。...
    茶點(diǎn)故事閱讀 38,137評(píng)論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖哩陕,靈堂內(nèi)的尸體忽然破棺而出平项,到底是詐尸還是另有隱情,我是刑警寧澤悍及,帶...
    沈念sama閱讀 33,783評(píng)論 4 324
  • 正文 年R本政府宣布闽瓢,位于F島的核電站,受9級(jí)特大地震影響心赶,放射性物質(zhì)發(fā)生泄漏扣讼。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,343評(píng)論 3 307
  • 文/蒙蒙 一缨叫、第九天 我趴在偏房一處隱蔽的房頂上張望椭符。 院中可真熱鬧,春花似錦耻姥、人聲如沸销钝。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,333評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽蒸健。三九已至,卻和暖如春婉商,著一層夾襖步出監(jiān)牢的瞬間似忧,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,559評(píng)論 1 262
  • 我被黑心中介騙來泰國(guó)打工丈秩, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留盯捌,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,595評(píng)論 2 355
  • 正文 我出身青樓蘑秽,卻偏偏與公主長(zhǎng)得像饺著,于是被迫代替她去往敵國(guó)和親滤祖。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,901評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容