vcftools安裝及基礎(chǔ)用法

vcftools是一種可以對VCF文件和BCF文件進行格式轉(zhuǎn)換及過濾的工具,功能非常強大胡陪,而且運算速度也很快沥寥。

1.下載及安裝

1.1 下載地址

http://vcftools.sourceforge.net/downloads.html

1.2 安裝

進入壓縮包目錄碍舍,進行解壓。

$ tar xvf vcftools_0.1.13.tar.gz
$ cd ~/vcftools_0.1.13/bin

關(guān)于安裝营曼,有一些小伙伴留言遇到了問題乒验,我再詳細寫一下安裝的問題:

$ cd ~/vcftools_0.1.1
$ ./configure
$ make
$ make install

檢查安裝是否成功

$ vcftools
VCFtools (v0.1.13)
? Adam Auton and Anthony Marcketta 2009
Process Variant Call Format files
For a list of options, please go to:
        https://vcftools.github.io/examples.html
Questions, comments, and suggestions should be emailed to:
        vcftools-help@lists.sourceforge.net

但是vcftools安裝確實容易出現(xiàn)各種報錯,所以建議用conda來安裝:

$ conda install -c bioconda vcftools

2. 基礎(chǔ)用法

2.1 vcf文件加ID

add id.pl拷貝至vcftools/bin目錄下
add id.pl是一個老師寫的腳本蒂阱,這里不好直接放上來锻全,所以需要添加id的話,請大家再去查找其他的教程录煤,這里只是我自己做個備份鳄厌。

perl add_id.pl root.hic.vcf root.hic.id.vcf

2.2 分開indel和SNP

只輸出indel
vcftools --vcf  root.hic.id.vcf --keep-only-indels --recode --recode-INFO-all --out root.hic.id.indel
只保留SNP
vcftools --vcf root.hic.id.vcf --remove-indels --recode --recode-INFO-all --out root.hic.id.snp

2.3 vcf文件過濾

vcftools --vcf root.hic.id.vcf --max-missing 0.8 --maf 0.05 --min-alleles 2 --max-alleles 2 --recode --recode-INFO-all --out  root.hic.id.int0.8maf0.05.allele2

max-missing:分型完整度
maf:第二等位基因頻率
min-alleles:最小等位基因個數(shù)
max-alleles:最大等位基因個數(shù)

哈迪溫伯格平衡 hwe filtering(通常在人類中使用)
vcftools --vcf root.hic.id.vcf --remove-indels --max-missing 0.8 --maf 0.05 --min-alleles 2 --max-alleles 2 --hwe 0.01 --recode --recode-INFO-all --out root.hic.id.snp.hwe0.01

2.4 文件格式轉(zhuǎn)換

轉(zhuǎn)換vcf格式為ped map格式
vcftools --vcf root.hic.id.vcf --plink --out root.hic

2.5 vcf文件拆分

準備一個samplelist文件,即需要的樣本的ID

vcftools --vcf hic.sort.ref.vcf --recode --recode-INFO-all --keep samplelist.txt --out root
詳細說明書見官網(wǎng):

http://vcftools.sourceforge.net/

2.6 統(tǒng)計等位基因頻率

第一條染色體上的等位基因頻率妈踊,注意vcf文件中chr的大小寫了嚎。
結(jié)果中第一列是染色體;第二列SNP位置廊营;第三列是這個位置一共出現(xiàn)了幾種堿基歪泳,這里是兩個;第四列是該位置出現(xiàn)的堿基總數(shù)露筒,這里一個樣本貢獻了兩個堿基位點呐伞;后面是該位置出現(xiàn)的堿基對應(yīng)的頻率。

$ vcftools --vcf root.id.vcf --freq --chr Chr1 --out Chr1_analysis
$ head -n 5 Chr1_analysis.frq
CHROM   POS     N_ALLELES       N_CHR   {ALLELE:FREQ}
Chr1    5154    2       286     C:0.713287      T:0.286713
Chr1    5187    2       296     A:0.614865      G:0.385135
Chr1    5220    2       282     A:0.241135      T:0.758865
Chr1    50889   2       294     A:0.870748      G:0.129252
計算整體文件中的等位基因頻率
$ vcftools --vcf root.id.vcf --freq --out allel_analysis
$ tail -n 5 allel_analysis.frq
scaffold995     3028    2       304     G:0.927632      A:0.0723684
scaffold995     3082    2       304     G:0.842105      A:0.157895
scaffold995     3168    2       298     T:0.946309      C:0.0536913
scaffold995     3185    2       292     C:0.89726       T:0.10274
scaffold995     3228    2       302     A:0.407285      C:0.592715

2.7 比較兩個vcf文件的變異位點

結(jié)果文件中的第一列是染色體慎式;第二列和第三列是文件1和文件2中SNP位置伶氢;第四列中B表示兩個文件中都有這個堿基,如果是1則表示只有文件1中有這個堿基瘪吏,如果是2同理癣防。

$ vcftools --vcf root.id.vcf --diff fei.id.vcf --diff-site --out in1_v_in2
$ head -n 5 in1_v_in2.diff.sites_in_files
CHROM   POS1    POS2    IN_FILE REF1    REF2    ALT1    ALT2
Chr1    5154    5154    B       C       C       T       T
Chr1    5187    5187    B       A       A       G       G
Chr1    5220    5220    B       A       A       T       T
Chr1    50889   50889   B       A       A       G       G
以上內(nèi)容為個人粗淺的理解,歡迎討論掌眠,如有錯誤蕾盯,也敬請指出。引用請注明出處蓝丙。
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末刑枝,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子迅腔,更是在濱河造成了極大的恐慌装畅,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,324評論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件沧烈,死亡現(xiàn)場離奇詭異掠兄,居然都是意外死亡,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,356評論 3 392
  • 文/潘曉璐 我一進店門蚂夕,熙熙樓的掌柜王于貴愁眉苦臉地迎上來迅诬,“玉大人,你說我怎么就攤上這事婿牍〕薮” “怎么了?”我有些...
    開封第一講書人閱讀 162,328評論 0 353
  • 文/不壞的土叔 我叫張陵等脂,是天一觀的道長俏蛮。 經(jīng)常有香客問我,道長上遥,這世上最難降的妖魔是什么搏屑? 我笑而不...
    開封第一講書人閱讀 58,147評論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮粉楚,結(jié)果婚禮上辣恋,老公的妹妹穿的比我還像新娘。我一直安慰自己模软,他們只是感情好伟骨,可當我...
    茶點故事閱讀 67,160評論 6 388
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著燃异,像睡著了一般底靠。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上特铝,一...
    開封第一講書人閱讀 51,115評論 1 296
  • 那天,我揣著相機與錄音壹瘟,去河邊找鬼鲫剿。 笑死,一個胖子當著我的面吹牛稻轨,可吹牛的內(nèi)容都是我干的灵莲。 我是一名探鬼主播,決...
    沈念sama閱讀 40,025評論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼殴俱,長吁一口氣:“原來是場噩夢啊……” “哼政冻!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起线欲,我...
    開封第一講書人閱讀 38,867評論 0 274
  • 序言:老撾萬榮一對情侶失蹤明场,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后李丰,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體苦锨,經(jīng)...
    沈念sama閱讀 45,307評論 1 310
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,528評論 2 332
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了舟舒。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片拉庶。...
    茶點故事閱讀 39,688評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖秃励,靈堂內(nèi)的尸體忽然破棺而出氏仗,到底是詐尸還是另有隱情,我是刑警寧澤夺鲜,帶...
    沈念sama閱讀 35,409評論 5 343
  • 正文 年R本政府宣布皆尔,位于F島的核電站,受9級特大地震影響谣旁,放射性物質(zhì)發(fā)生泄漏床佳。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,001評論 3 325
  • 文/蒙蒙 一榄审、第九天 我趴在偏房一處隱蔽的房頂上張望砌们。 院中可真熱鬧,春花似錦搁进、人聲如沸浪感。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,657評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽影兽。三九已至,卻和暖如春莱革,著一層夾襖步出監(jiān)牢的瞬間峻堰,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,811評論 1 268
  • 我被黑心中介騙來泰國打工盅视, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留捐名,地道東北人。 一個月前我還...
    沈念sama閱讀 47,685評論 2 368
  • 正文 我出身青樓闹击,卻偏偏與公主長得像镶蹋,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子赏半,可洞房花燭夜當晚...
    茶點故事閱讀 44,573評論 2 353

推薦閱讀更多精彩內(nèi)容

  • 寫在前面:當學(xué)習(xí)某一重要文件格式時贺归,更需要對此格式對應(yīng)軟件工具進行全面的學(xué)習(xí)(如sam/bam——samtools...
    Dawn_WangTP閱讀 8,506評論 0 33
  • 1 簡介 BCFtools 是一款多種實用工具的集合,它可以用于處理VCF文件和二進制的BCF文件断箫。它可以接受VC...
    生信小書童閱讀 88,862評論 12 78
  • 結(jié)果文件的解讀 輸出文件1:*.variant_function 第一個文件包含所有變異的注釋拂酣,方法是在每個輸入行...
    生信師姐閱讀 18,617評論 2 41
  • 按照前人的教程,跑了跑GWAS流程仲义,作為初學(xué)者踱葛,歡迎大家提問丹莲,指教。 數(shù)據(jù)來源:A new regulator o...
    1yon閱讀 3,951評論 0 10
  • 16宿命:用概率思維提高你的勝算 以前的我是風(fēng)險厭惡者尸诽,不喜歡去冒險甥材,但是人生放棄了冒險,也就放棄了無數(shù)的可能性含。 ...
    yichen大刀閱讀 6,046評論 0 4