前言
將vcf轉(zhuǎn)化為plink格式時(shí)囊颅,命令如下:
plink --vcf snp.vcf --recode --allow-extra-chr --out test
出現(xiàn)錯(cuò)誤:
Error: Multiple instances of '_' in sample ID.
If you do not want '_' to be treated as a FID/IID delimiter, use --double-id or
--const-fid to choose a different method of converting VCF sample IDs to PLINK
IDs, or --id-delim to change the FID/IID delimiter.
原因
報(bào)錯(cuò)信息中已有提示当悔。
plink默認(rèn)使用下劃線對(duì)樣本名進(jìn)行分隔傅瞻,分隔的兩個(gè)字段分別作為ped文件中的family id和sample id, 如果vcf中的樣本名含有多個(gè)下劃線,無(wú)法正確進(jìn)行劃分盲憎,軟件會(huì)報(bào)錯(cuò)嗅骄。
解決方法
方法一:修改樣本名
假設(shè)你的vcf文件樣本名在第7行:
sed -i '7s/_/-/g' snp.vcf
方法二:修改--id-delim
--id-delim參數(shù)設(shè)定默認(rèn)分隔符是下劃線,可以設(shè)置成其他字符焙畔,以達(dá)到正確區(qū)分的目的掸读。
方法三:加入--double_id或--const-fid參數(shù)
通過(guò)加入?yún)?shù)指定family_id的設(shè)定方式,有兩種參數(shù)宏多。
第一種--double_id, 將family id和sample id保持相同儿惫。對(duì)于植物基因組分析而言,常忽略父母本伸但,加入這個(gè)參數(shù)即可:
plink --vcf snp.vcf --recode --allow-extra-chr --double_id --out test
第二種--const-fid將family id設(shè)置成一個(gè)常量(默認(rèn)值是0)肾请。
https://cloud.tencent.com/developer/article/1556166
https://www.cog-genomics.org/plink2/input