官方文檔學習更詳細噪窘,輕用力戳此處
1. 基本格式
1.1 ped, map (二者為一組)
- pep格式包括基因型信息,如下所示
A01 A01 0 0 0 0 G G T T
A02 A02 0 0 0 0 T G G T
前六列固定
第一列 Family ID
第二列 Individual ID
第三列 Paternal ID
第四列 Maternal ID
第五列 Sex (1=male; 2=female; other=unknown)
第六列 Phenotype
再往后询张,就是基因型數(shù)據(jù)谱轨,每兩列為一個樣本基因型戒幔,比如第一個樣本基因型為GG,第二個為TT
- map 格式包括基因型信息,如下所示
0 Chr00:49209 0 49209
0 Chr00:49287 0 49287
表示SNP的信息
第一列代表染色體
第二列代表snp的名稱
第三列代表摩爾距離土童,一般用不上
第四列代表物理距離诗茎,這個有用的
1.2 bed fam bin 為一組
- 首先明確bed是一個二進制的文件,與fam娜扇,bin文件互相對應错沃。基因型用0,1表示雀瓢,具體如下
00 ref 純合
11 alt 純合
01 缺失
10 雜合
- bim文件
0 Chr00:49209 0 49209 C T
0 Chr00:49287 0 49287 G T
該文件是在map的結(jié)果上在添加兩列SNP位點
- fam
A01 A01 0 0 0 -9
A02 A02 0 0 0 -9
第一列 Family ID
第二列 Individual ID
第三列 Paternal ID (0表示無)
第四列 Maternal ID((0表示無))
第五列 Sex (1=male; 2=female; 0=unknown)
第六列 Phenotype(0/-9 表示無)
1.3 ped 和bed互相轉(zhuǎn)化
- ped 轉(zhuǎn)bed
plink --allow-extra-chr --noweb -file test--make-bed --out test1
# -file: 輸入為ped
# --noweb 不顯示網(wǎng)頁
- bed 轉(zhuǎn)ped/vcf
plink --bfile test1 --recode --out test
#--bfile: 輸入為bed
#--recode 輸出格式ped(默認bed)如果轉(zhuǎn)vcf枢析,則輸入vcf即可
2. 可接受的格式
除了上面提到的bed,ped格式以外刃麸,我們比較常用的就是vcf,or bcf格式
- vcf 格式轉(zhuǎn)為ped格式
plink --vcf SNP.vcf.gz--recode --out test--const-fid --allow-extra-chr
# --vcf, 壓縮或者不壓縮都可以接受
:因為plink本身是針對人類進行開發(fā)的醒叁,所以遇到格式不對的染色體會不識別,加上該參數(shù)即可泊业,變?yōu)?
: 讀取vcf文件時把沼,plink 默認為下劃線分隔vcf名稱,前面為family吁伺,后面為samples
:將familyID和sampleID命名為相同
:將familyID命名為0饮睬,samples-9
, 將vcf變?yōu)閜ed時,map文件的SNP編號那列沒有值篮奄,可以自行編號添加即可
3. 數(shù)據(jù)過濾
plink同樣可以進行數(shù)據(jù)過濾捆愁,可根據(jù)maf割去,缺失率,ld昼丑,哈德溫伯格平衡等
plink --bfile Test --mind 0.1 \
--maf 0.05 --geno 0.1 --hwe 0.01 \
--make-bed --out clean
## bfile: bed的前綴
主要的參數(shù)如下
--mind 過濾掉缺失率為10%的
--geno 過濾掉缺失率為10%的
--maf 過濾掉maf低于0.05的
--hwe 基于A和a不符合哈德溫伯格平衡
- LD的過濾
plink --bfile Test --indep-pairwise 50 5 0.5
結(jié)果得到兩個文件呻逆,一個是plink.prune.in,一個是plink.prune.out菩帝,
就是標記名稱
下一步從原來的bed文件中調(diào)取該位點
plink --bfile Test --extract plink.prune.in --make-bed --out pruneddata
- 缺失率查看
plink --vcf in.vcf.gz --missing --allow-extra-chr
# 輸入vcf或者bed都可以
得到2個文件咖城,plink.imiss,plink.lmiss
plink.imisss是一個樣本缺失率
plink.lmiss 是SNP位點缺失率
奇怪呼奢,我的這個SNP為什么是沒有宜雀。。握础。(在*map文件自行添加)
- 查看MAF頻率
plink --vcf in.vcf.gz --freq --allow-extra-chr
得到一個plink.frq 文件
最后一列為:Non-missing allele count
4. 提戎萏弧(刪除)樣本(SNP位點)
- 刪除(提取)樣本
plink --bfile Test --keep samples --make-bed --out test
# --keep 保留樣本
# --remove 刪除該樣本
# --recode 01 t ranspose. 輸出pep文件以及轉(zhuǎn)制后的tped文件弓候,基因型用01表示
# ---output-missing-genotype 9 缺失值用9表示
# --set-missing-var-ids @:# 輸出ID郎哭,染色體:坐標
其中samples 的格式為兩列
第一列:familey
第二列:sampels
與pep文件的前兩列保持一致即可
- 刪除(提取)SNP位點
plink --bfile Test --extract SNP_ID --make-bed --out test
# --extract 提取SNP位點
# --exclude 刪除該點
其中SNP_ID 為一列菇存,即SNP ID夸研,與map第二列一樣
5、計算樣本雜合度
plink --bfile ../final/chr1 --het --out chr1