學(xué)會了基本的plink之后铭乾,就要開始學(xué)習(xí)了解輸入文件的格式了眷蜓。
詳細的格式建議看官網(wǎng)
因為之前以及接觸過幾次暮芭,這里來個詳細的歸總
主要認識 ped map bed fam bim 這五種格式
其中 :
ped 和 map 是一組的
bed fam bim 是一組的
ped
1.ped 包含樣本的譜系信息和基因型信息
2.ped 必須與fam 文件一起,前6個字段與fam文件對應(yīng)
3.使用recode 產(chǎn)生ped文件
舉個例子
每一行是一個個體该互,前六列是固定的米者,從第七列開始后面就是每個snp位點的基因型情況,第七列第八列就是第一個snp位點宇智,第九列第十列就是第二個snp位點蔓搞,依次類推。随橘。喂分。 其中 0 代表 no calling, 從圖中可以看出 第一個個體第一個snp 就是 00 第二個個體第二個snp 就是 AG 。
我們再回過頭來看前六列:
第一列 Family ID
第二列 Individual ID
第三列 Paternal ID
第四列 Maternal ID
第五列 Sex (1=male; 2=female; other=unknown)
第六列 Phenotype
這里要主要的是机蔗,對于表型
map
1.map文件和ped文件是一起的蒲祈,表示每個SNP的信息
2.總共有4列
第一列代表染色體
第二列代表snp的名稱
第三列代表摩爾距離,一般用不上
第四列代表物理距離萝嘁,這個有用的
第二組開始
bed
1.首先這里強調(diào)的是bed文件與UCSC Genome Browser's BED format 是完全不一樣的梆掸。
2.bed 文件與bim fam 文件一起的
3.bed文件是一個二進制文件,所以你是看不來的
采用二進制的方式保存文件牙言,代表的數(shù)據(jù)意義和其他兩個文件對應(yīng)
bim
1.從這個說明我們可以看出bim文件是對map文件的拓展
2.總共有六行酸钦,包含了snp(variants)的具體信息、
3.這個文件也是要和bed fam 文件結(jié)合來使用
我們來看個例子:
1.第一列是染色體信息
2.第二列是snp的名字
3.第三列是摩爾距離咱枉,文件中說可以用0卑硫,沒關(guān)系
4.第四列是物理距離
5.第五列是次要等位基因
6.第六列是主要等位基因
這里的信息要和bed文件對應(yīng)起來
fam
1.fam文件記錄了每個樣本家系的信息
2.fam文件也是必須和bed bim文件一起使用
3.主要有6 列
1.第一列是Family ID ('FID')
2.第二列是Within-family ID ('IID'; cannot be '0')
3.第三列是Within-family ID of father ('0' if father isn't in dataset)
4.第四列是Within-family ID of mother ('0' if mother isn't in dataset)
5.第五列是性別 ('1' = male, '2' = female, '0' = unknown)
6.第六列是表型 ('1' = control, '2' = case, '-9'/'0'/non-numeric = missing data if case/control)
看到這里我發(fā)現(xiàn)其實這個和ped文件格式太像了,是代表信息的提取蚕断,這樣的格式更加利于觀察
以上就會5中常用格式的介紹欢伏,中間還有很多的細節(jié),需要去理解亿乳。
這兩組格式的數(shù)據(jù)可以相互轉(zhuǎn)化颜懊,還可以使用--recode(eg. recodeA recodeAD)來進行編碼,這個使用數(shù)據(jù)更加靈活
最簡單的就是入下
ped map 轉(zhuǎn) bed bim fam
plink --file toy --out toy
當(dāng)然有些時候轉(zhuǎn)要加 --make-bed
現(xiàn)在我再倒過來轉(zhuǎn)回去
bed bim fam 轉(zhuǎn) ped map
plink --bfile toy --recode --out toy1
OK了
PS:一定要多看官方的網(wǎng)站