introduction
Plink算是生物信息最常用的軟件之一了愧膀,而且很多軟件的輸入也會使用Plink的文件格式。這次我們來一起認識一下Plink中最常用的兩種格式,.ped和.map。
PED文件介紹:
PED文件主要是儲存每個樣本的基因型的,每行代表一個樣本港庄,每列的具體含義如下:
Family ID
Individual ID
Paternal ID
Maternal ID
Sex (1=male; 2=female; other=unknown)
Phenotype
如果是自然群體倔既,那就把family ID和individual ID都填一樣的就行了。父母的ID就填0攘轩,代表缺失叉存。
第6列是Phenotype(表型),每個PED文件第六列必需時表型值度帮,也只能有這一列表型值歼捏。質(zhì)量性狀必須轉(zhuǎn)換為0、1笨篷、2瞳秽。Plink會自己判斷表現(xiàn)類型(based on whether a value other than 0, 1, 2 or the missing genotype code is observed)。有幾個保留值注意一下:
-9 missing
0 unaffected
1 affected
從第7列開始是Phenotype(基因型率翅,A练俐,C,G冕臭,T)腺晾,可以有很多列,一直往后寫辜贵,TAB鍵隔開就好了悯蝉。
最后做出來就是這個樣子了:
FAM001 1 0 0 1 2 A A G G A C
FAM001 2 0 0 1 2 A A A G 0 0
MAP文件介紹
MAP文件主要是用來記錄每個maker(一般為SNP)的位置信息。
每行一個maker托慨,每列的含義如下:
chromosome (1-22, X, Y or 0 if unplaced)
rs# or snp identifier
Genetic distance (morgans)
Base-pair position (bp units)
第一列自不用說鼻由,第二列是SNP的名字,起個便于管理的名字就好厚棵。第三列是摩爾根距離蕉世,不知道的話寫0就行了。第四列是在染色體上的坐標位置婆硬。
結(jié)語
關(guān)于這些文件還有很多細節(jié)和特殊情況的處理沒有講狠轻,后面有時間了再補充吧,著急用的話就點祥見這里彬犯,超鏈接到了plink官網(wǎng)的對于說明上了向楼。