談起Plink相信熟悉的人更定都會知道痰驱,這是一個全面的基因組分析工具集亡蓉,具有很多的小功能晕翠,在SNP數(shù)據(jù)統(tǒng)計,過濾砍濒,GWAS分析中都可以用得上淋肾,而且速度非常的快,堪稱是生物信息分析軟件中神器之一爸邢。但是在網(wǎng)上逛了一圈發(fā)現(xiàn)巫员,好像關(guān)于該工具的比較系統(tǒng)的中文教程暫時還找不到。那沒辦法了甲棍,只能自己來總結(jié)了简识。首先修档,咱們從簡單入手先談?wù)勂湎螺d安裝和對應(yīng)的基本格式斯棒。
Plink介紹
PLINK是一個免費的開源全基因組關(guān)聯(lián)分析工具集铣卡,旨在以計算有效的方式執(zhí)行一系列基本的大規(guī)模分析铺厨,由Shaun Purcell在馬薩諸塞州綜合醫(yī)院(MGH)的人類基因研究中心(CHGR)和哈佛大學(xué)和麻省理工學(xué)院的Broad研究所共同開發(fā)的。它最初是為人類數(shù)據(jù)颈走,但新的PLINK 1.9以上的版本也可用于非模式生物的基因組數(shù)據(jù)膳灶。
其功能非常強大,簡單列舉一下相對應(yīng)的功能:
- 數(shù)據(jù)管理: SNP數(shù)據(jù)格式的轉(zhuǎn)換立由,合并兩個或多個文件轧钓,提取SNP子集,以二進制文件格式壓縮數(shù)據(jù)等锐膜。
- 質(zhì)量控制的SNP數(shù)據(jù)統(tǒng)計: 計算丟失基因型率毕箍,等位基因,基因型頻率道盏,HWE測試而柑,個體和個體對的近親繁殖,IBS和IBD統(tǒng)計荷逞,LD區(qū)域計算等媒咳。
- GWAS關(guān)聯(lián)分析
- Meta分析
Plink下載與安裝
PLink最新版是2.0,由于我個人覺得1.9比較穩(wěn)定好用种远,下面教程分析都是基于1.9版本的涩澡。
Plink的下載安裝非常方便,由于已經(jīng)編碼的版本是可以直接下載的坠敷,所以只要找到相應(yīng)的系統(tǒng)的版本就可以進行下載了筏养,下載鏈接地址為:http://www.cog-genomics.org/plink2/
Linux 64-bit下載地址:
http://s3.amazonaws.com/plink1-assets/plink_linux_x86_64_20190617.zip
蘋果OS X 系統(tǒng)下載地址:
http://s3.amazonaws.com/plink1-assets/plink_mac_20190617.zip
Windows 64-bit 系統(tǒng)下載地址:
http://s3.amazonaws.com/plink1-assets/plink_win64_20190617.zip
下載完解壓就能直接使用了:
Plink輸入格式介紹
Plink常見格式包括:ped,map常拓,bed,fam辉浦,bim
PLINK接受VCF文件作為輸入弄抬,但在PLINK中使用的首選格式是帶有結(jié)尾.ped(和.map)的文件,以及帶有結(jié)尾.bed(+ .bim + .fam)的較小二進制PLINK文件宪郊。這樣處理起來速度會更加快掂恕。一般我們call完SNP給出的文件都是vcf文件,這里需要使用vcftool或者Plink先進行格式的轉(zhuǎn)換:
使用vcftools來轉(zhuǎn)換:
#vcf轉(zhuǎn)ped和map
vcftools --vcf my.vcf --plink --out plink
使用plink來轉(zhuǎn)換:
# vcf轉(zhuǎn)ped和map
plink --vcf file.vcf --recode --out file
ped格式文件
ped文件包含每列有一個等位基因的變體信息(意味著一個變體的兩個等位基因需要2列)弛槐。
看看其中一個例子:
less -S data.noIND04.miss0.5.noMT.thin10.ped
IND01 IND01 0 0 0 0 CC 0 0
IND02 IND02 0 0 0 0 0 0 0 0
IND03 IND03 0 0 0 0 0 0 AG
IND05 IND05 0 0 0 0 CCAA
AFR01 AFR01 0 0 0 0 CTAG
AFR02 AFR02 0 0 0 0 CCAG
AFR03 AFR03 0 0 0 0 0 0 AG
AFR04 AFR04 0 0 0 0 0 0 0
AFR05 AFR05 0 0 0 0 CCAG ...
每個樣本有一行懊亡,前六列為:
- 第一列: Family ID表示家族,同一個家族用同一個family ID表示
- 第二列: Individual ID用來表示個體乎串,family ID和Individual ID連起來唯一表示一個樣本店枣。
- 第三列: Paternal ID表示父本ID(如果缺少該信息則為'0')
- 第四列: Maternal ID表示父本ID(如果缺少該信息則為'0')
- 第五列: 性別代碼('1'=男性,'2'=女性,'0'=未知)
- 第六列: Phenotype(表型)鸯两,Plink會自己判斷表型的類型闷旧,如果缺少該表型數(shù)據(jù),可以使用-9/0/非數(shù)字來表示钧唐。
-
第七列第八列: 分別為第一個變體忙灼,第二個變體等的等位基因。缺失的數(shù)據(jù)被編碼為0(或-9)钝侠。
對于上面的例子该园,由于都沒有關(guān)于父本,母本帅韧,性別或表型的信息里初,因此這些列都設(shè)置為缺失數(shù)據(jù)(0或-9)。
map格式文件
map格式文件包含變體位置弱匪,用來記錄每個maker(一般為SNP)的位置信息青瀑。每行一個maker。它有4列:
less data.noIND04.miss0.5.noMT.thin10.map
scf7180003948298 scf7180003948298:263 0 263
scf7180003948298 scf7180003948298:313 0 313
scf7180003948298 scf7180003948298:1268 0 1268
- 第一列: 染色體名稱
- 第二列: SNP的表示符/ID
- 第三列:基因摩爾根距離萧诫,不知道就寫0
- 第四列:marker在染色體上的坐標(biāo)位置
常染色體應(yīng)編碼為1至22斥难。以下其他染色體用于指定其他染色體類型。右邊的數(shù)字代表PLINK對這些染色體的內(nèi)部數(shù)字編碼:這些將出現(xiàn)在所有輸出而不是原始染色體編碼中帘饶。
bed格式哑诊,fam格式和bim格式文件
map文件可以進一步轉(zhuǎn)換成二進制文件(* .bed)。將家族信息及刻,表型信息存儲在單獨的文件(* .fam)中并創(chuàng)建擴展的MAP文件(* .bim)(其中包含有關(guān)等位基因名稱的信息镀裤,否則將丟失在BED文件中)
文件轉(zhuǎn)化方法:
plink --file mydata --make-bed
bed格式
該格式的文件主要包含了基因型的雙等位基因變異。必須附帶.bim和.fam文件缴饭。用--bfile加載;可以使用--make-bed
命令生成暑劝。注意的是該格式和我們平時接觸含有基因組位置的bed格式文件不同。在基因型信息中颗搂,每一行是一個個體担猛,每一列就是一個變異。其中0丢氢、1傅联、2分別對應(yīng)了aa、Aa或aA和AA疚察。不考慮堿基型蒸走,因為我們不關(guān)注ATGC的變化。
fam格式
該格式文件是bed格式文件附屬的基因型的樣本信息文件貌嫡,每一行就是一個樣本比驻。
bim格式
該格式文件是bed格式文件附屬的基因型擴展信息的文件该溯,每一行是一個變異,及其注釋信息嫁艇。
參考資料: