生信小工具:Plink之下載安裝與其基本格式(1)

談起Plink相信熟悉的人更定都會知道痰驱,這是一個全面的基因組分析工具集亡蓉,具有很多的小功能晕翠,在SNP數(shù)據(jù)統(tǒng)計,過濾砍濒,GWAS分析中都可以用得上淋肾,而且速度非常的快,堪稱是生物信息分析軟件中神器之一爸邢。但是在網(wǎng)上逛了一圈發(fā)現(xiàn)巫员,好像關(guān)于該工具的比較系統(tǒng)的中文教程暫時還找不到。那沒辦法了甲棍,只能自己來總結(jié)了简识。首先修档,咱們從簡單入手先談?wù)勂湎螺d安裝和對應(yīng)的基本格式斯棒。

Plink介紹

PLINK是一個免費的開源全基因組關(guān)聯(lián)分析工具集铣卡,旨在以計算有效的方式執(zhí)行一系列基本的大規(guī)模分析铺厨,由Shaun Purcell在馬薩諸塞州綜合醫(yī)院(MGH)的人類基因研究中心(CHGR)和哈佛大學(xué)和麻省理工學(xué)院的Broad研究所共同開發(fā)的。它最初是為人類數(shù)據(jù)颈走,但新的PLINK 1.9以上的版本也可用于非模式生物的基因組數(shù)據(jù)膳灶。

其功能非常強大,簡單列舉一下相對應(yīng)的功能:

  1. 數(shù)據(jù)管理: SNP數(shù)據(jù)格式的轉(zhuǎn)換立由,合并兩個或多個文件轧钓,提取SNP子集,以二進制文件格式壓縮數(shù)據(jù)等锐膜。
  2. 質(zhì)量控制的SNP數(shù)據(jù)統(tǒng)計: 計算丟失基因型率毕箍,等位基因,基因型頻率道盏,HWE測試而柑,個體和個體對的近親繁殖,IBS和IBD統(tǒng)計荷逞,LD區(qū)域計算等媒咳。
  3. GWAS關(guān)聯(lián)分析
  4. Meta分析

Plink下載與安裝

PLink最新版是2.0,由于我個人覺得1.9比較穩(wěn)定好用种远,下面教程分析都是基于1.9版本的涩澡。

Plink的下載安裝非常方便,由于已經(jīng)編碼的版本是可以直接下載的坠敷,所以只要找到相應(yīng)的系統(tǒng)的版本就可以進行下載了筏养,下載鏈接地址為:http://www.cog-genomics.org/plink2/

Linux 64-bit下載地址:

http://s3.amazonaws.com/plink1-assets/plink_linux_x86_64_20190617.zip

蘋果OS X 系統(tǒng)下載地址:

http://s3.amazonaws.com/plink1-assets/plink_mac_20190617.zip

Windows 64-bit 系統(tǒng)下載地址:

http://s3.amazonaws.com/plink1-assets/plink_win64_20190617.zip

下載完解壓就能直接使用了:

Plink輸入格式介紹

Plink常見格式包括:ped,map常拓,bed,fam辉浦,bim
PLINK接受VCF文件作為輸入弄抬,但在PLINK中使用的首選格式是帶有結(jié)尾.ped(和.map)的文件,以及帶有結(jié)尾.bed(+ .bim + .fam)的較小二進制PLINK文件宪郊。這樣處理起來速度會更加快掂恕。一般我們call完SNP給出的文件都是vcf文件,這里需要使用vcftool或者Plink先進行格式的轉(zhuǎn)換:

使用vcftools來轉(zhuǎn)換:

#vcf轉(zhuǎn)ped和map
vcftools --vcf my.vcf --plink --out plink

使用plink來轉(zhuǎn)換:

# vcf轉(zhuǎn)ped和map
plink --vcf file.vcf --recode --out file

ped格式文件

ped文件包含每列有一個等位基因的變體信息(意味著一個變體的兩個等位基因需要2列)弛槐。

看看其中一個例子:

less -S data.noIND04.miss0.5.noMT.thin10.ped 

IND01 IND01 0 0 0 0 CC 0 0 
IND02 IND02 0 0 0 0 0 0 0 0 
IND03 IND03 0 0 0 0 0 0 AG 
IND05 IND05 0 0 0 0 CCAA 
AFR01 AFR01 0 0 0 0 CTAG 
AFR02 AFR02 0 0 0 0 CCAG 
AFR03 AFR03 0 0 0 0 0 0 AG 
AFR04 AFR04 0 0 0 0 0 0 0 
AFR05 AFR05 0 0 0 0 CCAG ...

每個樣本有一行懊亡,前六列為:

  1. 第一列: Family ID表示家族,同一個家族用同一個family ID表示
  2. 第二列: Individual ID用來表示個體乎串,family ID和Individual ID連起來唯一表示一個樣本店枣。
  3. 第三列: Paternal ID表示父本ID(如果缺少該信息則為'0')
  4. 第四列: Maternal ID表示父本ID(如果缺少該信息則為'0')
  5. 第五列: 性別代碼('1'=男性,'2'=女性,'0'=未知)
  6. 第六列: Phenotype(表型)鸯两,Plink會自己判斷表型的類型闷旧,如果缺少該表型數(shù)據(jù),可以使用-9/0/非數(shù)字來表示钧唐。
  7. 第七列第八列: 分別為第一個變體忙灼,第二個變體等的等位基因。缺失的數(shù)據(jù)被編碼為0(或-9)钝侠。
    對于上面的例子该园,由于都沒有關(guān)于父本,母本帅韧,性別或表型的信息里初,因此這些列都設(shè)置為缺失數(shù)據(jù)(0或-9)。

map格式文件

map格式文件包含變體位置弱匪,用來記錄每個maker(一般為SNP)的位置信息青瀑。每行一個maker。它有4列:

less data.noIND04.miss0.5.noMT.thin10.map 

scf7180003948298 scf7180003948298:263 0 263 
scf7180003948298 scf7180003948298:313 0 313 
scf7180003948298 scf7180003948298:1268 0 1268 
  1. 第一列: 染色體名稱
  2. 第二列: SNP的表示符/ID
  3. 第三列:基因摩爾根距離萧诫,不知道就寫0
  4. 第四列:marker在染色體上的坐標(biāo)位置

常染色體應(yīng)編碼為1至22斥难。以下其他染色體用于指定其他染色體類型。右邊的數(shù)字代表PLINK對這些染色體的內(nèi)部數(shù)字編碼:這些將出現(xiàn)在所有輸出而不是原始染色體編碼中帘饶。

bed格式哑诊,fam格式和bim格式文件

map文件可以進一步轉(zhuǎn)換成二進制文件(* .bed)。將家族信息及刻,表型信息存儲在單獨的文件(* .fam)中并創(chuàng)建擴展的MAP文件(* .bim)(其中包含有關(guān)等位基因名稱的信息镀裤,否則將丟失在BED文件中)

文件轉(zhuǎn)化方法:

plink --file mydata --make-bed

bed格式

該格式的文件主要包含了基因型的雙等位基因變異。必須附帶.bim和.fam文件缴饭。用--bfile加載;可以使用--make-bed命令生成暑劝。注意的是該格式和我們平時接觸含有基因組位置的bed格式文件不同。在基因型信息中颗搂,每一行是一個個體担猛,每一列就是一個變異。其中0丢氢、1傅联、2分別對應(yīng)了aa、Aa或aA和AA疚察。不考慮堿基型蒸走,因為我們不關(guān)注ATGC的變化。

fam格式

該格式文件是bed格式文件附屬的基因型的樣本信息文件貌嫡,每一行就是一個樣本比驻。

bim格式

該格式文件是bed格式文件附屬的基因型擴展信息的文件该溯,每一行是一個變異,及其注釋信息嫁艇。

參考資料:

  1. http://www.reibang.com/p/1cb89afe8ac2
  2. https://www.cnblogs.com/leezx/p/9013615.html
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末朗伶,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子步咪,更是在濱河造成了極大的恐慌论皆,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,372評論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件猾漫,死亡現(xiàn)場離奇詭異点晴,居然都是意外死亡,警方通過查閱死者的電腦和手機悯周,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,368評論 3 392
  • 文/潘曉璐 我一進店門粒督,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人禽翼,你說我怎么就攤上這事屠橄。” “怎么了闰挡?”我有些...
    開封第一講書人閱讀 162,415評論 0 353
  • 文/不壞的土叔 我叫張陵锐墙,是天一觀的道長。 經(jīng)常有香客問我长酗,道長溪北,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,157評論 1 292
  • 正文 為了忘掉前任夺脾,我火速辦了婚禮之拨,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘咧叭。我一直安慰自己蚀乔,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 67,171評論 6 388
  • 文/花漫 我一把揭開白布菲茬。 她就那樣靜靜地躺著吉挣,像睡著了一般。 火紅的嫁衣襯著肌膚如雪生均。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,125評論 1 297
  • 那天腥刹,我揣著相機與錄音马胧,去河邊找鬼。 笑死衔峰,一個胖子當(dāng)著我的面吹牛佩脊,可吹牛的內(nèi)容都是我干的蛙粘。 我是一名探鬼主播,決...
    沈念sama閱讀 40,028評論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼威彰,長吁一口氣:“原來是場噩夢啊……” “哼出牧!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起歇盼,我...
    開封第一講書人閱讀 38,887評論 0 274
  • 序言:老撾萬榮一對情侶失蹤舔痕,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后豹缀,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體伯复,經(jīng)...
    沈念sama閱讀 45,310評論 1 310
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,533評論 2 332
  • 正文 我和宋清朗相戀三年邢笙,在試婚紗的時候發(fā)現(xiàn)自己被綠了啸如。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,690評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡氮惯,死狀恐怖叮雳,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情妇汗,我是刑警寧澤帘不,帶...
    沈念sama閱讀 35,411評論 5 343
  • 正文 年R本政府宣布,位于F島的核電站铛纬,受9級特大地震影響厌均,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜告唆,卻給世界環(huán)境...
    茶點故事閱讀 41,004評論 3 325
  • 文/蒙蒙 一棺弊、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧擒悬,春花似錦模她、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,659評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至僧凤,卻和暖如春畜侦,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背躯保。 一陣腳步聲響...
    開封第一講書人閱讀 32,812評論 1 268
  • 我被黑心中介騙來泰國打工旋膳, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人途事。 一個月前我還...
    沈念sama閱讀 47,693評論 2 368
  • 正文 我出身青樓验懊,卻偏偏與公主長得像擅羞,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子义图,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,577評論 2 353

推薦閱讀更多精彩內(nèi)容