plink學習筆記

官方文檔學習更詳細噪窘,輕用力戳此處

1. 基本格式

1.1 ped, map (二者為一組)

  • pep格式包括基因型信息,如下所示
A01     A01     0       0       0       0       G       G       T       T
A02     A02     0       0       0       0       T       G        G       T

前六列固定
第一列 Family ID
第二列 Individual ID
第三列 Paternal ID
第四列 Maternal ID
第五列 Sex (1=male; 2=female; other=unknown)
第六列 Phenotype
再往后询张,就是基因型數(shù)據(jù)谱轨,每兩列為一個樣本基因型戒幔,比如第一個樣本基因型為GG,第二個為TT

  • map 格式包括基因型信息,如下所示
0       Chr00:49209     0       49209
0       Chr00:49287     0       49287

表示SNP的信息
第一列代表染色體
第二列代表snp的名稱
第三列代表摩爾距離土童,一般用不上
第四列代表物理距離诗茎,這個有用的

1.2 bed fam bin 為一組

  • 首先明確bed是一個二進制的文件,與fam娜扇,bin文件互相對應错沃。基因型用0,1表示雀瓢,具體如下
00 ref 純合
11 alt 純合
01 缺失
10 雜合
  • bim文件
0       Chr00:49209     0       49209  C  T
0       Chr00:49287     0       49287  G  T

該文件是在map的結(jié)果上在添加兩列SNP位點

  • fam
A01 A01 0 0 0 -9
A02 A02 0 0 0 -9

第一列 Family ID
第二列 Individual ID
第三列 Paternal ID (0表示無)
第四列 Maternal ID((0表示無))
第五列 Sex (1=male; 2=female; 0=unknown)
第六列 Phenotype(0/-9 表示無)

1.3 ped 和bed互相轉(zhuǎn)化

  • ped 轉(zhuǎn)bed
plink --allow-extra-chr --noweb -file test--make-bed --out test1
# -file: 輸入為ped
# --noweb 不顯示網(wǎng)頁
  • bed 轉(zhuǎn)ped/vcf
plink --bfile test1 --recode --out test
#--bfile: 輸入為bed
#--recode 輸出格式ped(默認bed)如果轉(zhuǎn)vcf枢析,則輸入vcf即可

2. 可接受的格式

除了上面提到的bed,ped格式以外刃麸,我們比較常用的就是vcf,or bcf格式

  • vcf 格式轉(zhuǎn)為ped格式
plink --vcf SNP.vcf.gz--recode --out test--const-fid --allow-extra-chr

# --vcf, 壓縮或者不壓縮都可以接受

\color{red}{--allow-extr-chr} :因為plink本身是針對人類進行開發(fā)的醒叁,所以遇到格式不對的染色體會不識別,加上該參數(shù)即可泊业,變?yōu)?
\color{red}{--id-delim}: 讀取vcf文件時把沼,plink 默認為下劃線分隔vcf名稱,前面為family吁伺,后面為samples
\color{red}{--double-id}:將familyID和sampleID命名為相同
\color{red}{--const-fid}:將familyID命名為0饮睬,samples-9

\color{red}{注意}, 將vcf變?yōu)閜ed時,map文件的SNP編號那列沒有值篮奄,可以自行編號添加即可

3. 數(shù)據(jù)過濾

plink同樣可以進行數(shù)據(jù)過濾捆愁,可根據(jù)maf割去,缺失率,ld昼丑,哈德溫伯格平衡等

plink --bfile Test --mind 0.1 \
  --maf 0.05 --geno 0.1 --hwe 0.01 \
  --make-bed --out clean

## bfile: bed的前綴

主要的參數(shù)如下
--mind 過濾掉缺失率為10%的\color{red}{樣本}
--geno 過濾掉缺失率為10%的\color{red}{SNP}
--maf 過濾掉maf低于0.05的\color{red}{SNP}
--hwe 基于A和a不符合哈德溫伯格平衡

  • LD的過濾
plink --bfile Test --indep-pairwise 50 5 0.5

結(jié)果得到兩個文件呻逆,一個是plink.prune.in,一個是plink.prune.out菩帝,
就是標記名稱

下一步從原來的bed文件中調(diào)取該位點

plink --bfile Test --extract plink.prune.in --make-bed --out pruneddata
  • 缺失率查看
plink --vcf in.vcf.gz --missing --allow-extra-chr
# 輸入vcf或者bed都可以

得到2個文件咖城,plink.imiss,plink.lmiss

plink.imisss是一個樣本缺失率


樣本缺失率

plink.lmiss 是SNP位點缺失率


SNP位點缺失率

奇怪呼奢,我的這個SNP為什么是沒有宜雀。。握础。(在*map文件自行添加)

  • 查看MAF頻率
plink --vcf in.vcf.gz --freq --allow-extra-chr

得到一個plink.frq 文件


MAF頻率

最后一列為:Non-missing allele count

4. 提戎萏弧(刪除)樣本(SNP位點)

  • 刪除(提取)樣本
plink --bfile Test --keep samples --make-bed --out test

# --keep 保留樣本
# --remove 刪除該樣本
# --recode 01 t ranspose. 輸出pep文件以及轉(zhuǎn)制后的tped文件弓候,基因型用01表示
# ---output-missing-genotype 9 缺失值用9表示
#  --set-missing-var-ids @:# 輸出ID郎哭,染色體:坐標

其中samples 的格式為兩列
第一列:familey
第二列:sampels
與pep文件的前兩列保持一致即可

  • 刪除(提取)SNP位點
plink --bfile Test --extract SNP_ID --make-bed --out test

# --extract 提取SNP位點
# --exclude 刪除該點

其中SNP_ID 為一列菇存,即SNP ID夸研,與map第二列一樣

5、計算樣本雜合度

plink --bfile ../final/chr1 --het --out chr1
最后編輯于
?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末依鸥,一起剝皮案震驚了整個濱河市亥至,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌贱迟,老刑警劉巖姐扮,帶你破解...
    沈念sama閱讀 219,427評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異衣吠,居然都是意外死亡茶敏,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,551評論 3 395
  • 文/潘曉璐 我一進店門缚俏,熙熙樓的掌柜王于貴愁眉苦臉地迎上來惊搏,“玉大人,你說我怎么就攤上這事忧换√窆撸” “怎么了?”我有些...
    開封第一講書人閱讀 165,747評論 0 356
  • 文/不壞的土叔 我叫張陵亚茬,是天一觀的道長酪耳。 經(jīng)常有香客問我,道長刹缝,這世上最難降的妖魔是什么碗暗? 我笑而不...
    開封第一講書人閱讀 58,939評論 1 295
  • 正文 為了忘掉前任奖蔓,我火速辦了婚禮,結(jié)果婚禮上讹堤,老公的妹妹穿的比我還像新娘。我一直安慰自己厨疙,他們只是感情好洲守,可當我...
    茶點故事閱讀 67,955評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著沾凄,像睡著了一般梗醇。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上撒蟀,一...
    開封第一講書人閱讀 51,737評論 1 305
  • 那天叙谨,我揣著相機與錄音,去河邊找鬼保屯。 笑死手负,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的姑尺。 我是一名探鬼主播竟终,決...
    沈念sama閱讀 40,448評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼切蟋!你這毒婦竟也來了统捶?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,352評論 0 276
  • 序言:老撾萬榮一對情侶失蹤柄粹,失蹤者是張志新(化名)和其女友劉穎喘鸟,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體驻右,經(jīng)...
    沈念sama閱讀 45,834評論 1 317
  • 正文 獨居荒郊野嶺守林人離奇死亡什黑,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,992評論 3 338
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了堪夭。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片兑凿。...
    茶點故事閱讀 40,133評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖茵瘾,靈堂內(nèi)的尸體忽然破棺而出礼华,到底是詐尸還是另有隱情,我是刑警寧澤拗秘,帶...
    沈念sama閱讀 35,815評論 5 346
  • 正文 年R本政府宣布圣絮,位于F島的核電站,受9級特大地震影響雕旨,放射性物質(zhì)發(fā)生泄漏扮匠。R本人自食惡果不足惜捧请,卻給世界環(huán)境...
    茶點故事閱讀 41,477評論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望棒搜。 院中可真熱鬧疹蛉,春花似錦、人聲如沸力麸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,022評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽克蚂。三九已至闺鲸,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間埃叭,已是汗流浹背摸恍。 一陣腳步聲響...
    開封第一講書人閱讀 33,147評論 1 272
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留赤屋,地道東北人立镶。 一個月前我還...
    沈念sama閱讀 48,398評論 3 373
  • 正文 我出身青樓,卻偏偏與公主長得像类早,于是被迫代替她去往敵國和親谜慌。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 45,077評論 2 355

推薦閱讀更多精彩內(nèi)容