2018-10-31 GWAS實戰(zhàn)(三)plink 進階之認識常用文件格式

學(xué)會了基本的plink之后铭乾,就要開始學(xué)習(xí)了解輸入文件的格式了眷蜓。
詳細的格式建議看官網(wǎng)
因為之前以及接觸過幾次暮芭,這里來個詳細的歸總
主要認識 ped map bed fam bim 這五種格式
其中 :

ped 和 map 是一組的
bed fam bim 是一組的

ped

ped.png

1.ped 包含樣本的譜系信息和基因型信息
2.ped 必須與fam 文件一起,前6個字段與fam文件對應(yīng)
3.使用recode 產(chǎn)生ped文件

ped-eg.png

舉個例子
每一行是一個個體该互,前六列是固定的米者,從第七列開始后面就是每個snp位點的基因型情況,第七列第八列就是第一個snp位點宇智,第九列第十列就是第二個snp位點蔓搞,依次類推。随橘。喂分。 其中 0 代表 no calling, 從圖中可以看出 第一個個體第一個snp 就是 00 第二個個體第二個snp 就是 AG 。
我們再回過頭來看前六列:
第一列 Family ID
第二列 Individual ID
第三列 Paternal ID
第四列 Maternal ID
第五列 Sex (1=male; 2=female; other=unknown)
第六列 Phenotype

這里要主要的是机蔗,對于表型


注意.png

map

map

1.map文件和ped文件是一起的蒲祈,表示每個SNP的信息
2.總共有4列

詳細解釋

舉個例子

第一列代表染色體
第二列代表snp的名稱
第三列代表摩爾距離,一般用不上
第四列代表物理距離萝嘁,這個有用的

第二組開始

bed

bed.png

1.首先這里強調(diào)的是bed文件與UCSC Genome Browser's BED format 是完全不一樣的梆掸。
2.bed 文件與bim fam 文件一起的
3.bed文件是一個二進制文件,所以你是看不來的


一定要和其他兩個文件一起

采用二進制的方式保存文件牙言,代表的數(shù)據(jù)意義和其他兩個文件對應(yīng)

bim

bim

1.從這個說明我們可以看出bim文件是對map文件的拓展
2.總共有六行酸钦,包含了snp(variants)的具體信息、
3.這個文件也是要和bed fam 文件結(jié)合來使用


eg

我們來看個例子:
1.第一列是染色體信息
2.第二列是snp的名字
3.第三列是摩爾距離咱枉,文件中說可以用0卑硫,沒關(guān)系
4.第四列是物理距離
5.第五列是次要等位基因
6.第六列是主要等位基因

這里的信息要和bed文件對應(yīng)起來

fam

fam

1.fam文件記錄了每個樣本家系的信息
2.fam文件也是必須和bed bim文件一起使用
3.主要有6 列

fam-eg

1.第一列是Family ID ('FID')
2.第二列是Within-family ID ('IID'; cannot be '0')
3.第三列是Within-family ID of father ('0' if father isn't in dataset)
4.第四列是Within-family ID of mother ('0' if mother isn't in dataset)
5.第五列是性別 ('1' = male, '2' = female, '0' = unknown)
6.第六列是表型 ('1' = control, '2' = case, '-9'/'0'/non-numeric = missing data if case/control)

看到這里我發(fā)現(xiàn)其實這個和ped文件格式太像了,是代表信息的提取蚕断,這樣的格式更加利于觀察

以上就會5中常用格式的介紹欢伏,中間還有很多的細節(jié),需要去理解亿乳。

這兩組格式的數(shù)據(jù)可以相互轉(zhuǎn)化颜懊,還可以使用--recode(eg. recodeA recodeAD)來進行編碼,這個使用數(shù)據(jù)更加靈活

最簡單的就是入下

ped map 轉(zhuǎn) bed bim fam

plink --file toy --out toy
ped:map轉(zhuǎn)bed:bim:fam

當(dāng)然有些時候轉(zhuǎn)要加 --make-bed

現(xiàn)在我再倒過來轉(zhuǎn)回去

bed bim fam 轉(zhuǎn) ped map

plink --bfile toy --recode --out toy1
反轉(zhuǎn)

OK了

PS:一定要多看官方的網(wǎng)站

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市河爹,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌桐款,老刑警劉巖咸这,帶你破解...
    沈念sama閱讀 206,126評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異魔眨,居然都是意外死亡媳维,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評論 2 382
  • 文/潘曉璐 我一進店門遏暴,熙熙樓的掌柜王于貴愁眉苦臉地迎上來侄刽,“玉大人,你說我怎么就攤上這事朋凉≈莸ぃ” “怎么了?”我有些...
    開封第一講書人閱讀 152,445評論 0 341
  • 文/不壞的土叔 我叫張陵杂彭,是天一觀的道長墓毒。 經(jīng)常有香客問我,道長亲怠,這世上最難降的妖魔是什么所计? 我笑而不...
    開封第一講書人閱讀 55,185評論 1 278
  • 正文 為了忘掉前任,我火速辦了婚禮团秽,結(jié)果婚禮上主胧,老公的妹妹穿的比我還像新娘。我一直安慰自己习勤,他們只是感情好踪栋,可當(dāng)我...
    茶點故事閱讀 64,178評論 5 371
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著姻报,像睡著了一般己英。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上吴旋,一...
    開封第一講書人閱讀 48,970評論 1 284
  • 那天损肛,我揣著相機與錄音,去河邊找鬼荣瑟。 笑死治拿,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的笆焰。 我是一名探鬼主播劫谅,決...
    沈念sama閱讀 38,276評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼镶柱,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了酸些?” 一聲冷哼從身側(cè)響起壮吩,我...
    開封第一講書人閱讀 36,927評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎贯城,沒想到半個月后熊楼,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,400評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡能犯,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,883評論 2 323
  • 正文 我和宋清朗相戀三年鲫骗,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片踩晶。...
    茶點故事閱讀 37,997評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡执泰,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出渡蜻,到底是詐尸還是另有隱情术吝,我是刑警寧澤,帶...
    沈念sama閱讀 33,646評論 4 322
  • 正文 年R本政府宣布晴楔,位于F島的核電站顿苇,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏税弃。R本人自食惡果不足惜纪岁,卻給世界環(huán)境...
    茶點故事閱讀 39,213評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望则果。 院中可真熱鬧幔翰,春花似錦、人聲如沸西壮。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽款青。三九已至做修,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間抡草,已是汗流浹背饰及。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評論 1 260
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留康震,地道東北人燎含。 一個月前我還...
    沈念sama閱讀 45,423評論 2 352
  • 正文 我出身青樓,卻偏偏與公主長得像腿短,于是被迫代替她去往敵國和親屏箍。 傳聞我的和親對象是個殘疾皇子绘梦,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 42,722評論 2 345

推薦閱讀更多精彩內(nèi)容

  • 歡迎關(guān)注公眾號:oddxixplink的主要功能:數(shù)據(jù)處理,質(zhì)量控制的基本統(tǒng)計赴魁,群體分層分析卸奉,單位點的基本關(guān)聯(lián)分析...
    oddxix閱讀 12,497評論 0 19
  • introduction Plink算是生物信息最常用的軟件之一了,而且很多軟件的輸入也會使用Plink的文件格式...
    銀色麥穗閱讀 21,612評論 7 9
  • 在上一篇文章中尚粘,分享了有關(guān)基因組Phasing的原理择卦,一共有三種,分別是:家系關(guān)系分型(Related indiv...
    黃樹嘉閱讀 6,840評論 3 18
  • 我已經(jīng)討厭慘了兩個人相處中慢慢展示缺陷后分道揚鑣的這個過程了郎嫁,所以從開始我就要給你看到,我傲慢又自大祈噪,冷血又毒舌泽铛,...
    kylin進化論閱讀 325評論 0 0
  • 今天我們演了綠野仙蹤,太開心了我演的獅子辑鲤,我們的王 睿銘和王譯萱忘臺詞了后來他們想起來了呢托托一直在臺上第5幕托托...
    jshs閱讀 292評論 0 0