前言
認(rèn)識文件名,這玩意太重要了赊窥!行外人看不懂氨濉!O悄堋3对佟!V酚觥熄阻!
高逼格的東西自己閱讀參考文件了,我只上最粗暴的倔约!~
尼馬的秃殉,給我記好了,不然在GWAS分析的路上活不下的=!<鼐!
1.五大格式
Plink 主要處理五大格式的文件:
ped map bed fam bim
說人話:
看看你的手掌>钜@艄А!5只手指重罪,然后給自己打一個巴掌砸泛。
2.相互關(guān)系
ped 和 map 是一組的
bed fam bim 是一組的
說人話:
認(rèn)清關(guān)系,才能知道分析什么G狻4浇浮!拿什么來分析惨篱!~
相信我盏筐! 因?yàn)镻link指令是一對一對識別(例如名字.ped,單獨(dú)運(yùn)行不了,一定要有配對的名字.map文件砸讳,一對起來才能運(yùn)行琢融,名字是要一樣的哦!)簿寂!
別問我為什么漾抬,哈佛的程序員喜歡這樣弄,你揍他俺K臁纳令!~ 揍不到,有本事就自己弄一個軟件出來就是了(其實(shí)肯定是有本身的原因的,例如大量數(shù)據(jù)的處理更加快速之類的)平绩。
上一個全局:
3.ped 格式
ped 必須與map 文件一起
前六列是固定的!第七列開始后面就是每個snp位點(diǎn)的基因型情況性湿,可以有很多列纬傲,但基因型必須是成對存在的。
說人話:
A pedigree is a structured description of the familial relationships between samples.
Some GATK tools are capable of incorporating pedigree information in the analysis they perform if provided in the form of a PED file through the --pedigree (or -ped) argument.
ped就是縮寫pedigree疤纠ā!
總之着裹,就是記錄家系(pedigree ) 信息的文件就是了!
4.map 格式
有4行
說人話:
就是你檢測出來的SNP信息昂取!
由于genotype file (GD file面粮,例如上面的ped文件)里沒有SNP位置信息少孝,因此需要一個額外的map file(GM file)。GM file里的SNP順序需要和GD中的保持一致熬苍。
map就是地圖的意思吧宰摺!2竦住婿脸!地圖干嘛用的?就是告訴人位置的氨ぁ狐树!
那么多個基因(我不是說23對基因,我是說30億個堿基對)的位置鸿脓,你要不要先定個小目標(biāo)抑钟,數(shù)1億個試試?我要你找第5千個堿基對野哭,可能都想吐了~在塔。
這個其實(shí)和游戲里面,地圖信息會存一個map文件有異曲同工的作用~
在認(rèn)識下面三個文件前蛔溃,要說句人話!~
? ? 生成bed、fam城榛、bim揪利、文件
? ? 1.由于Plink程序識別的是二進(jìn)制文件,所以我們要通過相應(yīng)的命令將其轉(zhuǎn)化成二進(jìn)制的狠持。這就是疟位,為什么有“ped”和“map”就“夠了”~
? ? 2.為什么要轉(zhuǎn)換成二進(jìn)制?
? ? 子曰:天下武功喘垂,唯快不破L鹂獭(加快計(jì)算機(jī)運(yùn)算)
? ? 3.利用--make-bed產(chǎn)生可以用于分析的二進(jìn)制數(shù)據(jù)(就是下面的東東了),一件生成的(一次過滿足你三個愿望U铡)
5.bed文件
1.首先這里強(qiáng)調(diào)的是bed文件與UCSC Genome Browser's BED format 是完全不一樣的得院。
2.bed 文件與bim fam 文件一起的 (這三個是一起的)
3.bed文件是一個二進(jìn)制文件,所以你是看不來的
6.bim文件
1.從這個說明我們可以看出bim文件是對map文件的拓展
2.總共有六行章贞,包含了snp(variants)的具體信息
2.1.第一列是染色體信息
2.2.第二列是snp的名字
2.3.第三列是摩爾距離祥绞,文件中說可以用0,沒關(guān)系
2.4.第四列是物理距離
2.5.第五列是次要等位基因
2.6.第六列是主要等位基因
這里的信息要和bed文件對應(yīng)起來
3.這個文件也是要和bed fam 文件結(jié)合來使用(這三個是一起的)
7.fam格式
1.fam文件記錄了每個樣本家系的信息
2.fam文件也是必須和bed bim文件一起使用
3.主要有6 列:
3.1.第一列是Family ID ('FID')
3.2.第二列是Within-family ID ('IID'; cannot be '0')
3.3.第三列是Within-family ID of father ('0' if father isn't in dataset)
3.4.第四列是Within-family ID of mother ('0' if mother isn't in dataset)
3.5.第五列是性別 ('1' = male, '2' = female, '0' = unknown)
3.6.第六列是表型 ('1' = control, '2' = case, '-9'/'0'/non-numeric = missing data if case/control)
說人話!
fam就是代表family嘛败京! 有家系信息的兜喻。
bim可以看成是binary(二進(jìn)制)+map(地圖)加在一起的!這里的信息要和bed文件對應(yīng)起來
bed:這個就不是給人看的(二進(jìn)制文件)赡麦∑咏裕“床上干羞羞的事”,能給人看嘛7捍狻遂铡?
后記
? ? ? ? 相信我,記住這些晶姊,逼格提高了忧便,分析順心了,連生活都美好了帽借!~
參考文件:
1.http://www.360doc.com/content/18/1222/16/52645714_803596284.shtml
2.http://www.reibang.com/p/286050959dbd
3.https://wenku.baidu.com/view/04462103a98271fe910ef9bd.html
4.https://gatkforums.broadinstitute.org/gatk/discussion/7696/pedigree-ped-files
5.http://www.reibang.com/p/8ced7531b728