GWAS分析-說人話(2)認(rèn)識文件名

前言

認(rèn)識文件名,這玩意太重要了赊窥!行外人看不懂氨濉!O悄堋3对佟!V酚觥熄阻!

高逼格的東西自己閱讀參考文件了,我只上最粗暴的倔约!~

尼馬的秃殉,給我記好了,不然在GWAS分析的路上活不下的=!<鼐!


1.五大格式

Plink 主要處理五大格式的文件:

ped map bed fam bim

說人話:

看看你的手掌>钜@艄А!5只手指重罪,然后給自己打一個巴掌砸泛。

2.相互關(guān)系

ped 和 map 是一組的

bed fam bim 是一組的

說人話:

認(rèn)清關(guān)系,才能知道分析什么G狻4浇浮!拿什么來分析惨篱!~

相信我盏筐! 因?yàn)镻link指令是一對一對識別(例如名字.ped,單獨(dú)運(yùn)行不了,一定要有配對的名字.map文件砸讳,一對起來才能運(yùn)行琢融,名字是要一樣的哦!)簿寂!

別問我為什么漾抬,哈佛的程序員喜歡這樣弄,你揍他俺K臁纳令!~ 揍不到,有本事就自己弄一個軟件出來就是了(其實(shí)肯定是有本身的原因的,例如大量數(shù)據(jù)的處理更加快速之類的)平绩。

上一個全局:

忍不住盜一個圖圈匆,真的總結(jié)得很好!記得看參考文件澳蟠啤跃赚!

3.ped 格式

ped 必須與map 文件一起

前六列是固定的!第七列開始后面就是每個snp位點(diǎn)的基因型情況性湿,可以有很多列纬傲,但基因型必須是成對存在的。

ped文件結(jié)構(gòu)


長啥樣肤频?

說人話:

A pedigree is a structured description of the familial relationships between samples.

Some GATK tools are capable of incorporating pedigree information in the analysis they perform if provided in the form of a PED file through the --pedigree (or -ped) argument.

ped就是縮寫pedigree疤纠ā!

總之着裹,就是記錄家系(pedigree ) 信息的文件就是了!

4.map 格式

有4行

map文件結(jié)構(gòu)


長啥樣米同?

說人話:

就是你檢測出來的SNP信息昂取!

由于genotype file (GD file面粮,例如上面的ped文件)里沒有SNP位置信息少孝,因此需要一個額外的map file(GM file)。GM file里的SNP順序需要和GD中的保持一致熬苍。

map就是地圖的意思吧宰摺!2竦住婿脸!地圖干嘛用的?就是告訴人位置的氨ぁ狐树!

那么多個基因(我不是說23對基因,我是說30億個堿基對)的位置鸿脓,你要不要先定個小目標(biāo)抑钟,數(shù)1億個試試?我要你找第5千個堿基對野哭,可能都想吐了~在塔。

這個其實(shí)和游戲里面,地圖信息會存一個map文件有異曲同工的作用~

上一個王者榮耀的地圖拨黔,有空找我開黑~求上王者50星~


在認(rèn)識下面三個文件前蛔溃,要說句人話!~

? ? 生成bed、fam城榛、bim揪利、文件

? ? 1.由于Plink程序識別的是二進(jìn)制文件,所以我們要通過相應(yīng)的命令將其轉(zhuǎn)化成二進(jìn)制的狠持。這就是疟位,為什么有“ped”和“map”就“夠了”~

? ? 2.為什么要轉(zhuǎn)換成二進(jìn)制?

? ? 子曰:天下武功喘垂,唯快不破L鹂獭(加快計(jì)算機(jī)運(yùn)算)

? ? 3.利用--make-bed產(chǎn)生可以用于分析的二進(jìn)制數(shù)據(jù)(就是下面的東東了),一件生成的(一次過滿足你三個愿望U铡)

5.bed文件

1.首先這里強(qiáng)調(diào)的是bed文件與UCSC Genome Browser's BED format 是完全不一樣的得院。

2.bed 文件與bim fam 文件一起的 (這三個是一起的)

3.bed文件是一個二進(jìn)制文件,所以你是看不來的

6.bim文件

1.從這個說明我們可以看出bim文件是對map文件的拓展

2.總共有六行章贞,包含了snp(variants)的具體信息

2.1.第一列是染色體信息

2.2.第二列是snp的名字

2.3.第三列是摩爾距離祥绞,文件中說可以用0,沒關(guān)系

2.4.第四列是物理距離

2.5.第五列是次要等位基因

2.6.第六列是主要等位基因

這里的信息要和bed文件對應(yīng)起來

3.這個文件也是要和bed fam 文件結(jié)合來使用(這三個是一起的)

bim文件長啥樣鸭限?

7.fam格式

1.fam文件記錄了每個樣本家系的信息

2.fam文件也是必須和bed bim文件一起使用

3.主要有6 列:

3.1.第一列是Family ID ('FID')

3.2.第二列是Within-family ID ('IID'; cannot be '0')

3.3.第三列是Within-family ID of father ('0' if father isn't in dataset)

3.4.第四列是Within-family ID of mother ('0' if mother isn't in dataset)

3.5.第五列是性別 ('1' = male, '2' = female, '0' = unknown)

3.6.第六列是表型 ('1' = control, '2' = case, '-9'/'0'/non-numeric = missing data if case/control)

fam文件長啥樣蜕径?

說人話!

fam就是代表family嘛败京! 有家系信息的兜喻。

bim可以看成是binary(二進(jìn)制)+map(地圖)加在一起的!這里的信息要和bed文件對應(yīng)起來

bed:這個就不是給人看的(二進(jìn)制文件)赡麦∑咏裕“床上干羞羞的事”,能給人看嘛7捍狻遂铡?

后記

? ? ? ? 相信我,記住這些晶姊,逼格提高了忧便,分析順心了,連生活都美好了帽借!~

參考文件:

1.http://www.360doc.com/content/18/1222/16/52645714_803596284.shtml

2.http://www.reibang.com/p/286050959dbd

3.https://wenku.baidu.com/view/04462103a98271fe910ef9bd.html

4.https://gatkforums.broadinstitute.org/gatk/discussion/7696/pedigree-ped-files

5.http://www.reibang.com/p/8ced7531b728

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末珠增,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子砍艾,更是在濱河造成了極大的恐慌蒂教,老刑警劉巖,帶你破解...
    沈念sama閱讀 222,183評論 6 516
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件脆荷,死亡現(xiàn)場離奇詭異凝垛,居然都是意外死亡懊悯,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,850評論 3 399
  • 文/潘曉璐 我一進(jìn)店門梦皮,熙熙樓的掌柜王于貴愁眉苦臉地迎上來炭分,“玉大人,你說我怎么就攤上這事剑肯∨趺” “怎么了?”我有些...
    開封第一講書人閱讀 168,766評論 0 361
  • 文/不壞的土叔 我叫張陵让网,是天一觀的道長呀忧。 經(jīng)常有香客問我,道長溃睹,這世上最難降的妖魔是什么而账? 我笑而不...
    開封第一講書人閱讀 59,854評論 1 299
  • 正文 為了忘掉前任,我火速辦了婚禮因篇,結(jié)果婚禮上泞辐,老公的妹妹穿的比我還像新娘。我一直安慰自己竞滓,他們只是感情好咐吼,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,871評論 6 398
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著虽界,像睡著了一般汽烦。 火紅的嫁衣襯著肌膚如雪涛菠。 梳的紋絲不亂的頭發(fā)上莉御,一...
    開封第一講書人閱讀 52,457評論 1 311
  • 那天,我揣著相機(jī)與錄音俗冻,去河邊找鬼礁叔。 笑死,一個胖子當(dāng)著我的面吹牛迄薄,可吹牛的內(nèi)容都是我干的琅关。 我是一名探鬼主播,決...
    沈念sama閱讀 40,999評論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼讥蔽,長吁一口氣:“原來是場噩夢啊……” “哼涣易!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起冶伞,我...
    開封第一講書人閱讀 39,914評論 0 277
  • 序言:老撾萬榮一對情侶失蹤新症,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后响禽,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體徒爹,經(jīng)...
    沈念sama閱讀 46,465評論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡荚醒,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,543評論 3 342
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了隆嗅。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片界阁。...
    茶點(diǎn)故事閱讀 40,675評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖胖喳,靈堂內(nèi)的尸體忽然破棺而出泡躯,到底是詐尸還是另有隱情,我是刑警寧澤禀晓,帶...
    沈念sama閱讀 36,354評論 5 351
  • 正文 年R本政府宣布精续,位于F島的核電站,受9級特大地震影響粹懒,放射性物質(zhì)發(fā)生泄漏重付。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,029評論 3 335
  • 文/蒙蒙 一凫乖、第九天 我趴在偏房一處隱蔽的房頂上張望确垫。 院中可真熱鬧,春花似錦帽芽、人聲如沸删掀。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,514評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽披泪。三九已至,卻和暖如春搬瑰,著一層夾襖步出監(jiān)牢的瞬間款票,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,616評論 1 274
  • 我被黑心中介騙來泰國打工泽论, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留艾少,地道東北人。 一個月前我還...
    沈念sama閱讀 49,091評論 3 378
  • 正文 我出身青樓翼悴,卻偏偏與公主長得像缚够,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子鹦赎,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,685評論 2 360