前言
來(lái)到這里鲁猩,已經(jīng)漸漸不是人話了...
估計(jì)這輩子我也沒(méi)有想到,我把我最厭惡的東西寫(xiě)出來(lái)疹启,
居然是最多人看的......
分析方法很多,這一小節(jié)吐槽官網(wǎng)的這一行代碼户盯,大神請(qǐng)點(diǎn)贊后直接略過(guò)~
plink --bfile mydata --hap-window 3 --hap-assoc
1.背景
我一般不交代“科學(xué)”背景,但是還得“裝”一下饲化。
什么是“Haplotype”莽鸭?
就是你有一堆SNPs,"近朱者赤吃靠,近墨者黑"硫眨,就是要“在一起”遺傳的。
所以Haplotype分析就是要找到這一堆SNPs巢块。
和GWAS分析中常提到的“連鎖”有什么關(guān)系礁阁?
“連鎖”是虛的G珊拧(概率相關(guān)的概念)
單體型是實(shí)的! (物理存在的附近)姥闭。
人話:
“連鎖”法找女朋友全靠算命丹鸿,星座風(fēng)水;
“單倍型”法找女朋友棚品,直接就是你鄰座卜高、鄰居,青梅足馬啊~南片。
2.今天的主角:?jiǎn)伪缎头治觯℉aplotype testing)
道理很簡(jiǎn)單,我們都知道單純靠一個(gè)SNP決定遺傳是不靠譜的~?
(別問(wèn)我為什么知道庭敦,問(wèn)就是100個(gè)位點(diǎn)疼进,你做101個(gè)都未必有陽(yáng)性實(shí)驗(yàn)結(jié)果,在其他人中也驗(yàn)證不出來(lái))
本質(zhì)上秧廉,就像看警匪片伞广,要揪,就把整個(gè)犯罪團(tuán)伙揪出來(lái)疼电!
(非人話地說(shuō):?jiǎn)伪缎头治鲈诙ㄎ患膊『托誀钣嘘P(guān)的基因方面具有更好的功效)
3.今天的吐槽大會(huì):
plink --bfile mydata --hap-window 3 --hap-assoc
前面的:plink --bfile mydata 這里看過(guò)之前的都沒(méi)有問(wèn)題了嚼锄,除非你沒(méi)有看~
后面的這個(gè)?--hap-assoc 也就是單倍型關(guān)聯(lián)分析嘛~
至于中間的這個(gè)“ --hap-window 3” 是什么鬼?
官網(wǎng)寫(xiě)的是這樣的:
to form all 3-SNP haplotypes across the entire dataset (respecting chromosome boundaries, however). In this case the windows will be automatically named?WIN1,?WIN2, etc.?
然后又是這樣的:
This command can take a comma-delimited list of values, e.g.
? ? ?--hap-window 1,2,3
to perform all single SNP tests (1-SNP haplotypes) as well as sliding windows of all 2-SNP and 3-SNP haplotypes.
每個(gè)單詞都懂蔽豺,但是就是看不懂啊~~~~~
放心区丑,這鍋不該英語(yǔ)老師來(lái)背~
要讀懂這里,首先要了解一下:“sliding window”
因?yàn)闆_動(dòng)的后果就是這樣:
ERROR: Problem with specification of haplotype sliding window
sliding:滑行的修陡;window:窗 (簡(jiǎn)單沧侥、總體、多數(shù)情況來(lái)說(shuō)魄鸦,就是你規(guī)定的基因范圍)
sliding window相當(dāng)于就是:
?我設(shè)定SNP個(gè)數(shù)一個(gè)一個(gè)玩宴杀!~~~
即:1就是一個(gè)一個(gè)玩,2就是兩個(gè)兩個(gè)玩拾因,3就是三個(gè)三個(gè)玩M铡!>罴恰扁达!
吐槽:
知道為什么程序員寫(xiě)的“說(shuō)明”都“看不懂”了吧!以來(lái)就三個(gè)庭惜!~~~那么猛罩驻!
具體如下:(注意,不是隨機(jī)組合抽取护赊,是按固定個(gè)數(shù)一直往下走惠遏,“slide”~砾跃,直到走不下去)
6個(gè)SNPs,一個(gè)一個(gè)玩(可以玩6次,6個(gè)windows):
6個(gè)SNPs,三個(gè)三個(gè)玩(可以玩4次抽高,4個(gè)windows):
6個(gè)SNPs,五個(gè)五個(gè)玩(只能玩2次透绩,2個(gè)windows):
例子夠了吧?還不點(diǎn)贊帚豪?
其實(shí)碳竟,吐槽完了,plink還是挺“銀杏”的~
只要你在 --hap-window 中用逗號(hào)這樣分開(kāi)“1,2,3”(?--hap-window 1,2,3)狸臣,就會(huì)給出1莹桅,2,3各種情況時(shí)的結(jié)果烛亦,如下:
所以铐达,
plink --bfile mydata --hap-window 3 --hap-assoc,
你學(xué)廢了嗎檬果?
后記:
目前文獻(xiàn)瓮孙,把基本關(guān)聯(lián)做完了以后,就常規(guī)做一個(gè)LD檢驗(yàn)选脊,之后就繼續(xù)做單體型與疾病關(guān)聯(lián)分析衷畦,然而這個(gè)后續(xù)的單體型與疾病關(guān)聯(lián)分析,并不以前面的LD所分辨出來(lái)的BLOCK為基礎(chǔ)知牌,而是他做了多少個(gè)SNP祈争,就用多少個(gè)SNP一起做單體型與疾病關(guān)聯(lián)分析。
實(shí)現(xiàn)這里的“用多少個(gè)SNP一起做單體型與疾病關(guān)聯(lián)分析”角寸,就是在這一小節(jié)之前使用extract提取你要的SNP文件(具體參考:)菩混,如6個(gè)SNPs(注意這個(gè)snps.txt,就是一個(gè)一列扁藕,沒(méi)有列名的沮峡,想要提取snp名字的txt文件!不要想復(fù)雜了?):
plink --noweb --bfile data --extract snps.txt --recode --make-bed --out 6snps
然后這個(gè)6snp文件就是你的mydata文件亿柑。
不寫(xiě)了邢疙,反正你們也不會(huì)點(diǎn)贊的~
參考文獻(xiàn):
1.提升SNP和單倍體認(rèn)識(shí)逼格:http://doc.aporc.org/attach/Course001/Bioinformatics-3.pdf
2.大神討論:https://www.dxy.cn/bbs/newweb/pc/post/20879971