GWAS課程學(xué)習(xí)筆記

參考課程: 基迪奧GWAS課程:https://www.omicshare.com/class/Home/Index/singlev?id=3

自然群體利用了進(jìn)化過程中的染色體重組示启,容易進(jìn)行基因定位虎敦。

1秩铆、GWAS分析常用的軟件

(1)TASSEL

  • 植物類項目應(yīng)用較多线罕,可以矯正群體結(jié)構(gòu)和系譜關(guān)系(Trait Analysis by aSSociation, Evolution and Linkage; Bradbury et al, 2007, Bioinformatics 23:2633-2635)
    (2)EMMA
  • 動物類項目應(yīng)用較多隆敢,可矯正系譜關(guān)系(Kang et al, 2008, Genetics 178:1709-1723)
    (3)Plink
  • 使用較為簡單(Purcell et al, American Journal of Human Genetics, 2007, 81)

2店雅、表型的處理:線性表型性狀

  • 正態(tài)性判斷:R語言的shapiro.test(x)檢驗(yàn)
  • 如果是僅個別樣本異常面褐,建議剔除纬黎。如極端值、離開均值大于4倍SD的
  • 若整體偏離散(如基因表達(dá)量值)闽晦,建議取log2后扳碍,重新檢驗(yàn)正態(tài)性。

3仙蛉、材料的選擇

主要從兩方面考慮笋敞,一是其LD衰減和重組情況如何、二是群體結(jié)構(gòu)如何荠瘪。

(1)群體的選擇

  • 野生品種夯巷、地方品種、培育品種
    不同群體關(guān)聯(lián)分析的效果不同


  • 標(biāo)記的效應(yīng)越弱哀墓,要檢測到這個標(biāo)記所需的樣本數(shù)目就更大趁餐,因此要先考慮研究的性狀是偏質(zhì)量的、還是偏主效基因的篮绰,or前人報道的沒有主效基因的
  • 如果是前人報道的無主效基因的后雷,就要考慮增加樣本,或確實(shí)定位不到位點(diǎn)

(2)基因型是否完全覆蓋

  • GWAS分析的基礎(chǔ)就是基因與標(biāo)記之間的LD是否連鎖,不同群體的LD衰減距離不同臀突,可以用hyploview進(jìn)行計算勉抓。
  • 通常當(dāng)兩個位點(diǎn)間R2>0.8時,認(rèn)為兩位點(diǎn)處于完全連鎖不平衡候学,但這種連鎖狀態(tài)會隨區(qū)域增加而不斷降低琳状。
    如何根據(jù)LD衰減距離判斷做GWAS所需的標(biāo)記個數(shù)?盒齿?
  • 如果群體的LD衰減距離是100k念逞,那么分析時就要保證每100k至少要有一個marker,那么1M就需要10個边翁、1G就是10w個翎承、3G就需要30w個
  • 核心種質(zhì)的LD衰減非常快符匾,因此要增加標(biāo)記密度

(3)基因型判斷群體結(jié)構(gòu)的影響(隨機(jī)背景標(biāo)記)

群體結(jié)構(gòu)(Q矩陣)和個體檢潛在的系譜關(guān)系(K矩陣)叨咖,可能會導(dǎo)致假陽性(如下圖):


  • 群體結(jié)構(gòu)和性狀分布恰好一致,會使人誤以為只要是量群體特有的基因就都是與性狀關(guān)聯(lián)的啊胶,即將區(qū)分群體的背景標(biāo)記認(rèn)為是與性狀相關(guān)的甸各;
  • 解決辦法(2種):
    ① 將群體結(jié)構(gòu)作為協(xié)變量,引入到方程式里焰坪,將群體間的影響校正掉趣倾,剩下的效應(yīng)可能是標(biāo)記的效應(yīng);
  • 計算群體結(jié)構(gòu)(Q矩陣):用structure或PCA分析的結(jié)果某饰,作為群體結(jié)構(gòu)的協(xié)變量儒恋,將其引入模型 ----- 具體操作見楊曉紅老師GWAS操作教程課件
  • 計算個體遺傳關(guān)系(系譜關(guān)系,K矩陣):用SPAGeDi軟件


② 將兩個群體分開黔漂,分別單獨(dú)做GWAS诫尽,來敲除遺傳背景對群體結(jié)構(gòu)的影響

4、GWAS分析的多階段設(shè)計

(1)什么是多階段設(shè)計炬守?

  • 在人類疾病的GWAS研究中诗越,常用兩階段法分析柠逞,比較嚴(yán)謹(jǐn)术吝。第一階段一般用覆蓋全基因組的位點(diǎn)设拟,第二階段則聚焦在少量的候選位點(diǎn)的測序數(shù)據(jù)進(jìn)行GWAS分析斋扰。
  • 單階段:一個群體進(jìn)行關(guān)聯(lián)分析 → 完成不嚴(yán)謹(jǐn)擅威,一般為動植物類的研究
  • 兩階段:
    (1)階段1:找候選關(guān)聯(lián)位點(diǎn)
    小樣本(幾百)全基因組關(guān)聯(lián)分析缕坎,得到候選位點(diǎn)逆甜;
    (2)階段2:候選位點(diǎn)的驗(yàn)證
    已有群體大樣本(成千上萬)或新的獨(dú)立群體,只對候選位點(diǎn)的關(guān)聯(lián)分析墓捻。
    (2)多階段設(shè)計的優(yōu)點(diǎn)
  • 有驗(yàn)證的步驟:可靠;
  • 降低成本:第二階段的檢測位點(diǎn)數(shù)較少;
  • 解決潛在的多重檢驗(yàn)校正的位點(diǎn)
    高密度芯片or全基因組重測序砖第,SNP數(shù)量可達(dá)1M撤卢,多重檢驗(yàn)過于嚴(yán)格。
    如:1M SNP梧兼,Bonferroni校正的adjusted p value閾值 = 0.05/110-6=510-8(太嚴(yán)格)
  • 可以采用的方法:第一階段放松過濾閾值放吩,在第二階段進(jìn)行驗(yàn)證。由于第二階段位點(diǎn)數(shù)較少羽杰,多重檢驗(yàn)校正不會如此嚴(yán)格渡紫。

5、關(guān)聯(lián)分析所需的模型

(1)模型原理

  • 固定效應(yīng)1:環(huán)境效應(yīng)考赛,如不同年份惕澎、不同地點(diǎn)數(shù)據(jù)
  • 固定效應(yīng)2:位點(diǎn)效應(yīng)
  • 固定效應(yīng)3:群體結(jié)構(gòu)效應(yīng),群體分層導(dǎo)致的颜骤,需要糾正唧喉,樣本所屬的亞群分類信息用Q矩陣表示
  • 隨機(jī)效應(yīng):潛在的系譜關(guān)系,K矩陣
  • 隨機(jī)誤差
    關(guān)聯(lián)分析時并不是說所有位點(diǎn)都要考慮忍抽,要結(jié)合自己的情況八孝,選擇合適的

(2)模型的選擇

① 動物

  • PCA分析初步判斷;
  • 一般而言鸠项,動物類樣本在系譜清晰干跛,且沒有明顯群體結(jié)構(gòu)的情況下,可直接剔除離群樣本祟绊;剔除離群樣本后驯鳖,再將剩下的個體做PCA分析,如果不再存在群體分層久免,即可用一般線性模型做關(guān)聯(lián)分析浅辙;
  • 若存在群體分層,再考慮使用Q矩陣進(jìn)行矯正阎姥。

② 植物

  • PCA分析初步判斷记舆;
  • 植物(尤其作物)因品系間雜交更普遍(如玉米),故群體結(jié)構(gòu)和不同品系間的系譜關(guān)系更普遍呼巴;分析時泽腮,同時使用一般線性模型和不同的混合線性模型,然后比較結(jié)果的好壞衣赶。

(3)如何判斷模型是否合適诊赊?——qq圖

① 正常的qq圖:前貼后起

  • GWAS分析后,p-value的-log10從低到高排序府瞄,看其與期望p-value之間的差別)
  • 假如標(biāo)記與性狀完全不相關(guān)碧磅,則標(biāo)記的p-value應(yīng)該是正態(tài)分布,因此會一直沿著直線走,并且實(shí)際情況下鲸郊,絕大部分標(biāo)記確實(shí)是跟性狀不相關(guān)丰榴。到了后期,標(biāo)記的顯著性增高秆撮,可能開始與性狀之間存在相關(guān)四濒,因此其觀測到的p值會顯著高于期望p值。

② 異常情況:過度矯正

  • 過度矯正的可能原因:
    a. 群體結(jié)構(gòu)或kinship矯正過于嚴(yán)格职辨,導(dǎo)致觀測值<期望值盗蟆;
    b. 期望p-value的隨機(jī)分布是基于位點(diǎn)之間互相獨(dú)立的假設(shè),高通量測序or高密度芯片會導(dǎo)致很多相鄰位點(diǎn)間存在連鎖or相關(guān)關(guān)系舒裤,這樣的話觀測到的p值就不是完全隨機(jī)的喳资,若位點(diǎn)間實(shí)際存在

(4)關(guān)聯(lián)分析的模型選擇

  • 做任何性狀的關(guān)聯(lián)分析時,都需要用至少2個模型進(jìn)行模擬惭每,判斷最佳模型


(5)不同分析方法的最適范圍:

6骨饿、示例:GWAS分析的一般步驟

step 1:通過進(jìn)化樹和PCA分析,看群體分層情況

step 2:不同模型的比較 —— 找出最佳模型

step 3:分群體和全群體分析 —— 當(dāng)存在明顯的群體分層時

Step 4:對定位到的位點(diǎn)的解讀:優(yōu)先解讀可解讀的台腥,再去挖掘其他的

step 5: 結(jié)合RNA-seq或群體遺傳學(xué)等其他方法來驗(yàn)證這個位點(diǎn)附近的基因可能是與性狀相關(guān)的

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末宏赘,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子黎侈,更是在濱河造成了極大的恐慌察署,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,839評論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件峻汉,死亡現(xiàn)場離奇詭異贴汪,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)休吠,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,543評論 2 382
  • 文/潘曉璐 我一進(jìn)店門扳埂,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人瘤礁,你說我怎么就攤上這事阳懂。” “怎么了柜思?”我有些...
    開封第一講書人閱讀 153,116評論 0 344
  • 文/不壞的土叔 我叫張陵岩调,是天一觀的道長。 經(jīng)常有香客問我赡盘,道長号枕,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,371評論 1 279
  • 正文 為了忘掉前任陨享,我火速辦了婚禮葱淳,結(jié)果婚禮上钝腺,老公的妹妹穿的比我還像新娘。我一直安慰自己蛙紫,他們只是感情好拍屑,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,384評論 5 374
  • 文/花漫 我一把揭開白布途戒。 她就那樣靜靜地躺著坑傅,像睡著了一般。 火紅的嫁衣襯著肌膚如雪喷斋。 梳的紋絲不亂的頭發(fā)上唁毒,一...
    開封第一講書人閱讀 49,111評論 1 285
  • 那天,我揣著相機(jī)與錄音星爪,去河邊找鬼浆西。 笑死,一個胖子當(dāng)著我的面吹牛顽腾,可吹牛的內(nèi)容都是我干的近零。 我是一名探鬼主播,決...
    沈念sama閱讀 38,416評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼抄肖,長吁一口氣:“原來是場噩夢啊……” “哼久信!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起漓摩,我...
    開封第一講書人閱讀 37,053評論 0 259
  • 序言:老撾萬榮一對情侶失蹤裙士,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后管毙,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體腿椎,經(jīng)...
    沈念sama閱讀 43,558評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,007評論 2 325
  • 正文 我和宋清朗相戀三年夭咬,在試婚紗的時候發(fā)現(xiàn)自己被綠了啃炸。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,117評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡卓舵,死狀恐怖南用,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情边器,我是刑警寧澤训枢,帶...
    沈念sama閱讀 33,756評論 4 324
  • 正文 年R本政府宣布,位于F島的核電站忘巧,受9級特大地震影響恒界,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜砚嘴,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,324評論 3 307
  • 文/蒙蒙 一十酣、第九天 我趴在偏房一處隱蔽的房頂上張望涩拙。 院中可真熱鬧,春花似錦耸采、人聲如沸兴泥。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,315評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽搓彻。三九已至,卻和暖如春嘱朽,著一層夾襖步出監(jiān)牢的瞬間旭贬,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,539評論 1 262
  • 我被黑心中介騙來泰國打工搪泳, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留稀轨,地道東北人。 一個月前我還...
    沈念sama閱讀 45,578評論 2 355
  • 正文 我出身青樓岸军,卻偏偏與公主長得像奋刽,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子艰赞,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,877評論 2 345